This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/
-
CodeGen/
-
GlobalISel/
3/7
IRTranslator.cpp
-
SelectionDAG/
5
SelectionDAGBuilder.cpp
-
Target/AMDGPU/
-
AMDGPU/
-
AMDGPUCallLowering.h
3
AMDGPUCallLowering.cpp
-
AMDGPUISelLowering.h
-
AMDGPUISelLowering.cpp
-
AMDGPUInstrInfo.td
3
SIISelLowering.cpp
-
SIInstructions.td
-
SILateBranchLowering.cpp
-
SIRegisterInfo.cpp
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
-
GlobalISel/
-
irtranslator-amdgcn-cs-chain.ll
-
amdgpu-cs-chain-cc.ll
-
amdgpu-cs-chain-preserve-cc.ll
-
isel-amdgcn-cs-chain-intrinsic-w32.ll
-
isel-amdgcn-cs-chain-intrinsic-w64.ll

Differential D153761

[AMDGPU] ISel for @llvm.amdgcn.cs.chain intrinsic
ClosedPublic

Authored by rovka on Jun 26 2023, 6:01 AM.

Download Raw Diff

Details

Reviewers

None

Group Reviewers

Restricted Project

Commits

rG7f5d59b38dc4: [AMDGPU] ISel for @llvm.amdgcn.cs.chain intrinsic (#68186)

Summary

The @llvm.amdgcn.cs.chain intrinsic is essentially a call. The call
parameters are bundled up into 2 intrinsic arguments, one for those that
should go in the SGPRs (the 3rd intrinsic argument), and one for those
that should go in the VGPRs (the 4th intrinsic argument). Both will
often be some kind of aggregate.

Both instruction selection frameworks have some internal representation
for intrinsics (G_INTRINSIC[_WITH_SIDE_EFFECTS] for GlobalISel,
ISD::INTRINSIC_[VOID|WITH_CHAIN] for DAGISel), but we can't use those
because aggregates are dissolved very early on during ISel and we'd lose
the inreg information. Therefore, this patch shortcircuits both the
IRTranslator and SelectionDAGBuilder to lower this intrinsic as a call
from the very start. It tries to use the existing infrastructure as much
as possible, by calling into the code for lowering tail calls.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

rovka created this revision.Jun 26 2023, 6:01 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 26 2023, 6:01 AM

Herald added subscribers: foad, kerbowa, hiraditya and 6 others. · View Herald Transcript

rovka requested review of this revision.Jun 26 2023, 6:01 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 26 2023, 6:01 AM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

rovka added a parent revision: D153535: [AMDGPU][DAGISel] Be more flexible about what calls are allowed.Jun 26 2023, 6:01 AM

rovka added a parent revision: D153517: [AMDGPU] ISel for amdgpu_cs_chain[_preserve] functions.

rovka added a reviewer: Restricted Project.

Harbormaster completed remote builds in B241148: Diff 534516.Jun 26 2023, 6:11 AM

arsenm added inline comments.Jun 26 2023, 7:40 AM

llvm/lib/CodeGen/GlobalISel/IRTranslator.cpp
2540	Probably should avoid touching the generic IRTranslator. Can you just handle this as a legalize on the intrinsic itself? Fundamentally this isn't really any different from emitting a libcall, you'd just need to access the CallLowering from the legalize function

rovka added inline comments.Jun 27 2023, 12:31 AM

llvm/lib/CodeGen/GlobalISel/IRTranslator.cpp
2540	Yeah, I'm not a fan of this either, but the IRTranslator already splits up aggregates and then errors out somewhere along the way. Even if I somehow fix that error, I think it will be more of a maintenance burden to try to hold on to these aggregates, and if we don't keep them together long enough then we won't know which values are meant to go in SGPRs and which in VGPRs. It's clearer and more straightforward to deal with this early on. But I do agree that this code doesn't look great. I can think of a couple of ways to make it a bit better: Move the check into translateKnownIntrinsic, which already goes through a lot of intrinsics. At the moment none of them are target-specific, but that might change in the future anyway (SelectionDAG has at least 2 aarch64 intrinsics in similar generic code, I haven't checked if GlobalISel supports them yet), or Add an `IsCall` intrinsic attribute and pass intrinsics with that attribute through CallLowering (either `lowerCall` directly or a new hook, e.g. `lowerIntrinsicAsCall`) Do either of those sound more palatable?

Moved check for amdgpu_cs_chain to translateKnownIntrinsics.

arsenm added inline comments.Jun 28 2023, 5:31 AM

llvm/lib/CodeGen/GlobalISel/IRTranslator.cpp
2540	Why do you need to preserve the aggregates? What's the error? I would expect you don't care about aggregates to lower this, and that aggregates should just work

Harbormaster completed remote builds in B241748: Diff 535332.Jun 28 2023, 5:38 AM

rovka added inline comments.Jun 28 2023, 6:03 AM

llvm/lib/CodeGen/GlobalISel/IRTranslator.cpp
2540	I care about the aggregates because otherwise how would I know which values to put in SGPRs and which ones to put in VGPRs? The semantics of the intrinsic are that the 3rd argument contains the stuff that goes into SGPRs, and the 4th contains the stuff that goes into VGPRs. If I allow these to be broken up before legalization (or whenever we decide to actually lower this), then I'll end up with a `G_INTRINSIC_WITH_SIDE_EFFECTS` with a whole lot of smaller registers, and I won't know where the ones from the first aggregate end and the ones from the second aggregate begin, aka I won't know which ones I should copy to SGPRs and which ones to VGPRs. Does that make sense? (The actual error is IIRC here, but I don't think that's the most important point; I could fix that to build a merge, like SelectionDAGBuilder does - but even in DAGISel we lose the merge in the first round of combines, and with it the information on what kind of reg each value should be placed in).

arsenm added inline comments.Jun 29 2023, 11:38 AM

llvm/lib/CodeGen/GlobalISel/IRTranslator.cpp
2540	I would have assumed this is indicated by using inreg on the call parameters. If that were the case, I suppose you would still need to find a way to preserve that information

Set EXEC. This is very smooth for GlobalISel but a bit roundabout for DAGISel (I'm
not sure if there's a better way to handle it, since DAGISel gives control to
the target pretty late on).

Thanks for all the discussion so far. I'm going on vacation so I'll respond to
any other comments after the 17th of July.

Harbormaster completed remote builds in B242383: Diff 536193.Jun 30 2023, 6:16 AM

Looks pretty good to me overall. I don't know enough about call lowering to offer an opinion on the alternative ways of implementing this that you have been discussing with @arsenm.

The @llvm.amdgcn.cs.chain intrinsic is essentially a call.

It's a tail call, isn't it? Does it have the same restriction as an LLVM IR tail call, that allocas in the caller cannot be accessed by the callee?

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp
7466	Capitalize variable names.
7475	Is this something you could check in the IR verifier? Failing an assertion here is not a nice diagnostic.
7478	Not sure what "it will be handled differently" is telling me?
llvm/lib/Target/AMDGPU/AMDGPUCallLowering.cpp
965
1331–1332
1336	This is `TRI->getExec()`
llvm/lib/Target/AMDGPU/SIISelLowering.cpp
3372–3373	Should not need these lines. We already have access to `Subtarget`.
3383–3384
3628	`TRI->getExec()`, if you move the definition of `TRI` up from 33 lines below.

It's a tail call, isn't it? Does it have the same restriction as an LLVM IR tail call, that allocas in the caller cannot be accessed by the callee?

Yes, that's right.

It would be nice to have a simple test case that shows the final assembly.

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp
7475	Could also make this a report_fatal_error

Address review comments.
I've opted for having more checks in the verifier (D156409).

rovka added a child revision: D156409: [AMDGPU] More verifier checks for llvm.amdgcn.cs.chain.Jul 27 2023, 3:16 AM

rovka retitled this revision from [AMDGPU] ISel for @llvm.amdgcn.cs.chain intrinsic (WIP) to [AMDGPU] ISel for @llvm.amdgcn.cs.chain intrinsic.

rovka edited the summary of this revision. (Show Details)

rovka removed a child revision: D156409: [AMDGPU] More verifier checks for llvm.amdgcn.cs.chain.Jul 27 2023, 3:23 AM

rovka added a parent revision: D156409: [AMDGPU] More verifier checks for llvm.amdgcn.cs.chain.

rovka added a child revision: D156412: [AMDGPU][PEI] Callee saves for amdgpu_cs_chain[_preserve].Jul 27 2023, 3:26 AM

Harbormaster completed remote builds in B248490: Diff 544678.Jul 27 2023, 4:36 AM

Rebase.

Harbormaster completed remote builds in B251891: Diff 549309.Aug 11 2023, 4:53 AM

arsenm added inline comments.Aug 17 2023, 11:49 AM

llvm/lib/CodeGen/GlobalISel/IRTranslator.cpp
2540	An alternative scheme would be you could just have an immarg parameter that indicates which operand index the VGPRs (start from
llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp
7450	unchecked dyn_cast in assert, should use cast or precheck with isa

rovka added inline comments.Aug 21 2023, 4:09 AM

llvm/lib/CodeGen/GlobalISel/IRTranslator.cpp
2540	That might work, but then splitting the arguments for this intrinsic would go through a different code path than splitting regular function parameters / call arguments, so I would feel less confident about the generated code. Mismatches would not be fun to debug/fix.

Fix cast derpness.

Harbormaster completed remote builds in B253813: Diff 551974.Aug 21 2023, 5:11 AM

Ping

Rebase

Harbormaster completed remote builds in B255717: Diff 554611.Aug 30 2023, 2:48 AM

This revision was not accepted when it landed; it landed in state Needs Review.Nov 6 2023, 3:30 AM

Closed by commit rG7f5d59b38dc4: [AMDGPU] ISel for @llvm.amdgcn.cs.chain intrinsic (#68186) (authored by rovka, committed by GitHub <noreply@github.com>). · Explain Why

This revision was automatically updated to reflect the committed changes.

GitHub <noreply@github.com> added a commit: rG7f5d59b38dc4: [AMDGPU] ISel for @llvm.amdgcn.cs.chain intrinsic (#68186).

The review for this was completed in GitHub: https://github.com/llvm/llvm-project/pull/68186

Revision Contents

Path

Size

llvm/

lib/

CodeGen/

GlobalISel/

IRTranslator.cpp

3 lines

SelectionDAG/

SelectionDAGBuilder.cpp

49 lines

Target/

AMDGPU/

AMDGPUCallLowering.h

3 lines

AMDGPUCallLowering.cpp

112 lines

AMDGPUISelLowering.h

1 line

AMDGPUISelLowering.cpp

1 line

AMDGPUInstrInfo.td

5 lines

SIISelLowering.cpp

67 lines

SIInstructions.td

44 lines

SILateBranchLowering.cpp

19 lines

SIRegisterInfo.cpp

5 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

irtranslator-amdgcn-cs-chain.ll

125 lines

amdgpu-cs-chain-cc.ll

466 lines

amdgpu-cs-chain-preserve-cc.ll

437 lines

isel-amdgcn-cs-chain-intrinsic-w32.ll

737 lines

isel-amdgcn-cs-chain-intrinsic-w64.ll

753 lines

Diff 558023

llvm/lib/CodeGen/GlobalISel/IRTranslator.cpp

Show First 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
#include "llvm/IR/DiagnosticInfo.h"		#include "llvm/IR/DiagnosticInfo.h"
#include "llvm/IR/Function.h"		#include "llvm/IR/Function.h"
#include "llvm/IR/GetElementPtrTypeIterator.h"		#include "llvm/IR/GetElementPtrTypeIterator.h"
#include "llvm/IR/InlineAsm.h"		#include "llvm/IR/InlineAsm.h"
#include "llvm/IR/InstrTypes.h"		#include "llvm/IR/InstrTypes.h"
#include "llvm/IR/Instructions.h"		#include "llvm/IR/Instructions.h"
#include "llvm/IR/IntrinsicInst.h"		#include "llvm/IR/IntrinsicInst.h"
#include "llvm/IR/Intrinsics.h"		#include "llvm/IR/Intrinsics.h"
		#include "llvm/IR/IntrinsicsAMDGPU.h"
#include "llvm/IR/LLVMContext.h"		#include "llvm/IR/LLVMContext.h"
#include "llvm/IR/Metadata.h"		#include "llvm/IR/Metadata.h"
#include "llvm/IR/PatternMatch.h"		#include "llvm/IR/PatternMatch.h"
#include "llvm/IR/Statepoint.h"		#include "llvm/IR/Statepoint.h"
#include "llvm/IR/Type.h"		#include "llvm/IR/Type.h"
#include "llvm/IR/User.h"		#include "llvm/IR/User.h"
#include "llvm/IR/Value.h"		#include "llvm/IR/Value.h"
#include "llvm/InitializePasses.h"		#include "llvm/InitializePasses.h"
▲ Show 20 Lines • Show All 2,312 Lines • ▼ Show 20 Lines	if (ID == Intrinsic::ubsantrap) {
Info.OrigArgs.push_back({getOrCreateVRegs(*CI.getArgOperand(0)),		Info.OrigArgs.push_back({getOrCreateVRegs(*CI.getArgOperand(0)),
CI.getArgOperand(0)->getType(), 0});		CI.getArgOperand(0)->getType(), 0});
}		}
Info.Callee = MachineOperand::CreateES(TrapFuncName.data());		Info.Callee = MachineOperand::CreateES(TrapFuncName.data());
Info.CB = &CI;		Info.CB = &CI;
Info.OrigRet = {Register(), Type::getVoidTy(CI.getContext()), 0};		Info.OrigRet = {Register(), Type::getVoidTy(CI.getContext()), 0};
return CLI->lowerCall(MIRBuilder, Info);		return CLI->lowerCall(MIRBuilder, Info);
}		}
		case Intrinsic::amdgcn_cs_chain:
		return translateCallBase(CI, MIRBuilder);
case Intrinsic::fptrunc_round: {		case Intrinsic::fptrunc_round: {
uint32_t Flags = MachineInstr::copyFlagsFromInstruction(CI);		uint32_t Flags = MachineInstr::copyFlagsFromInstruction(CI);

// Convert the metadata argument to a constant integer		// Convert the metadata argument to a constant integer
Metadata *MD = cast<MetadataAsValue>(CI.getArgOperand(1))->getMetadata();		Metadata *MD = cast<MetadataAsValue>(CI.getArgOperand(1))->getMetadata();
std::optional<RoundingMode> RoundMode =		std::optional<RoundingMode> RoundMode =
convertStrToRoundingMode(cast<MDString>(MD)->getString());		convertStrToRoundingMode(cast<MDString>(MD)->getString());

▲ Show 20 Lines • Show All 128 Lines • ▼ Show 20 Lines	bool IRTranslator::translateCall(const User &U, MachineIRBuilder &MIRBuilder) {
Intrinsic::ID ID = Intrinsic::not_intrinsic;		Intrinsic::ID ID = Intrinsic::not_intrinsic;
if (F && F->isIntrinsic()) {		if (F && F->isIntrinsic()) {
ID = F->getIntrinsicID();		ID = F->getIntrinsicID();
if (TII && ID == Intrinsic::not_intrinsic)		if (TII && ID == Intrinsic::not_intrinsic)
ID = static_cast<Intrinsic::ID>(TII->getIntrinsicID(F));		ID = static_cast<Intrinsic::ID>(TII->getIntrinsicID(F));
}		}

if (!F \|\| !F->isIntrinsic() \|\| ID == Intrinsic::not_intrinsic)		if (!F \|\| !F->isIntrinsic() \|\| ID == Intrinsic::not_intrinsic)
return translateCallBase(CI, MIRBuilder);		return translateCallBase(CI, MIRBuilder);
		arsenmUnsubmitted Not Done Reply Inline Actions Probably should avoid touching the generic IRTranslator. Can you just handle this as a legalize on the intrinsic itself? Fundamentally this isn't really any different from emitting a libcall, you'd just need to access the CallLowering from the legalize function arsenm: Probably should avoid touching the generic IRTranslator. Can you just handle this as a legalize…
		rovkaAuthorUnsubmitted Done Reply Inline Actions Yeah, I'm not a fan of this either, but the IRTranslator already splits up aggregates and then errors out somewhere along the way. Even if I somehow fix that error, I think it will be more of a maintenance burden to try to hold on to these aggregates, and if we don't keep them together long enough then we won't know which values are meant to go in SGPRs and which in VGPRs. It's clearer and more straightforward to deal with this early on. But I do agree that this code doesn't look great. I can think of a couple of ways to make it a bit better: Move the check into translateKnownIntrinsic, which already goes through a lot of intrinsics. At the moment none of them are target-specific, but that might change in the future anyway (SelectionDAG has at least 2 aarch64 intrinsics in similar generic code, I haven't checked if GlobalISel supports them yet), or Add an `IsCall` intrinsic attribute and pass intrinsics with that attribute through CallLowering (either `lowerCall` directly or a new hook, e.g. `lowerIntrinsicAsCall`) Do either of those sound more palatable? rovka: Yeah, I'm not a fan of this either, but the IRTranslator already splits up aggregates and then…
		arsenmUnsubmitted Not Done Reply Inline Actions Why do you need to preserve the aggregates? What's the error? I would expect you don't care about aggregates to lower this, and that aggregates should just work arsenm: Why do you need to preserve the aggregates? What's the error? I would expect you don't care…
		rovkaAuthorUnsubmitted Done Reply Inline Actions I care about the aggregates because otherwise how would I know which values to put in SGPRs and which ones to put in VGPRs? The semantics of the intrinsic are that the 3rd argument contains the stuff that goes into SGPRs, and the 4th contains the stuff that goes into VGPRs. If I allow these to be broken up before legalization (or whenever we decide to actually lower this), then I'll end up with a `G_INTRINSIC_WITH_SIDE_EFFECTS` with a whole lot of smaller registers, and I won't know where the ones from the first aggregate end and the ones from the second aggregate begin, aka I won't know which ones I should copy to SGPRs and which ones to VGPRs. Does that make sense? (The actual error is IIRC here, but I don't think that's the most important point; I could fix that to build a merge, like SelectionDAGBuilder does - but even in DAGISel we lose the merge in the first round of combines, and with it the information on what kind of reg each value should be placed in). rovka: I care about the aggregates because otherwise how would I know which values to put in SGPRs and…
		arsenmUnsubmitted Not Done Reply Inline Actions I would have assumed this is indicated by using inreg on the call parameters. If that were the case, I suppose you would still need to find a way to preserve that information arsenm: I would have assumed this is indicated by using inreg on the call parameters. If that were the…
		arsenmUnsubmitted Not Done Reply Inline Actions An alternative scheme would be you could just have an immarg parameter that indicates which operand index the VGPRs (start from arsenm: An alternative scheme would be you could just have an immarg parameter that indicates which…
		rovkaAuthorUnsubmitted Done Reply Inline Actions That might work, but then splitting the arguments for this intrinsic would go through a different code path than splitting regular function parameters / call arguments, so I would feel less confident about the generated code. Mismatches would not be fun to debug/fix. rovka: That might work, but then splitting the arguments for this intrinsic would go through a…

assert(ID != Intrinsic::not_intrinsic && "unknown intrinsic");		assert(ID != Intrinsic::not_intrinsic && "unknown intrinsic");

if (translateKnownIntrinsic(CI, ID, MIRBuilder))		if (translateKnownIntrinsic(CI, ID, MIRBuilder))
return true;		return true;

ArrayRef<Register> ResultRegs;		ArrayRef<Register> ResultRegs;
if (!CI.getType()->isVoidTy())		if (!CI.getType()->isVoidTy())
▲ Show 20 Lines • Show All 1,173 Lines • Show Last 20 Lines

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 70 Lines • ▼ Show 20 Lines
#include "llvm/IR/Function.h"		#include "llvm/IR/Function.h"
#include "llvm/IR/GetElementPtrTypeIterator.h"		#include "llvm/IR/GetElementPtrTypeIterator.h"
#include "llvm/IR/InlineAsm.h"		#include "llvm/IR/InlineAsm.h"
#include "llvm/IR/InstrTypes.h"		#include "llvm/IR/InstrTypes.h"
#include "llvm/IR/Instructions.h"		#include "llvm/IR/Instructions.h"
#include "llvm/IR/IntrinsicInst.h"		#include "llvm/IR/IntrinsicInst.h"
#include "llvm/IR/Intrinsics.h"		#include "llvm/IR/Intrinsics.h"
#include "llvm/IR/IntrinsicsAArch64.h"		#include "llvm/IR/IntrinsicsAArch64.h"
		#include "llvm/IR/IntrinsicsAMDGPU.h"
#include "llvm/IR/IntrinsicsWebAssembly.h"		#include "llvm/IR/IntrinsicsWebAssembly.h"
#include "llvm/IR/LLVMContext.h"		#include "llvm/IR/LLVMContext.h"
#include "llvm/IR/Metadata.h"		#include "llvm/IR/Metadata.h"
#include "llvm/IR/Module.h"		#include "llvm/IR/Module.h"
#include "llvm/IR/Operator.h"		#include "llvm/IR/Operator.h"
#include "llvm/IR/PatternMatch.h"		#include "llvm/IR/PatternMatch.h"
#include "llvm/IR/Statepoint.h"		#include "llvm/IR/Statepoint.h"
#include "llvm/IR/Type.h"		#include "llvm/IR/Type.h"
▲ Show 20 Lines • Show All 7,352 Lines • ▼ Show 20 Lines	case Intrinsic::aarch64_settag_zero: {
SDValue Val = TSI.EmitTargetCodeForSetTag(		SDValue Val = TSI.EmitTargetCodeForSetTag(
DAG, sdl, getRoot(), getValue(I.getArgOperand(0)),		DAG, sdl, getRoot(), getValue(I.getArgOperand(0)),
getValue(I.getArgOperand(1)), MachinePointerInfo(I.getArgOperand(0)),		getValue(I.getArgOperand(1)), MachinePointerInfo(I.getArgOperand(0)),
ZeroMemory);		ZeroMemory);
DAG.setRoot(Val);		DAG.setRoot(Val);
setValue(&I, Val);		setValue(&I, Val);
return;		return;
}		}
		case Intrinsic::amdgcn_cs_chain: {
		assert(I.arg_size() == 5 && "Additional args not supported yet");
		assert(cast<ConstantInt>(I.getOperand(4))->isZero() &&
		arsenmUnsubmitted Not Done Reply Inline Actions unchecked dyn_cast in assert, should use cast or precheck with isa arsenm: unchecked dyn_cast in assert, should use cast or precheck with isa
		"Non-zero flags not supported yet");

		// At this point we don't care if it's amdgpu_cs_chain or
		// amdgpu_cs_chain_preserve.
		CallingConv::ID CC = CallingConv::AMDGPU_CS_Chain;

		Type *RetTy = I.getType();
		assert(RetTy->isVoidTy() && "Should not return");

		SDValue Callee = getValue(I.getOperand(0));

		// We only have 2 actual args: one for the SGPRs and one for the VGPRs.
		// We'll also tack the value of the EXEC mask at the end.
		TargetLowering::ArgListTy Args;
		Args.reserve(3);

		foadUnsubmitted Not Done Reply Inline Actions Capitalize variable names. foad: Capitalize variable names.
		for (unsigned Idx : {2, 3, 1}) {
		TargetLowering::ArgListEntry Arg;
		Arg.Node = getValue(I.getOperand(Idx));
		Arg.Ty = I.getOperand(Idx)->getType();
		Arg.setAttributes(&I, Idx);
		Args.push_back(Arg);
		}

		assert(Args[0].IsInReg && "SGPR args should be marked inreg");
		foadUnsubmitted Not Done Reply Inline Actions Is this something you could check in the IR verifier? Failing an assertion here is not a nice diagnostic. foad: Is this something you could check in the IR verifier? Failing an assertion here is not a nice…
		nhaehnleUnsubmitted Not Done Reply Inline Actions Could also make this a report_fatal_error nhaehnle: Could also make this a report_fatal_error
		assert(!Args[1].IsInReg && "VGPR args should not be marked inreg");
		Args[2].IsInReg = true; // EXEC should be inreg

		foadUnsubmitted Not Done Reply Inline Actions Not sure what "it will be handled differently" is telling me? foad: Not sure what "it will be handled differently" is telling me?
		TargetLowering::CallLoweringInfo CLI(DAG);
		CLI.setDebugLoc(getCurSDLoc())
		.setChain(getRoot())
		.setCallee(CC, RetTy, Callee, std::move(Args))
		.setNoReturn(true)
		.setTailCall(true)
		.setConvergent(I.isConvergent());
		CLI.CB = &I;
		std::pair<SDValue, SDValue> Result =
		lowerInvokable(CLI, /EHPadBB/ nullptr);
		(void)Result;
		assert(!Result.first.getNode() && !Result.second.getNode() &&
		"Should've lowered as tail call");

		HasTailCall = true;
		return;
		}
case Intrinsic::ptrmask: {		case Intrinsic::ptrmask: {
SDValue Ptr = getValue(I.getOperand(0));		SDValue Ptr = getValue(I.getOperand(0));
SDValue Mask = getValue(I.getOperand(1));		SDValue Mask = getValue(I.getOperand(1));

EVT PtrVT = Ptr.getValueType();		EVT PtrVT = Ptr.getValueType();
assert(PtrVT == Mask.getValueType() &&		assert(PtrVT == Mask.getValueType() &&
"Pointers with different index type are not supported by SDAG");		"Pointers with different index type are not supported by SDAG");
setValue(&I, DAG.getNode(ISD::AND, sdl, PtrVT, Ptr, Mask));		setValue(&I, DAG.getNode(ISD::AND, sdl, PtrVT, Ptr, Mask));
▲ Show 20 Lines • Show All 4,656 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPUCallLowering.h

Show First 20 Lines • Show All 69 Lines • ▼ Show 20 Lines	public:
isEligibleForTailCallOptimization(MachineIRBuilder &MIRBuilder,		isEligibleForTailCallOptimization(MachineIRBuilder &MIRBuilder,
CallLoweringInfo &Info,		CallLoweringInfo &Info,
SmallVectorImpl<ArgInfo> &InArgs,		SmallVectorImpl<ArgInfo> &InArgs,
SmallVectorImpl<ArgInfo> &OutArgs) const;		SmallVectorImpl<ArgInfo> &OutArgs) const;

void handleImplicitCallArguments(		void handleImplicitCallArguments(
MachineIRBuilder &MIRBuilder, MachineInstrBuilder &CallInst,		MachineIRBuilder &MIRBuilder, MachineInstrBuilder &CallInst,
const GCNSubtarget &ST, const SIMachineFunctionInfo &MFI,		const GCNSubtarget &ST, const SIMachineFunctionInfo &MFI,
		CallingConv::ID CalleeCC,
ArrayRef<std::pair<MCRegister, Register>> ImplicitArgRegs) const;		ArrayRef<std::pair<MCRegister, Register>> ImplicitArgRegs) const;

bool lowerTailCall(MachineIRBuilder &MIRBuilder, CallLoweringInfo &Info,		bool lowerTailCall(MachineIRBuilder &MIRBuilder, CallLoweringInfo &Info,
SmallVectorImpl<ArgInfo> &OutArgs) const;		SmallVectorImpl<ArgInfo> &OutArgs) const;
		bool lowerChainCall(MachineIRBuilder &MIRBuilder,
		CallLoweringInfo &Info) const;
bool lowerCall(MachineIRBuilder &MIRBuilder,		bool lowerCall(MachineIRBuilder &MIRBuilder,
CallLoweringInfo &Info) const override;		CallLoweringInfo &Info) const override;

static CCAssignFn *CCAssignFnForCall(CallingConv::ID CC, bool IsVarArg);		static CCAssignFn *CCAssignFnForCall(CallingConv::ID CC, bool IsVarArg);
static CCAssignFn *CCAssignFnForReturn(CallingConv::ID CC, bool IsVarArg);		static CCAssignFn *CCAssignFnForReturn(CallingConv::ID CC, bool IsVarArg);
};		};
} // End of namespace llvm;		} // End of namespace llvm;
#endif		#endif

llvm/lib/Target/AMDGPU/AMDGPUCallLowering.cpp

Show First 20 Lines • Show All 955 Lines • ▼ Show 20 Lines

/// Returns a pair containing the fixed CCAssignFn and the vararg CCAssignFn for /// Returns a pair containing the fixed CCAssignFn and the vararg CCAssignFn for

/// CC. /// CC.

static std::pair<CCAssignFn *, CCAssignFn *> static std::pair<CCAssignFn *, CCAssignFn *>

getAssignFnsForCC(CallingConv::ID CC, const SITargetLowering &TLI) { getAssignFnsForCC(CallingConv::ID CC, const SITargetLowering &TLI) {

return {TLI.CCAssignFnForCall(CC, false), TLI.CCAssignFnForCall(CC, true)}; return {TLI.CCAssignFnForCall(CC, false), TLI.CCAssignFnForCall(CC, true)};

} }

static unsigned getCallOpcode(const MachineFunction &CallerF, bool IsIndirect, static unsigned getCallOpcode(const MachineFunction &CallerF, bool IsIndirect,

bool IsTailCall, CallingConv::ID CC) { bool IsTailCall, bool isWave32,

assert(!(IsIndirect && IsTailCall) && "Indirect calls can't be tail calls, " CallingConv::ID CC) {

foadUnsubmitted

Not Done

// For calls to amdgpu_cs_chain functions, the address is known to be uniform.

- assert((AMDGPU::isChainCC(CC) || !(IsIndirect && IsTailCall)) &&

+ assert((AMDGPU::isChainCC(CC) || !IsIndirect || !IsTailCall) &&

"Indirect calls can't be tail calls, "

foad:

// For calls to amdgpu_cs_chain functions, the address is known to be uniform.

assert((AMDGPU::isChainCC(CC) || !IsIndirect || !IsTailCall) &&

"Indirect calls can't be tail calls, "

"because the address can be divergent"); "because the address can be divergent");

if (!IsTailCall) if (!IsTailCall)

return AMDGPU::G_SI_CALL; return AMDGPU::G_SI_CALL;

if (AMDGPU::isChainCC(CC))

return isWave32 ? AMDGPU::SI_CS_CHAIN_TC_W32 : AMDGPU::SI_CS_CHAIN_TC_W64;

return CC == CallingConv::AMDGPU_Gfx ? AMDGPU::SI_TCRETURN_GFX : return CC == CallingConv::AMDGPU_Gfx ? AMDGPU::SI_TCRETURN_GFX :

AMDGPU::SI_TCRETURN; AMDGPU::SI_TCRETURN;

} }

// Add operands to call instruction to track the callee. // Add operands to call instruction to track the callee.

static bool addCallTargetOperands(MachineInstrBuilder &CallInst, static bool addCallTargetOperands(MachineInstrBuilder &CallInst,

MachineIRBuilder &MIRBuilder, MachineIRBuilder &MIRBuilder,

AMDGPUCallLowering::CallLoweringInfo &Info) { AMDGPUCallLowering::CallLoweringInfo &Info) {

▲ Show 20 Lines • Show All 171 Lines • ▼ Show 20 Lines

} }

// Insert outgoing implicit arguments for a call, by inserting copies to the // Insert outgoing implicit arguments for a call, by inserting copies to the

// implicit argument registers and adding the necessary implicit uses to the // implicit argument registers and adding the necessary implicit uses to the

// call instruction. // call instruction.

void AMDGPUCallLowering::handleImplicitCallArguments( void AMDGPUCallLowering::handleImplicitCallArguments(

MachineIRBuilder &MIRBuilder, MachineInstrBuilder &CallInst, MachineIRBuilder &MIRBuilder, MachineInstrBuilder &CallInst,

const GCNSubtarget &ST, const SIMachineFunctionInfo &FuncInfo, const GCNSubtarget &ST, const SIMachineFunctionInfo &FuncInfo,

CallingConv::ID CalleeCC,

ArrayRef<std::pair<MCRegister, Register>> ImplicitArgRegs) const { ArrayRef<std::pair<MCRegister, Register>> ImplicitArgRegs) const {

if (!ST.enableFlatScratch()) { if (!ST.enableFlatScratch()) {

// Insert copies for the SRD. In the HSA case, this should be an identity // Insert copies for the SRD. In the HSA case, this should be an identity

// copy. // copy.

auto ScratchRSrcReg = MIRBuilder.buildCopy(LLT::fixed_vector(4, 32), auto ScratchRSrcReg = MIRBuilder.buildCopy(LLT::fixed_vector(4, 32),

FuncInfo.getScratchRSrcReg()); FuncInfo.getScratchRSrcReg());

MIRBuilder.buildCopy(AMDGPU::SGPR0_SGPR1_SGPR2_SGPR3, ScratchRSrcReg);

CallInst.addReg(AMDGPU::SGPR0_SGPR1_SGPR2_SGPR3, RegState::Implicit); auto CalleeRSrcReg = AMDGPU::isChainCC(CalleeCC)

? AMDGPU::SGPR48_SGPR49_SGPR50_SGPR51

: AMDGPU::SGPR0_SGPR1_SGPR2_SGPR3;

MIRBuilder.buildCopy(CalleeRSrcReg, ScratchRSrcReg);

CallInst.addReg(CalleeRSrcReg, RegState::Implicit);

} }

for (std::pair<MCRegister, Register> ArgReg : ImplicitArgRegs) { for (std::pair<MCRegister, Register> ArgReg : ImplicitArgRegs) {

MIRBuilder.buildCopy((Register)ArgReg.first, ArgReg.second); MIRBuilder.buildCopy((Register)ArgReg.first, ArgReg.second);

CallInst.addReg(ArgReg.first, RegState::Implicit); CallInst.addReg(ArgReg.first, RegState::Implicit);

} }

Show All 15 Lines bool AMDGPUCallLowering::lowerTailCall(

CCAssignFn *AssignFnFixed; CCAssignFn *AssignFnFixed;

CCAssignFn *AssignFnVarArg; CCAssignFn *AssignFnVarArg;

std::tie(AssignFnFixed, AssignFnVarArg) = getAssignFnsForCC(CalleeCC, TLI); std::tie(AssignFnFixed, AssignFnVarArg) = getAssignFnsForCC(CalleeCC, TLI);

MachineInstrBuilder CallSeqStart; MachineInstrBuilder CallSeqStart;

if (!IsSibCall) if (!IsSibCall)

CallSeqStart = MIRBuilder.buildInstr(AMDGPU::ADJCALLSTACKUP); CallSeqStart = MIRBuilder.buildInstr(AMDGPU::ADJCALLSTACKUP);

unsigned Opc = getCallOpcode(MF, Info.Callee.isReg(), true, CalleeCC); unsigned Opc =

getCallOpcode(MF, Info.Callee.isReg(), true, ST.isWave32(), CalleeCC);

auto MIB = MIRBuilder.buildInstrNoInsert(Opc); auto MIB = MIRBuilder.buildInstrNoInsert(Opc);

if (!addCallTargetOperands(MIB, MIRBuilder, Info)) if (!addCallTargetOperands(MIB, MIRBuilder, Info))

return false; return false;

// Byte offset for the tail call. When we are sibcalling, this will always // Byte offset for the tail call. When we are sibcalling, this will always

// be 0. // be 0.

MIB.addImm(0); MIB.addImm(0);

// Tell the call which registers are clobbered. // If this is a chain call, we need to pass in the EXEC mask.

const SIRegisterInfo *TRI = ST.getRegisterInfo(); const SIRegisterInfo *TRI = ST.getRegisterInfo();

if (AMDGPU::isChainCC(Info.CallConv)) {

ArgInfo ExecArg = Info.OrigArgs[1];

assert(ExecArg.Regs.size() == 1 && "Too many regs for EXEC");

if (!ExecArg.Ty->isIntegerTy(ST.getWavefrontSize()))

return false;

if (auto CI = dyn_cast<ConstantInt>(ExecArg.OrigValue)) {

MIB.addImm(CI->getSExtValue());

} else {

MIB.addReg(ExecArg.Regs[0]);

unsigned Idx = MIB->getNumOperands() - 1;

MIB->getOperand(Idx).setReg(constrainOperandRegClass(

MF, *TRI, MRI, *ST.getInstrInfo(), *ST.getRegBankInfo(), *MIB,

MIB->getDesc(), MIB->getOperand(Idx), Idx));

}

// Tell the call which registers are clobbered.

const uint32_t *Mask = TRI->getCallPreservedMask(MF, CalleeCC); const uint32_t *Mask = TRI->getCallPreservedMask(MF, CalleeCC);

MIB.addRegMask(Mask); MIB.addRegMask(Mask);

// FPDiff is the byte offset of the call's argument area from the callee's. // FPDiff is the byte offset of the call's argument area from the callee's.

// Stores to callee stack arguments will be placed in FixedStackSlots offset // Stores to callee stack arguments will be placed in FixedStackSlots offset

// by this amount for a tail call. In a sibling call it must be 0 because the // by this amount for a tail call. In a sibling call it must be 0 because the

// caller will deallocate the entire stack and the callee still expects its // caller will deallocate the entire stack and the callee still expects its

// arguments to begin at SP+0. // arguments to begin at SP+0.

Show All 37 Lines bool AMDGPUCallLowering::lowerTailCall(

SmallVector<CCValAssign, 16> ArgLocs; SmallVector<CCValAssign, 16> ArgLocs;

CCState CCInfo(Info.CallConv, Info.IsVarArg, MF, ArgLocs, F.getContext()); CCState CCInfo(Info.CallConv, Info.IsVarArg, MF, ArgLocs, F.getContext());

// We could pass MIB and directly add the implicit uses to the call // We could pass MIB and directly add the implicit uses to the call

// now. However, as an aesthetic choice, place implicit argument operands // now. However, as an aesthetic choice, place implicit argument operands

// after the ordinary user argument registers. // after the ordinary user argument registers.

SmallVector<std::pair<MCRegister, Register>, 12> ImplicitArgRegs; SmallVector<std::pair<MCRegister, Register>, 12> ImplicitArgRegs;

if (Info.CallConv != CallingConv::AMDGPU_Gfx) { if (Info.CallConv != CallingConv::AMDGPU_Gfx &&

!AMDGPU::isChainCC(Info.CallConv)) {

// With a fixed ABI, allocate fixed registers before user arguments. // With a fixed ABI, allocate fixed registers before user arguments.

if (!passSpecialInputs(MIRBuilder, CCInfo, ImplicitArgRegs, Info)) if (!passSpecialInputs(MIRBuilder, CCInfo, ImplicitArgRegs, Info))

return false; return false;

} }

OutgoingValueAssigner Assigner(AssignFnFixed, AssignFnVarArg); OutgoingValueAssigner Assigner(AssignFnFixed, AssignFnVarArg);

if (!determineAssignments(Assigner, OutArgs, CCInfo)) if (!determineAssignments(Assigner, OutArgs, CCInfo))

return false; return false;

// Do the actual argument marshalling. // Do the actual argument marshalling.

AMDGPUOutgoingArgHandler Handler(MIRBuilder, MRI, MIB, true, FPDiff); AMDGPUOutgoingArgHandler Handler(MIRBuilder, MRI, MIB, true, FPDiff);

if (!handleAssignments(Handler, OutArgs, CCInfo, ArgLocs, MIRBuilder)) if (!handleAssignments(Handler, OutArgs, CCInfo, ArgLocs, MIRBuilder))

return false; return false;

handleImplicitCallArguments(MIRBuilder, MIB, ST, *FuncInfo, ImplicitArgRegs); handleImplicitCallArguments(MIRBuilder, MIB, ST, *FuncInfo, CalleeCC,

ImplicitArgRegs);

// If we have -tailcallopt, we need to adjust the stack. We'll do the call // If we have -tailcallopt, we need to adjust the stack. We'll do the call

// sequence start and end here. // sequence start and end here.

if (!IsSibCall) { if (!IsSibCall) {

MIB->getOperand(1).setImm(FPDiff); MIB->getOperand(1).setImm(FPDiff);

CallSeqStart.addImm(NumBytes).addImm(0); CallSeqStart.addImm(NumBytes).addImm(0);

// End the call sequence *before* emitting the call. Normally, we would // End the call sequence *before* emitting the call. Normally, we would

// tidy the frame up after the call. However, here, we've laid out the // tidy the frame up after the call. However, here, we've laid out the

// parameters so that when SP is reset, they will be in the correct // parameters so that when SP is reset, they will be in the correct

// location. // location.

MIRBuilder.buildInstr(AMDGPU::ADJCALLSTACKDOWN).addImm(NumBytes).addImm(0); MIRBuilder.buildInstr(AMDGPU::ADJCALLSTACKDOWN).addImm(NumBytes).addImm(0);

} }

// Now we can add the actual call instruction to the correct basic block. // Now we can add the actual call instruction to the correct basic block.

MIRBuilder.insertInstr(MIB); MIRBuilder.insertInstr(MIB);

// If Callee is a reg, since it is used by a target specific // If Callee is a reg, since it is used by a target specific

// instruction, it must have a register class matching the // instruction, it must have a register class matching the

// constraint of that instruction. // constraint of that instruction.

// FIXME: We should define regbankselectable call instructions to handle // FIXME: We should define regbankselectable call instructions to handle

// divergent call targets. // divergent call targets.

foadUnsubmitted

Not Done

assert(ExecArg.Regs.size() == 1 && "Too many regs for EXEC");

- if ((IsW32 && !ExecArg.Ty->isIntegerTy(32)) ||

- (!IsW32 && !ExecArg.Ty->isIntegerTy(64)))

+ if (!ExecArg.Ty->isIntegerTy(ST.getWavefrontSize()))

return false;

foad:

if (MIB->getOperand(0).isReg()) { if (MIB->getOperand(0).isReg()) {

MIB->getOperand(0).setReg(constrainOperandRegClass( MIB->getOperand(0).setReg(constrainOperandRegClass(

MF, *TRI, MRI, *ST.getInstrInfo(), *ST.getRegBankInfo(), *MIB, MF, *TRI, MRI, *ST.getInstrInfo(), *ST.getRegBankInfo(), *MIB,

MIB->getDesc(), MIB->getOperand(0), 0)); MIB->getDesc(), MIB->getOperand(0), 0));

foadUnsubmitted

Not Done

This is TRI->getExec()

foad: This is `TRI->getExec()`

} }

MF.getFrameInfo().setHasTailCall(); MF.getFrameInfo().setHasTailCall();

Info.LoweredTailCall = true; Info.LoweredTailCall = true;

return true; return true;

} }

/// Lower a call to the @llvm.amdgcn.cs.chain intrinsic.

bool AMDGPUCallLowering::lowerChainCall(MachineIRBuilder &MIRBuilder,

CallLoweringInfo &Info) const {

ArgInfo Callee = Info.OrigArgs[0];

ArgInfo SGPRArgs = Info.OrigArgs[2];

ArgInfo VGPRArgs = Info.OrigArgs[3];

ArgInfo Flags = Info.OrigArgs[4];

assert(cast<ConstantInt>(Flags.OrigValue)->isZero() &&

"Non-zero flags aren't supported yet.");

assert(Info.OrigArgs.size() == 5 && "Additional args aren't supported yet.");

MachineFunction &MF = MIRBuilder.getMF();

const Function &F = MF.getFunction();

const DataLayout &DL = F.getParent()->getDataLayout();

// The function to jump to is actually the first argument, so we'll change the

// Callee and other info to match that before using our existing helper.

const Value *CalleeV = Callee.OrigValue->stripPointerCasts();

if (const Function *F = dyn_cast<Function>(CalleeV)) {

Info.Callee = MachineOperand::CreateGA(F, 0);

Info.CallConv = F->getCallingConv();

} else {

assert(Callee.Regs.size() == 1 && "Too many regs for the callee");

Info.Callee = MachineOperand::CreateReg(Callee.Regs[0], false);

Info.CallConv = CallingConv::AMDGPU_CS_Chain; // amdgpu_cs_chain_preserve

// behaves the same here.

}

// The function that we're calling cannot be vararg (only the intrinsic is).

Info.IsVarArg = false;

assert(std::all_of(SGPRArgs.Flags.begin(), SGPRArgs.Flags.end(),

[](ISD::ArgFlagsTy F) { return F.isInReg(); }) &&

"SGPR arguments should be marked inreg");

assert(std::none_of(VGPRArgs.Flags.begin(), VGPRArgs.Flags.end(),

[](ISD::ArgFlagsTy F) { return F.isInReg(); }) &&

"VGPR arguments should not be marked inreg");

SmallVector<ArgInfo, 8> OutArgs;

splitToValueTypes(SGPRArgs, OutArgs, DL, Info.CallConv);

splitToValueTypes(VGPRArgs, OutArgs, DL, Info.CallConv);

Info.IsMustTailCall = true;

return lowerTailCall(MIRBuilder, Info, OutArgs);

}

bool AMDGPUCallLowering::lowerCall(MachineIRBuilder &MIRBuilder, bool AMDGPUCallLowering::lowerCall(MachineIRBuilder &MIRBuilder,

CallLoweringInfo &Info) const { CallLoweringInfo &Info) const {

if (Function *F = Info.CB->getCalledFunction())

if (F->isIntrinsic()) {

assert(F->getIntrinsicID() == Intrinsic::amdgcn_cs_chain &&

"Unexpected intrinsic");

return lowerChainCall(MIRBuilder, Info);

}

if (Info.IsVarArg) { if (Info.IsVarArg) {

LLVM_DEBUG(dbgs() << "Variadic functions not implemented\n"); LLVM_DEBUG(dbgs() << "Variadic functions not implemented\n");

return false; return false;

} }

MachineFunction &MF = MIRBuilder.getMF(); MachineFunction &MF = MIRBuilder.getMF();

const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>(); const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();

const SIRegisterInfo *TRI = ST.getRegisterInfo(); const SIRegisterInfo *TRI = ST.getRegisterInfo();

Show All 32 Lines std::tie(AssignFnFixed, AssignFnVarArg) =

getAssignFnsForCC(Info.CallConv, TLI); getAssignFnsForCC(Info.CallConv, TLI);

MIRBuilder.buildInstr(AMDGPU::ADJCALLSTACKUP) MIRBuilder.buildInstr(AMDGPU::ADJCALLSTACKUP)

.addImm(0) .addImm(0)

.addImm(0); .addImm(0);

// Create a temporarily-floating call instruction so we can add the implicit // Create a temporarily-floating call instruction so we can add the implicit

// uses of arg registers. // uses of arg registers.

unsigned Opc = getCallOpcode(MF, Info.Callee.isReg(), false, Info.CallConv); unsigned Opc = getCallOpcode(MF, Info.Callee.isReg(), false, ST.isWave32(),

Info.CallConv);

auto MIB = MIRBuilder.buildInstrNoInsert(Opc); auto MIB = MIRBuilder.buildInstrNoInsert(Opc);

MIB.addDef(TRI->getReturnAddressReg(MF)); MIB.addDef(TRI->getReturnAddressReg(MF));

if (!Info.IsConvergent) if (!Info.IsConvergent)

MIB.setMIFlag(MachineInstr::NoConvergent); MIB.setMIFlag(MachineInstr::NoConvergent);

if (!addCallTargetOperands(MIB, MIRBuilder, Info)) if (!addCallTargetOperands(MIB, MIRBuilder, Info))

Show All 25 Lines if (!determineAssignments(Assigner, OutArgs, CCInfo))

return false; return false;

AMDGPUOutgoingArgHandler Handler(MIRBuilder, MRI, MIB, false); AMDGPUOutgoingArgHandler Handler(MIRBuilder, MRI, MIB, false);

if (!handleAssignments(Handler, OutArgs, CCInfo, ArgLocs, MIRBuilder)) if (!handleAssignments(Handler, OutArgs, CCInfo, ArgLocs, MIRBuilder))

return false; return false;

const SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>(); const SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();

handleImplicitCallArguments(MIRBuilder, MIB, ST, *MFI, ImplicitArgRegs); handleImplicitCallArguments(MIRBuilder, MIB, ST, *MFI, Info.CallConv,

ImplicitArgRegs);

// Get a count of how many bytes are to be pushed on the stack. // Get a count of how many bytes are to be pushed on the stack.

unsigned NumBytes = CCInfo.getStackSize(); unsigned NumBytes = CCInfo.getStackSize();

// If Callee is a reg, since it is used by a target specific // If Callee is a reg, since it is used by a target specific

// instruction, it must have a register class matching the // instruction, it must have a register class matching the

// constraint of that instruction. // constraint of that instruction.

Show All 38 Lines

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.h

Show First 20 Lines • Show All 383 Lines • ▼ Show 20 Lines	enum NodeType : unsigned {
UMUL, // 32bit unsigned multiplication		UMUL, // 32bit unsigned multiplication
BRANCH_COND,		BRANCH_COND,
// End AMDIL ISD Opcodes		// End AMDIL ISD Opcodes

// Function call.		// Function call.
CALL,		CALL,
TC_RETURN,		TC_RETURN,
TC_RETURN_GFX,		TC_RETURN_GFX,
		TC_RETURN_CHAIN,
TRAP,		TRAP,

// Masked control flow nodes.		// Masked control flow nodes.
IF,		IF,
ELSE,		ELSE,
LOOP,		LOOP,

// A uniform kernel return that terminates the wavefront.		// A uniform kernel return that terminates the wavefront.
▲ Show 20 Lines • Show All 196 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

Show First 20 Lines • Show All 5,206 Lines • ▼ Show 20 Lines	const char* AMDGPUTargetLowering::getTargetNodeName(unsigned Opcode) const {

// AMDGPU DAG nodes		// AMDGPU DAG nodes
NODE_NAME_CASE(IF)		NODE_NAME_CASE(IF)
NODE_NAME_CASE(ELSE)		NODE_NAME_CASE(ELSE)
NODE_NAME_CASE(LOOP)		NODE_NAME_CASE(LOOP)
NODE_NAME_CASE(CALL)		NODE_NAME_CASE(CALL)
NODE_NAME_CASE(TC_RETURN)		NODE_NAME_CASE(TC_RETURN)
NODE_NAME_CASE(TC_RETURN_GFX)		NODE_NAME_CASE(TC_RETURN_GFX)
		NODE_NAME_CASE(TC_RETURN_CHAIN)
NODE_NAME_CASE(TRAP)		NODE_NAME_CASE(TRAP)
NODE_NAME_CASE(RET_GLUE)		NODE_NAME_CASE(RET_GLUE)
NODE_NAME_CASE(WAVE_ADDRESS)		NODE_NAME_CASE(WAVE_ADDRESS)
NODE_NAME_CASE(RETURN_TO_EPILOG)		NODE_NAME_CASE(RETURN_TO_EPILOG)
NODE_NAME_CASE(ENDPGM)		NODE_NAME_CASE(ENDPGM)
NODE_NAME_CASE(ENDPGM_TRAP)		NODE_NAME_CASE(ENDPGM_TRAP)
NODE_NAME_CASE(DWORDADDR)		NODE_NAME_CASE(DWORDADDR)
NODE_NAME_CASE(FRACT)		NODE_NAME_CASE(FRACT)
▲ Show 20 Lines • Show All 605 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPUInstrInfo.td

	Show First 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	def AMDGPUtc_return: SDNode<"AMDGPUISD::TC_RETURN", AMDGPUTCReturnTP,			def AMDGPUtc_return: SDNode<"AMDGPUISD::TC_RETURN", AMDGPUTCReturnTP,
	[SDNPHasChain, SDNPOptInGlue, SDNPVariadic]			[SDNPHasChain, SDNPOptInGlue, SDNPVariadic]
	>;			>;

	def AMDGPUtc_return_gfx: SDNode<"AMDGPUISD::TC_RETURN_GFX", AMDGPUTCReturnTP,			def AMDGPUtc_return_gfx: SDNode<"AMDGPUISD::TC_RETURN_GFX", AMDGPUTCReturnTP,
	[SDNPHasChain, SDNPOptInGlue, SDNPVariadic]			[SDNPHasChain, SDNPOptInGlue, SDNPVariadic]
	>;			>;

				def AMDGPUtc_return_chain: SDNode<"AMDGPUISD::TC_RETURN_CHAIN",
				SDTypeProfile<0, -1, [SDTCisPtrTy<0>]>,
				[SDNPHasChain, SDNPOptInGlue, SDNPVariadic]
				>;

	def AMDGPUtrap : SDNode<"AMDGPUISD::TRAP",			def AMDGPUtrap : SDNode<"AMDGPUISD::TRAP",
	SDTypeProfile<0, -1, [SDTCisVT<0, i16>]>,			SDTypeProfile<0, -1, [SDTCisVT<0, i16>]>,
	[SDNPHasChain, SDNPVariadic, SDNPSideEffect, SDNPInGlue]			[SDNPHasChain, SDNPVariadic, SDNPSideEffect, SDNPInGlue]
	>;			>;

	def AMDGPUconstdata_ptr : SDNode<			def AMDGPUconstdata_ptr : SDNode<
	"AMDGPUISD::CONST_DATA_PTR", SDTypeProfile <1, 1, [SDTCisVT<0, iPTR>,			"AMDGPUISD::CONST_DATA_PTR", SDTypeProfile <1, 1, [SDTCisVT<0, iPTR>,
	SDTCisVT<0, iPTR>]>			SDTCisVT<0, iPTR>]>
	▲ Show 20 Lines • Show All 383 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 3,272 Lines • ▼ Show 20 Lines static bool mayTailCallThisCC(CallingConv::ID CC) {

} }

bool SITargetLowering::isEligibleForTailCallOptimization( bool SITargetLowering::isEligibleForTailCallOptimization(

SDValue Callee, CallingConv::ID CalleeCC, bool IsVarArg, SDValue Callee, CallingConv::ID CalleeCC, bool IsVarArg,

const SmallVectorImpl<ISD::OutputArg> &Outs, const SmallVectorImpl<ISD::OutputArg> &Outs,

const SmallVectorImpl<SDValue> &OutVals, const SmallVectorImpl<SDValue> &OutVals,

const SmallVectorImpl<ISD::InputArg> &Ins, SelectionDAG &DAG) const { const SmallVectorImpl<ISD::InputArg> &Ins, SelectionDAG &DAG) const {

if (AMDGPU::isChainCC(CalleeCC))

return true;

if (!mayTailCallThisCC(CalleeCC)) if (!mayTailCallThisCC(CalleeCC))

return false; return false;

// For a divergent call target, we need to do a waterfall loop over the // For a divergent call target, we need to do a waterfall loop over the

// possible callees which precludes us from using a simple jump. // possible callees which precludes us from using a simple jump.

if (Callee->isDivergent()) if (Callee->isDivergent())

return false; return false;

▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines bool SITargetLowering::mayBeEmittedAsTailCall(const CallInst *CI) const {

if (AMDGPU::isEntryFunctionCC(ParentFn->getCallingConv())) if (AMDGPU::isEntryFunctionCC(ParentFn->getCallingConv()))

return false; return false;

return true; return true;

} }

// The wave scratch offset register is used as the global base pointer. // The wave scratch offset register is used as the global base pointer.

SDValue SITargetLowering::LowerCall(CallLoweringInfo &CLI, SDValue SITargetLowering::LowerCall(CallLoweringInfo &CLI,

SmallVectorImpl<SDValue> &InVals) const { SmallVectorImpl<SDValue> &InVals) const {

CallingConv::ID CallConv = CLI.CallConv;

bool IsChainCallConv = AMDGPU::isChainCC(CallConv);

SelectionDAG &DAG = CLI.DAG; SelectionDAG &DAG = CLI.DAG;

TargetLowering::ArgListEntry RequestedExec;

foadUnsubmitted

Not Done

Should not need these lines. We already have access to Subtarget.

foad: Should not need these lines. We already have access to `Subtarget`.

if (IsChainCallConv) {

// The last argument should be the value that we need to put in EXEC.

// Pop it out of CLI.Outs and CLI.OutVals before we do any processing so we

// don't treat it like the rest of the arguments.

RequestedExec = CLI.Args.back();

assert(RequestedExec.Node && "No node for EXEC");

if (!RequestedExec.Ty->isIntegerTy(Subtarget->getWavefrontSize()))

return lowerUnhandledCall(CLI, InVals, "Invalid value for EXEC");

assert(CLI.Outs.back().OrigArgIndex == 2 && "Unexpected last arg");

foadUnsubmitted

Not Done

assert(RequestedExec.Node && "No node for EXEC");

- if ((IsWave32 && !RequestedExec.Ty->isIntegerTy(32)) ||

- (!IsWave32 && !RequestedExec.Ty->isIntegerTy(64)))

+ if (!RequestedExec.Ty->isIntegerTy(Subtarget.getWavefrontSize()))

return lowerUnhandledCall(CLI, InVals, "Invalid value for EXEC");

foad:

CLI.Outs.pop_back();

CLI.OutVals.pop_back();

if (RequestedExec.Ty->isIntegerTy(64)) {

assert(CLI.Outs.back().OrigArgIndex == 2 && "Exec wasn't split up");

CLI.Outs.pop_back();

CLI.OutVals.pop_back();

}

assert(CLI.Outs.back().OrigArgIndex != 2 &&

"Haven't popped all the pieces of the EXEC mask");

}

const SDLoc &DL = CLI.DL; const SDLoc &DL = CLI.DL;

SmallVector<ISD::OutputArg, 32> &Outs = CLI.Outs; SmallVector<ISD::OutputArg, 32> &Outs = CLI.Outs;

SmallVector<SDValue, 32> &OutVals = CLI.OutVals; SmallVector<SDValue, 32> &OutVals = CLI.OutVals;

SmallVector<ISD::InputArg, 32> &Ins = CLI.Ins; SmallVector<ISD::InputArg, 32> &Ins = CLI.Ins;

SDValue Chain = CLI.Chain; SDValue Chain = CLI.Chain;

SDValue Callee = CLI.Callee; SDValue Callee = CLI.Callee;

bool &IsTailCall = CLI.IsTailCall; bool &IsTailCall = CLI.IsTailCall;

CallingConv::ID CallConv = CLI.CallConv;

bool IsVarArg = CLI.IsVarArg; bool IsVarArg = CLI.IsVarArg;

bool IsSibCall = false; bool IsSibCall = false;

bool IsThisReturn = false; bool IsThisReturn = false;

MachineFunction &MF = DAG.getMachineFunction(); MachineFunction &MF = DAG.getMachineFunction();

if (Callee.isUndef() || isNullConstant(Callee)) { if (Callee.isUndef() || isNullConstant(Callee)) {

if (!CLI.IsTailCall) { if (!CLI.IsTailCall) {

for (unsigned I = 0, E = CLI.Ins.size(); I != E; ++I) for (unsigned I = 0, E = CLI.Ins.size(); I != E; ++I)

Show All 14 Lines SDValue SITargetLowering::LowerCall(CallLoweringInfo &CLI,

if (IsTailCall && MF.getTarget().Options.GuaranteedTailCallOpt) { if (IsTailCall && MF.getTarget().Options.GuaranteedTailCallOpt) {

return lowerUnhandledCall(CLI, InVals, return lowerUnhandledCall(CLI, InVals,

"unsupported required tail call to function "); "unsupported required tail call to function ");

} }

if (IsTailCall) { if (IsTailCall) {

IsTailCall = isEligibleForTailCallOptimization( IsTailCall = isEligibleForTailCallOptimization(

Callee, CallConv, IsVarArg, Outs, OutVals, Ins, DAG); Callee, CallConv, IsVarArg, Outs, OutVals, Ins, DAG);

if (!IsTailCall && CLI.CB && CLI.CB->isMustTailCall()) { if (!IsTailCall &&

((CLI.CB && CLI.CB->isMustTailCall()) || IsChainCallConv)) {

report_fatal_error("failed to perform tail call elimination on a call " report_fatal_error("failed to perform tail call elimination on a call "

"site marked musttail"); "site marked musttail or on llvm.amdgcn.cs.chain");

} }

bool TailCallOpt = MF.getTarget().Options.GuaranteedTailCallOpt; bool TailCallOpt = MF.getTarget().Options.GuaranteedTailCallOpt;

// A sibling call is one where we're under the usual C ABI and not planning // A sibling call is one where we're under the usual C ABI and not planning

// to change that but can still do a tail call: // to change that but can still do a tail call:

if (!TailCallOpt && IsTailCall) if (!TailCallOpt && IsTailCall)

IsSibCall = true; IsSibCall = true;

if (IsTailCall) if (IsTailCall)

++NumTailCalls; ++NumTailCalls;

} }

const SIMachineFunctionInfo *Info = MF.getInfo<SIMachineFunctionInfo>(); const SIMachineFunctionInfo *Info = MF.getInfo<SIMachineFunctionInfo>();

SmallVector<std::pair<unsigned, SDValue>, 8> RegsToPass; SmallVector<std::pair<unsigned, SDValue>, 8> RegsToPass;

SmallVector<SDValue, 8> MemOpChains; SmallVector<SDValue, 8> MemOpChains;

// Analyze operands of the call, assigning locations to each operand. // Analyze operands of the call, assigning locations to each operand.

SmallVector<CCValAssign, 16> ArgLocs; SmallVector<CCValAssign, 16> ArgLocs;

CCState CCInfo(CallConv, IsVarArg, MF, ArgLocs, *DAG.getContext()); CCState CCInfo(CallConv, IsVarArg, MF, ArgLocs, *DAG.getContext());

CCAssignFn *AssignFn = CCAssignFnForCall(CallConv, IsVarArg); CCAssignFn *AssignFn = CCAssignFnForCall(CallConv, IsVarArg);

if (CallConv != CallingConv::AMDGPU_Gfx) { if (CallConv != CallingConv::AMDGPU_Gfx && !AMDGPU::isChainCC(CallConv)) {

// With a fixed ABI, allocate fixed registers before user arguments. // With a fixed ABI, allocate fixed registers before user arguments.

passSpecialInputs(CLI, CCInfo, *Info, RegsToPass, MemOpChains, Chain); passSpecialInputs(CLI, CCInfo, *Info, RegsToPass, MemOpChains, Chain);

} }

CCInfo.AnalyzeCallOperands(Outs, AssignFn); CCInfo.AnalyzeCallOperands(Outs, AssignFn);

// Get a count of how many bytes are to be pushed on the stack. // Get a count of how many bytes are to be pushed on the stack.

unsigned NumBytes = CCInfo.getStackSize(); unsigned NumBytes = CCInfo.getStackSize();

Show All 9 Lines SDValue SITargetLowering::LowerCall(CallLoweringInfo &CLI,

// by this amount for a tail call. In a sibling call it must be 0 because the // by this amount for a tail call. In a sibling call it must be 0 because the

// caller will deallocate the entire stack and the callee still expects its // caller will deallocate the entire stack and the callee still expects its

// arguments to begin at SP+0. Completely unused for non-tail calls. // arguments to begin at SP+0. Completely unused for non-tail calls.

int32_t FPDiff = 0; int32_t FPDiff = 0;

MachineFrameInfo &MFI = MF.getFrameInfo(); MachineFrameInfo &MFI = MF.getFrameInfo();

// Adjust the stack pointer for the new arguments... // Adjust the stack pointer for the new arguments...

// These operations are automatically eliminated by the prolog/epilog pass // These operations are automatically eliminated by the prolog/epilog pass

if (!IsSibCall) { if (!IsSibCall)

Chain = DAG.getCALLSEQ_START(Chain, 0, 0, DL); Chain = DAG.getCALLSEQ_START(Chain, 0, 0, DL);

if (!IsSibCall || IsChainCallConv) {

if (!Subtarget->enableFlatScratch()) { if (!Subtarget->enableFlatScratch()) {

SmallVector<SDValue, 4> CopyFromChains; SmallVector<SDValue, 4> CopyFromChains;

// In the HSA case, this should be an identity copy. // In the HSA case, this should be an identity copy.

SDValue ScratchRSrcReg SDValue ScratchRSrcReg

= DAG.getCopyFromReg(Chain, DL, Info->getScratchRSrcReg(), MVT::v4i32); = DAG.getCopyFromReg(Chain, DL, Info->getScratchRSrcReg(), MVT::v4i32);

RegsToPass.emplace_back(AMDGPU::SGPR0_SGPR1_SGPR2_SGPR3, ScratchRSrcReg); RegsToPass.emplace_back(IsChainCallConv

? AMDGPU::SGPR48_SGPR49_SGPR50_SGPR51

: AMDGPU::SGPR0_SGPR1_SGPR2_SGPR3,

ScratchRSrcReg);

CopyFromChains.push_back(ScratchRSrcReg.getValue(1)); CopyFromChains.push_back(ScratchRSrcReg.getValue(1));

Chain = DAG.getTokenFactor(DL, CopyFromChains); Chain = DAG.getTokenFactor(DL, CopyFromChains);

} }

MVT PtrVT = MVT::i32; MVT PtrVT = MVT::i32;

// Walk the register/memloc assignments, inserting copies/loads. // Walk the register/memloc assignments, inserting copies/loads.

▲ Show 20 Lines • Show All 111 Lines • ▼ Show 20 Lines SDValue SITargetLowering::LowerCall(CallLoweringInfo &CLI,

// in the correct location. // in the correct location.

if (IsTailCall && !IsSibCall) { if (IsTailCall && !IsSibCall) {

Chain = DAG.getCALLSEQ_END(Chain, NumBytes, 0, InGlue, DL); Chain = DAG.getCALLSEQ_END(Chain, NumBytes, 0, InGlue, DL);

InGlue = Chain.getValue(1); InGlue = Chain.getValue(1);

} }

std::vector<SDValue> Ops; std::vector<SDValue> Ops;

Ops.push_back(Chain); Ops.push_back(Chain);

Ops.push_back(Callee); Ops.push_back(Callee);

foadUnsubmitted

Not Done

TRI->getExec(), if you move the definition of TRI up from 33 lines below.

foad: `TRI->getExec()`, if you move the definition of `TRI` up from 33 lines below.

// Add a redundant copy of the callee global which will not be legalized, as // Add a redundant copy of the callee global which will not be legalized, as

// we need direct access to the callee later. // we need direct access to the callee later.

if (GlobalAddressSDNode *GSD = dyn_cast<GlobalAddressSDNode>(Callee)) { if (GlobalAddressSDNode *GSD = dyn_cast<GlobalAddressSDNode>(Callee)) {

const GlobalValue *GV = GSD->getGlobal(); const GlobalValue *GV = GSD->getGlobal();

Ops.push_back(DAG.getTargetGlobalAddress(GV, DL, MVT::i64)); Ops.push_back(DAG.getTargetGlobalAddress(GV, DL, MVT::i64));

} else { } else {

Ops.push_back(DAG.getTargetConstant(0, DL, MVT::i64)); Ops.push_back(DAG.getTargetConstant(0, DL, MVT::i64));

} }

if (IsTailCall) { if (IsTailCall) {

// Each tail call may have to adjust the stack by a different amount, so // Each tail call may have to adjust the stack by a different amount, so

// this information must travel along with the operation for eventual // this information must travel along with the operation for eventual

// consumption by emitEpilogue. // consumption by emitEpilogue.

Ops.push_back(DAG.getTargetConstant(FPDiff, DL, MVT::i32)); Ops.push_back(DAG.getTargetConstant(FPDiff, DL, MVT::i32));

} }

if (IsChainCallConv)

Ops.push_back(RequestedExec.Node);

// Add argument registers to the end of the list so that they are known live // Add argument registers to the end of the list so that they are known live

// into the call. // into the call.

for (auto &RegToPass : RegsToPass) { for (auto &RegToPass : RegsToPass) {

Ops.push_back(DAG.getRegister(RegToPass.first, Ops.push_back(DAG.getRegister(RegToPass.first,

RegToPass.second.getValueType())); RegToPass.second.getValueType()));

} }

// Add a register mask operand representing the call-preserved registers. // Add a register mask operand representing the call-preserved registers.

auto *TRI = static_cast<const SIRegisterInfo*>(Subtarget->getRegisterInfo()); auto *TRI = static_cast<const SIRegisterInfo *>(Subtarget->getRegisterInfo());

const uint32_t *Mask = TRI->getCallPreservedMask(MF, CallConv); const uint32_t *Mask = TRI->getCallPreservedMask(MF, CallConv);

assert(Mask && "Missing call preserved mask for calling convention"); assert(Mask && "Missing call preserved mask for calling convention");

Ops.push_back(DAG.getRegisterMask(Mask)); Ops.push_back(DAG.getRegisterMask(Mask));

if (InGlue.getNode()) if (InGlue.getNode())

Ops.push_back(InGlue); Ops.push_back(InGlue);

SDVTList NodeTys = DAG.getVTList(MVT::Other, MVT::Glue); SDVTList NodeTys = DAG.getVTList(MVT::Other, MVT::Glue);

// If we're doing a tall call, use a TC_RETURN here rather than an // If we're doing a tall call, use a TC_RETURN here rather than an

// actual call instruction. // actual call instruction.

if (IsTailCall) { if (IsTailCall) {

MFI.setHasTailCall(); MFI.setHasTailCall();

unsigned OPC = CallConv == CallingConv::AMDGPU_Gfx ? unsigned OPC = AMDGPUISD::TC_RETURN;

AMDGPUISD::TC_RETURN_GFX : AMDGPUISD::TC_RETURN; switch (CallConv) {

case CallingConv::AMDGPU_Gfx:

OPC = AMDGPUISD::TC_RETURN_GFX;

break;

case CallingConv::AMDGPU_CS_Chain:

case CallingConv::AMDGPU_CS_ChainPreserve:

OPC = AMDGPUISD::TC_RETURN_CHAIN;

break;

}

return DAG.getNode(OPC, DL, NodeTys, Ops); return DAG.getNode(OPC, DL, NodeTys, Ops);

} }

// Returns a chain and a flag for retval copy to use. // Returns a chain and a flag for retval copy to use.

SDValue Call = DAG.getNode(AMDGPUISD::CALL, DL, NodeTys, Ops); SDValue Call = DAG.getNode(AMDGPUISD::CALL, DL, NodeTys, Ops);

Chain = Call.getValue(0); Chain = Call.getValue(0);

InGlue = Call.getValue(1); InGlue = Call.getValue(1);

▲ Show 20 Lines • Show All 11,875 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIInstructions.td

	Show First 20 Lines • Show All 659 Lines • ▼ Show 20 Lines
	>;			>;

	// Handle selecting indirect tail calls for AMDGPU_gfx			// Handle selecting indirect tail calls for AMDGPU_gfx
	def : GCNPat<			def : GCNPat<
	(AMDGPUtc_return_gfx i64:$src0, (i64 0), (i32 timm:$fpdiff)),			(AMDGPUtc_return_gfx i64:$src0, (i64 0), (i32 timm:$fpdiff)),
	(SI_TCRETURN_GFX Gfx_CCR_SGPR_64:$src0, (i64 0), i32imm:$fpdiff)			(SI_TCRETURN_GFX Gfx_CCR_SGPR_64:$src0, (i64 0), i32imm:$fpdiff)
	>;			>;

				// Pseudo for the llvm.amdgcn.cs.chain intrinsic.
				// This is essentially a tail call, but it also takes a mask to put in EXEC
				// right before jumping to the callee.
				class SI_CS_CHAIN_TC<
				ValueType execvt, Predicate wavesizepred,
				RegisterOperand execrc = getSOPSrcForVT<execvt>.ret>
				: SPseudoInstSI <(outs),
				(ins CCR_SGPR_64:$src0, unknown:$callee, i32imm:$fpdiff, execrc:$exec)> {
				let FixedSize = 0;
				let isCall = 1;
				let isTerminator = 1;
				let isBarrier = 1;
				let isReturn = 1;
				let UseNamedOperandTable = 1;
				let SchedRW = [WriteBranch];
				let isConvergent = 1;

				let WaveSizePredicate = wavesizepred;
				}

				def SI_CS_CHAIN_TC_W32 : SI_CS_CHAIN_TC<i32, isWave32>;
				def SI_CS_CHAIN_TC_W64 : SI_CS_CHAIN_TC<i64, isWave64>;

				// Handle selecting direct & indirect calls via SI_CS_CHAIN_TC_W32/64
				multiclass si_cs_chain_tc_pattern<
				dag callee, ValueType execvt, RegisterOperand execrc, Instruction tc> {
				def : GCNPat<
				(AMDGPUtc_return_chain i64:$src0, callee, (i32 timm:$fpdiff), execvt:$exec),
				(tc CCR_SGPR_64:$src0, callee, i32imm:$fpdiff, execrc:$exec)
				>;
				}

				multiclass si_cs_chain_tc_patterns<
				ValueType execvt,
				RegisterOperand execrc = getSOPSrcForVT<execvt>.ret,
				Instruction tc = !if(!eq(execvt, i32), SI_CS_CHAIN_TC_W32, SI_CS_CHAIN_TC_W64)
				> {
				defm direct: si_cs_chain_tc_pattern<(tglobaladdr:$callee), execvt, execrc, tc>;
				defm indirect: si_cs_chain_tc_pattern<(i64 0), execvt, execrc, tc>;
				}

				defm : si_cs_chain_tc_patterns<i32>;
				defm : si_cs_chain_tc_patterns<i64>;

	def ADJCALLSTACKUP : SPseudoInstSI<			def ADJCALLSTACKUP : SPseudoInstSI<
	(outs), (ins i32imm:$amt0, i32imm:$amt1),			(outs), (ins i32imm:$amt0, i32imm:$amt1),
	[(callseq_start timm:$amt0, timm:$amt1)],			[(callseq_start timm:$amt0, timm:$amt1)],
	"; adjcallstackup $amt0 $amt1"> {			"; adjcallstackup $amt0 $amt1"> {
	let Size = 8; // Worst case. (s_add_u32 + constant)			let Size = 8; // Worst case. (s_add_u32 + constant)
	let FixedSize = 1;			let FixedSize = 1;
	let hasSideEffects = 1;			let hasSideEffects = 1;
	let usesCustomInserter = 1;			let usesCustomInserter = 1;
	▲ Show 20 Lines • Show All 3,085 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SILateBranchLowering.cpp

Show All 24 Lines
namespace {		namespace {

class SILateBranchLowering : public MachineFunctionPass {		class SILateBranchLowering : public MachineFunctionPass {
private:		private:
const SIRegisterInfo *TRI = nullptr;		const SIRegisterInfo *TRI = nullptr;
const SIInstrInfo *TII = nullptr;		const SIInstrInfo *TII = nullptr;
MachineDominatorTree *MDT = nullptr;		MachineDominatorTree *MDT = nullptr;

		void expandChainCall(MachineInstr &MI);
void earlyTerm(MachineInstr &MI, MachineBasicBlock *EarlyExitBlock);		void earlyTerm(MachineInstr &MI, MachineBasicBlock *EarlyExitBlock);

public:		public:
static char ID;		static char ID;

unsigned MovOpc;		unsigned MovOpc;
Register ExecReg;		Register ExecReg;

▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines	static void splitBlock(MachineBasicBlock &MBB, MachineInstr &MI,
for (MachineBasicBlock *Succ : SplitBB->successors()) {		for (MachineBasicBlock *Succ : SplitBB->successors()) {
DTUpdates.push_back({DomTreeT::Insert, SplitBB, Succ});		DTUpdates.push_back({DomTreeT::Insert, SplitBB, Succ});
DTUpdates.push_back({DomTreeT::Delete, &MBB, Succ});		DTUpdates.push_back({DomTreeT::Delete, &MBB, Succ});
}		}
DTUpdates.push_back({DomTreeT::Insert, &MBB, SplitBB});		DTUpdates.push_back({DomTreeT::Insert, &MBB, SplitBB});
MDT->getBase().applyUpdates(DTUpdates);		MDT->getBase().applyUpdates(DTUpdates);
}		}

		void SILateBranchLowering::expandChainCall(MachineInstr &MI) {
		// This is a tail call that needs to be expanded into at least
		// 2 instructions, one for setting EXEC and one for the actual tail call.
		constexpr unsigned ExecIdx = 3;

		BuildMI(*MI.getParent(), MI, MI.getDebugLoc(), TII->get(MovOpc), ExecReg)
		->addOperand(MI.getOperand(ExecIdx));
		MI.removeOperand(ExecIdx);

		MI.setDesc(TII->get(AMDGPU::SI_TCRETURN));
		}

void SILateBranchLowering::earlyTerm(MachineInstr &MI,		void SILateBranchLowering::earlyTerm(MachineInstr &MI,
MachineBasicBlock *EarlyExitBlock) {		MachineBasicBlock *EarlyExitBlock) {
MachineBasicBlock &MBB = *MI.getParent();		MachineBasicBlock &MBB = *MI.getParent();
const DebugLoc DL = MI.getDebugLoc();		const DebugLoc DL = MI.getDebugLoc();

auto BranchMI = BuildMI(MBB, MI, DL, TII->get(AMDGPU::S_CBRANCH_SCC0))		auto BranchMI = BuildMI(MBB, MI, DL, TII->get(AMDGPU::S_CBRANCH_SCC0))
.addMBB(EarlyExitBlock);		.addMBB(EarlyExitBlock);
auto Next = std::next(MI.getIterator());		auto Next = std::next(MI.getIterator());
Show All 26 Lines	for (MachineInstr &MI : llvm::make_early_inc_range(MBB)) {
// This only occurs in -O0 when BranchFolding is not executed.		// This only occurs in -O0 when BranchFolding is not executed.
if (MBB.isLayoutSuccessor(MI.getOperand(0).getMBB())) {		if (MBB.isLayoutSuccessor(MI.getOperand(0).getMBB())) {
assert(&MI == &MBB.back());		assert(&MI == &MBB.back());
MI.eraseFromParent();		MI.eraseFromParent();
MadeChange = true;		MadeChange = true;
}		}
break;		break;

		case AMDGPU::SI_CS_CHAIN_TC_W32:
		case AMDGPU::SI_CS_CHAIN_TC_W64:
		expandChainCall(MI);
		MadeChange = true;
		break;

case AMDGPU::SI_EARLY_TERMINATE_SCC0:		case AMDGPU::SI_EARLY_TERMINATE_SCC0:
EarlyTermInstrs.push_back(&MI);		EarlyTermInstrs.push_back(&MI);
break;		break;

case AMDGPU::SI_RETURN_TO_EPILOG:		case AMDGPU::SI_RETURN_TO_EPILOG:
EpilogInstrs.push_back(&MI);		EpilogInstrs.push_back(&MI);
break;		break;

▲ Show 20 Lines • Show All 65 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIRegisterInfo.cpp

Show First 20 Lines • Show All 415 Lines • ▼ Show 20 Lines	const uint32_t *SIRegisterInfo::getCallPreservedMask(const MachineFunction &MF,
case CallingConv::C:		case CallingConv::C:
case CallingConv::Fast:		case CallingConv::Fast:
case CallingConv::Cold:		case CallingConv::Cold:
return ST.hasGFX90AInsts() ? CSR_AMDGPU_GFX90AInsts_RegMask		return ST.hasGFX90AInsts() ? CSR_AMDGPU_GFX90AInsts_RegMask
: CSR_AMDGPU_RegMask;		: CSR_AMDGPU_RegMask;
case CallingConv::AMDGPU_Gfx:		case CallingConv::AMDGPU_Gfx:
return ST.hasGFX90AInsts() ? CSR_AMDGPU_SI_Gfx_GFX90AInsts_RegMask		return ST.hasGFX90AInsts() ? CSR_AMDGPU_SI_Gfx_GFX90AInsts_RegMask
: CSR_AMDGPU_SI_Gfx_RegMask;		: CSR_AMDGPU_SI_Gfx_RegMask;
		case CallingConv::AMDGPU_CS_Chain:
		case CallingConv::AMDGPU_CS_ChainPreserve:
		// Calls to these functions never return, so we can pretend everything is
		// preserved.
		return AMDGPU_AllVGPRs_RegMask;
default:		default:
return nullptr;		return nullptr;
}		}
}		}

const uint32_t *SIRegisterInfo::getNoPreservedMask() const {		const uint32_t *SIRegisterInfo::getNoPreservedMask() const {
return CSR_AMDGPU_NoRegs_RegMask;		return CSR_AMDGPU_NoRegs_RegMask;
}		}
▲ Show 20 Lines • Show All 2,835 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/irtranslator-amdgcn-cs-chain.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py UTC_ARGS: --version 2
				; RUN: llc --global-isel=1 -mtriple=amdgcn--amdpal -mcpu=gfx1100 -stop-after=irtranslator -verify-machineinstrs %s -o - \| FileCheck %s --check-prefix=GFX11
				; RUN: llc --global-isel=1 -mtriple=amdgcn--amdpal -mcpu=gfx1030 -stop-after=irtranslator -verify-machineinstrs %s -o - \| FileCheck %s --check-prefix=GFX10

				declare amdgpu_cs_chain void @callee(<3 x i32> inreg, { i32, ptr addrspace(5), i32, i32 })
				declare amdgpu_cs_chain_preserve void @callee_preserve(<3 x i32> inreg, { i32, ptr addrspace(5), i32, i32 })
				declare void @llvm.amdgcn.cs.chain(ptr, i32, <3 x i32> inreg, { i32, ptr addrspace(5), i32, i32 }, i32, ...) noreturn

				define amdgpu_cs_chain void @chain_call(<3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr) {
				; GFX11-LABEL: name: chain_call
				; GFX11: bb.1 (%ir-block.0):
				; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GFX11-NEXT: {{ $}}
				; GFX11-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
				; GFX11-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $sgpr1
				; GFX11-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $sgpr2
				; GFX11-NEXT: [[BUILD_VECTOR:%[0-9]+]]:_(<3 x s32>) = G_BUILD_VECTOR [[COPY]](s32), [[COPY1]](s32), [[COPY2]](s32)
				; GFX11-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr8
				; GFX11-NEXT: [[COPY4:%[0-9]+]]:_(p5) = COPY $vgpr9
				; GFX11-NEXT: [[COPY5:%[0-9]+]]:_(s32) = COPY $vgpr10
				; GFX11-NEXT: [[COPY6:%[0-9]+]]:_(s32) = COPY $vgpr11
				; GFX11-NEXT: [[GV:%[0-9]+]]:_(p0) = G_GLOBAL_VALUE @callee
				; GFX11-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 -1
				; GFX11-NEXT: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
				; GFX11-NEXT: [[GV1:%[0-9]+]]:ccr_sgpr_64(p0) = G_GLOBAL_VALUE @callee
				; GFX11-NEXT: [[UV:%[0-9]+]]:_(s32), [[UV1:%[0-9]+]]:_(s32), [[UV2:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[BUILD_VECTOR]](<3 x s32>)
				; GFX11-NEXT: $sgpr0 = COPY [[UV]](s32)
				; GFX11-NEXT: $sgpr1 = COPY [[UV1]](s32)
				; GFX11-NEXT: $sgpr2 = COPY [[UV2]](s32)
				; GFX11-NEXT: $vgpr8 = COPY [[COPY3]](s32)
				; GFX11-NEXT: $vgpr9 = COPY [[COPY4]](p5)
				; GFX11-NEXT: $vgpr10 = COPY [[COPY5]](s32)
				; GFX11-NEXT: $vgpr11 = COPY [[COPY6]](s32)
				; GFX11-NEXT: SI_CS_CHAIN_TC_W32 [[GV1]](p0), @callee, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; GFX10-LABEL: name: chain_call
				; GFX10: bb.1 (%ir-block.0):
				; GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GFX10-NEXT: {{ $}}
				; GFX10-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
				; GFX10-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $sgpr1
				; GFX10-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $sgpr2
				; GFX10-NEXT: [[BUILD_VECTOR:%[0-9]+]]:_(<3 x s32>) = G_BUILD_VECTOR [[COPY]](s32), [[COPY1]](s32), [[COPY2]](s32)
				; GFX10-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr8
				; GFX10-NEXT: [[COPY4:%[0-9]+]]:_(p5) = COPY $vgpr9
				; GFX10-NEXT: [[COPY5:%[0-9]+]]:_(s32) = COPY $vgpr10
				; GFX10-NEXT: [[COPY6:%[0-9]+]]:_(s32) = COPY $vgpr11
				; GFX10-NEXT: [[GV:%[0-9]+]]:_(p0) = G_GLOBAL_VALUE @callee
				; GFX10-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 -1
				; GFX10-NEXT: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
				; GFX10-NEXT: [[GV1:%[0-9]+]]:ccr_sgpr_64(p0) = G_GLOBAL_VALUE @callee
				; GFX10-NEXT: [[UV:%[0-9]+]]:_(s32), [[UV1:%[0-9]+]]:_(s32), [[UV2:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[BUILD_VECTOR]](<3 x s32>)
				; GFX10-NEXT: $sgpr0 = COPY [[UV]](s32)
				; GFX10-NEXT: $sgpr1 = COPY [[UV1]](s32)
				; GFX10-NEXT: $sgpr2 = COPY [[UV2]](s32)
				; GFX10-NEXT: $vgpr8 = COPY [[COPY3]](s32)
				; GFX10-NEXT: $vgpr9 = COPY [[COPY4]](p5)
				; GFX10-NEXT: $vgpr10 = COPY [[COPY5]](s32)
				; GFX10-NEXT: $vgpr11 = COPY [[COPY6]](s32)
				; GFX10-NEXT: [[COPY7:%[0-9]+]]:_(<4 x s32>) = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY7]](<4 x s32>)
				; GFX10-NEXT: SI_CS_CHAIN_TC_W32 [[GV1]](p0), @callee, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11, implicit $sgpr48_sgpr49_sgpr50_sgpr51
				call void(ptr, i32, <3 x i32>, { i32, ptr addrspace(5), i32, i32 }, i32, ...) @llvm.amdgcn.cs.chain(ptr @callee, i32 -1, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr, i32 0)
				unreachable
				}

				define amdgpu_cs_chain void @chain_preserve_call(<3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr) {
				; GFX11-LABEL: name: chain_preserve_call
				; GFX11: bb.1 (%ir-block.0):
				; GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GFX11-NEXT: {{ $}}
				; GFX11-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
				; GFX11-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $sgpr1
				; GFX11-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $sgpr2
				; GFX11-NEXT: [[BUILD_VECTOR:%[0-9]+]]:_(<3 x s32>) = G_BUILD_VECTOR [[COPY]](s32), [[COPY1]](s32), [[COPY2]](s32)
				; GFX11-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr8
				; GFX11-NEXT: [[COPY4:%[0-9]+]]:_(p5) = COPY $vgpr9
				; GFX11-NEXT: [[COPY5:%[0-9]+]]:_(s32) = COPY $vgpr10
				; GFX11-NEXT: [[COPY6:%[0-9]+]]:_(s32) = COPY $vgpr11
				; GFX11-NEXT: [[GV:%[0-9]+]]:_(p0) = G_GLOBAL_VALUE @callee_preserve
				; GFX11-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 -1
				; GFX11-NEXT: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
				; GFX11-NEXT: [[GV1:%[0-9]+]]:ccr_sgpr_64(p0) = G_GLOBAL_VALUE @callee_preserve
				; GFX11-NEXT: [[UV:%[0-9]+]]:_(s32), [[UV1:%[0-9]+]]:_(s32), [[UV2:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[BUILD_VECTOR]](<3 x s32>)
				; GFX11-NEXT: $sgpr0 = COPY [[UV]](s32)
				; GFX11-NEXT: $sgpr1 = COPY [[UV1]](s32)
				; GFX11-NEXT: $sgpr2 = COPY [[UV2]](s32)
				; GFX11-NEXT: $vgpr8 = COPY [[COPY3]](s32)
				; GFX11-NEXT: $vgpr9 = COPY [[COPY4]](p5)
				; GFX11-NEXT: $vgpr10 = COPY [[COPY5]](s32)
				; GFX11-NEXT: $vgpr11 = COPY [[COPY6]](s32)
				; GFX11-NEXT: SI_CS_CHAIN_TC_W32 [[GV1]](p0), @callee_preserve, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; GFX10-LABEL: name: chain_preserve_call
				; GFX10: bb.1 (%ir-block.0):
				; GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GFX10-NEXT: {{ $}}
				; GFX10-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
				; GFX10-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $sgpr1
				; GFX10-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $sgpr2
				; GFX10-NEXT: [[BUILD_VECTOR:%[0-9]+]]:_(<3 x s32>) = G_BUILD_VECTOR [[COPY]](s32), [[COPY1]](s32), [[COPY2]](s32)
				; GFX10-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr8
				; GFX10-NEXT: [[COPY4:%[0-9]+]]:_(p5) = COPY $vgpr9
				; GFX10-NEXT: [[COPY5:%[0-9]+]]:_(s32) = COPY $vgpr10
				; GFX10-NEXT: [[COPY6:%[0-9]+]]:_(s32) = COPY $vgpr11
				; GFX10-NEXT: [[GV:%[0-9]+]]:_(p0) = G_GLOBAL_VALUE @callee_preserve
				; GFX10-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 -1
				; GFX10-NEXT: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
				; GFX10-NEXT: [[GV1:%[0-9]+]]:ccr_sgpr_64(p0) = G_GLOBAL_VALUE @callee_preserve
				; GFX10-NEXT: [[UV:%[0-9]+]]:_(s32), [[UV1:%[0-9]+]]:_(s32), [[UV2:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[BUILD_VECTOR]](<3 x s32>)
				; GFX10-NEXT: $sgpr0 = COPY [[UV]](s32)
				; GFX10-NEXT: $sgpr1 = COPY [[UV1]](s32)
				; GFX10-NEXT: $sgpr2 = COPY [[UV2]](s32)
				; GFX10-NEXT: $vgpr8 = COPY [[COPY3]](s32)
				; GFX10-NEXT: $vgpr9 = COPY [[COPY4]](p5)
				; GFX10-NEXT: $vgpr10 = COPY [[COPY5]](s32)
				; GFX10-NEXT: $vgpr11 = COPY [[COPY6]](s32)
				; GFX10-NEXT: [[COPY7:%[0-9]+]]:_(<4 x s32>) = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY7]](<4 x s32>)
				; GFX10-NEXT: SI_CS_CHAIN_TC_W32 [[GV1]](p0), @callee_preserve, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11, implicit $sgpr48_sgpr49_sgpr50_sgpr51
				call void(ptr, i32, <3 x i32>, { i32, ptr addrspace(5), i32, i32 }, i32, ...) @llvm.amdgcn.cs.chain(ptr @callee_preserve, i32 -1, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr, i32 0)
				unreachable
				}

llvm/test/CodeGen/AMDGPU/amdgpu-cs-chain-cc.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 2			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 2
	; RUN: llc -global-isel=1 -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs < %s \| FileCheck -check-prefix=GISEL-GFX11 %s			; RUN: llc -global-isel=1 -mtriple=amdgcn--amdpal -mcpu=gfx1100 -verify-machineinstrs < %s \| FileCheck -check-prefix=GISEL-GFX11 %s
	; RUN: llc -global-isel=1 -march=amdgcn -mcpu=gfx1030 -verify-machineinstrs < %s \| FileCheck -check-prefix=GISEL-GFX10 %s			; RUN: llc -global-isel=1 -mtriple=amdgcn--amdpal -mcpu=gfx1030 -verify-machineinstrs < %s \| FileCheck -check-prefix=GISEL-GFX10 %s
	; RUN: llc -global-isel=0 -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs < %s \| FileCheck -check-prefix=DAGISEL-GFX11 %s			; RUN: llc -global-isel=0 -mtriple=amdgcn--amdpal -mcpu=gfx1100 -verify-machineinstrs < %s \| FileCheck -check-prefix=DAGISEL-GFX11 %s
	; RUN: llc -global-isel=0 -march=amdgcn -mcpu=gfx1030 -verify-machineinstrs < %s \| FileCheck -check-prefix=DAGISEL-GFX10 %s			; RUN: llc -global-isel=0 -mtriple=amdgcn--amdpal -mcpu=gfx1030 -verify-machineinstrs < %s \| FileCheck -check-prefix=DAGISEL-GFX10 %s

	declare amdgpu_gfx void @use(...)			declare amdgpu_gfx void @use(...)

	; FIXME: The values of the counters are undefined on entry to amdgpu_cs_chain functions, so these waits are unnecessary.

	define amdgpu_cs_chain void @amdgpu_cs_chain_no_stack({ptr, i32, <4 x i32>} inreg %a, {ptr, i32, <4 x i32>} %b) {			define amdgpu_cs_chain void @amdgpu_cs_chain_no_stack({ptr, i32, <4 x i32>} inreg %a, {ptr, i32, <4 x i32>} %b) {
	; GISEL-GFX11-LABEL: amdgpu_cs_chain_no_stack:			; GISEL-GFX11-LABEL: amdgpu_cs_chain_no_stack:
	; GISEL-GFX11: ; %bb.0:			; GISEL-GFX11: ; %bb.0:
	; GISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GISEL-GFX11-NEXT: s_endpgm			; GISEL-GFX11-NEXT: s_endpgm
	;			;
	; GISEL-GFX10-LABEL: amdgpu_cs_chain_no_stack:			; GISEL-GFX10-LABEL: amdgpu_cs_chain_no_stack:
	; GISEL-GFX10: ; %bb.0:			; GISEL-GFX10: ; %bb.0:
	; GISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GISEL-GFX10-NEXT: s_endpgm			; GISEL-GFX10-NEXT: s_endpgm
	;			;
	; DAGISEL-GFX11-LABEL: amdgpu_cs_chain_no_stack:			; DAGISEL-GFX11-LABEL: amdgpu_cs_chain_no_stack:
	; DAGISEL-GFX11: ; %bb.0:			; DAGISEL-GFX11: ; %bb.0:
	; DAGISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; DAGISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; DAGISEL-GFX11-NEXT: s_endpgm			; DAGISEL-GFX11-NEXT: s_endpgm
	;			;
	; DAGISEL-GFX10-LABEL: amdgpu_cs_chain_no_stack:			; DAGISEL-GFX10-LABEL: amdgpu_cs_chain_no_stack:
	; DAGISEL-GFX10: ; %bb.0:			; DAGISEL-GFX10: ; %bb.0:
	; DAGISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; DAGISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; DAGISEL-GFX10-NEXT: s_endpgm			; DAGISEL-GFX10-NEXT: s_endpgm
	ret void			ret void
	}			}

				; FIXME: Setup s32.

	define amdgpu_cs_chain void @amdgpu_cs_chain_simple_call(<4 x i32> inreg %sgpr, <4 x i32> %vgpr) {			define amdgpu_cs_chain void @amdgpu_cs_chain_simple_call(<4 x i32> inreg %sgpr, <4 x i32> %vgpr) {
	; GISEL-GFX11-LABEL: amdgpu_cs_chain_simple_call:			; GISEL-GFX11-LABEL: amdgpu_cs_chain_simple_call:
	; GISEL-GFX11: ; %bb.0:			; GISEL-GFX11: ; %bb.0:
	; GISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GISEL-GFX11-NEXT: s_getpc_b64 s[4:5]
	; GISEL-GFX11-NEXT: s_add_u32 s4, s4, use@gotpcrel32@lo+4
	; GISEL-GFX11-NEXT: s_addc_u32 s5, s5, use@gotpcrel32@hi+12
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v4, v8 :: v_dual_mov_b32 v5, v9			; GISEL-GFX11-NEXT: v_dual_mov_b32 v4, v8 :: v_dual_mov_b32 v5, v9
	; GISEL-GFX11-NEXT: s_load_b64 s[4:5], s[4:5], 0x0
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v6, v10 :: v_dual_mov_b32 v7, v11			; GISEL-GFX11-NEXT: v_dual_mov_b32 v6, v10 :: v_dual_mov_b32 v7, v11
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1			; GISEL-GFX11-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3			; GISEL-GFX11-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3
	; GISEL-GFX11-NEXT: s_waitcnt lgkmcnt(0)			; GISEL-GFX11-NEXT: s_mov_b32 s4, use@abs32@lo
				; GISEL-GFX11-NEXT: s_mov_b32 s5, use@abs32@hi
				; GISEL-GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1)
	; GISEL-GFX11-NEXT: s_swappc_b64 s[30:31], s[4:5]			; GISEL-GFX11-NEXT: s_swappc_b64 s[30:31], s[4:5]
	; GISEL-GFX11-NEXT: s_endpgm			; GISEL-GFX11-NEXT: s_endpgm
	;			;
	; GISEL-GFX10-LABEL: amdgpu_cs_chain_simple_call:			; GISEL-GFX10-LABEL: amdgpu_cs_chain_simple_call:
	; GISEL-GFX10: ; %bb.0:			; GISEL-GFX10: ; %bb.0:
	; GISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GISEL-GFX10-NEXT: s_getpc_b64 s[4:5]
	; GISEL-GFX10-NEXT: s_add_u32 s4, s4, use@gotpcrel32@lo+4
	; GISEL-GFX10-NEXT: s_addc_u32 s5, s5, use@gotpcrel32@hi+12
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v4, v8			; GISEL-GFX10-NEXT: v_mov_b32_e32 v4, v8
	; GISEL-GFX10-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v5, v9			; GISEL-GFX10-NEXT: v_mov_b32_e32 v5, v9
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v6, v10			; GISEL-GFX10-NEXT: v_mov_b32_e32 v6, v10
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v7, v11			; GISEL-GFX10-NEXT: v_mov_b32_e32 v7, v11
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v0, s0			; GISEL-GFX10-NEXT: v_mov_b32_e32 v0, s0
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v1, s1			; GISEL-GFX10-NEXT: v_mov_b32_e32 v1, s1
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v2, s2			; GISEL-GFX10-NEXT: v_mov_b32_e32 v2, s2
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v3, s3			; GISEL-GFX10-NEXT: v_mov_b32_e32 v3, s3
	; GISEL-GFX10-NEXT: s_mov_b64 s[0:1], s[48:49]			; GISEL-GFX10-NEXT: s_mov_b64 s[0:1], s[48:49]
				; GISEL-GFX10-NEXT: s_mov_b32 s4, use@abs32@lo
				; GISEL-GFX10-NEXT: s_mov_b32 s5, use@abs32@hi
	; GISEL-GFX10-NEXT: s_mov_b64 s[2:3], s[50:51]			; GISEL-GFX10-NEXT: s_mov_b64 s[2:3], s[50:51]
	; GISEL-GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GISEL-GFX10-NEXT: s_swappc_b64 s[30:31], s[4:5]			; GISEL-GFX10-NEXT: s_swappc_b64 s[30:31], s[4:5]
	; GISEL-GFX10-NEXT: s_endpgm			; GISEL-GFX10-NEXT: s_endpgm
	;			;
	; DAGISEL-GFX11-LABEL: amdgpu_cs_chain_simple_call:			; DAGISEL-GFX11-LABEL: amdgpu_cs_chain_simple_call:
	; DAGISEL-GFX11: ; %bb.0:			; DAGISEL-GFX11: ; %bb.0:
	; DAGISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; DAGISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; DAGISEL-GFX11-NEXT: s_getpc_b64 s[4:5]
	; DAGISEL-GFX11-NEXT: s_add_u32 s4, s4, use@gotpcrel32@lo+4
	; DAGISEL-GFX11-NEXT: s_addc_u32 s5, s5, use@gotpcrel32@hi+12
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v7, v11 :: v_dual_mov_b32 v6, v10			; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v7, v11 :: v_dual_mov_b32 v6, v10
	; DAGISEL-GFX11-NEXT: s_load_b64 s[4:5], s[4:5], 0x0
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v5, v9 :: v_dual_mov_b32 v4, v8			; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v5, v9 :: v_dual_mov_b32 v4, v8
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1			; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3			; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3
	; DAGISEL-GFX11-NEXT: s_waitcnt lgkmcnt(0)			; DAGISEL-GFX11-NEXT: s_mov_b32 s5, use@abs32@hi
				; DAGISEL-GFX11-NEXT: s_mov_b32 s4, use@abs32@lo
				; DAGISEL-GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1)
	; DAGISEL-GFX11-NEXT: s_swappc_b64 s[30:31], s[4:5]			; DAGISEL-GFX11-NEXT: s_swappc_b64 s[30:31], s[4:5]
	; DAGISEL-GFX11-NEXT: s_endpgm			; DAGISEL-GFX11-NEXT: s_endpgm
	;			;
	; DAGISEL-GFX10-LABEL: amdgpu_cs_chain_simple_call:			; DAGISEL-GFX10-LABEL: amdgpu_cs_chain_simple_call:
	; DAGISEL-GFX10: ; %bb.0:			; DAGISEL-GFX10: ; %bb.0:
	; DAGISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; DAGISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; DAGISEL-GFX10-NEXT: s_getpc_b64 s[4:5]
	; DAGISEL-GFX10-NEXT: s_add_u32 s4, s4, use@gotpcrel32@lo+4
	; DAGISEL-GFX10-NEXT: s_addc_u32 s5, s5, use@gotpcrel32@hi+12
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v7, v11			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v7, v11
	; DAGISEL-GFX10-NEXT: s_load_dwordx2 s[4:5], s[4:5], 0x0
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v6, v10			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v6, v10
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v5, v9			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v5, v9
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v4, v8			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v4, v8
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v0, s0			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v0, s0
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v1, s1			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v1, s1
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v2, s2			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v2, s2
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v3, s3			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v3, s3
	; DAGISEL-GFX10-NEXT: s_mov_b64 s[0:1], s[48:49]			; DAGISEL-GFX10-NEXT: s_mov_b64 s[0:1], s[48:49]
				; DAGISEL-GFX10-NEXT: s_mov_b32 s5, use@abs32@hi
				; DAGISEL-GFX10-NEXT: s_mov_b32 s4, use@abs32@lo
	; DAGISEL-GFX10-NEXT: s_mov_b64 s[2:3], s[50:51]			; DAGISEL-GFX10-NEXT: s_mov_b64 s[2:3], s[50:51]
	; DAGISEL-GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; DAGISEL-GFX10-NEXT: s_swappc_b64 s[30:31], s[4:5]			; DAGISEL-GFX10-NEXT: s_swappc_b64 s[30:31], s[4:5]
	; DAGISEL-GFX10-NEXT: s_endpgm			; DAGISEL-GFX10-NEXT: s_endpgm
	call amdgpu_gfx void @use(<4 x i32> %sgpr, <4 x i32> %vgpr)			call amdgpu_gfx void @use(<4 x i32> %sgpr, <4 x i32> %vgpr)
	ret void			ret void
	}			}

	; FIXME: Setup s32.			; FIXME: Setup s32.

	Show All 16 Lines
	; GISEL-GFX11-NEXT: s_add_u32 s25, s32, 28			; GISEL-GFX11-NEXT: s_add_u32 s25, s32, 28
	; GISEL-GFX11-NEXT: scratch_store_b32 off, v22, s24			; GISEL-GFX11-NEXT: scratch_store_b32 off, v22, s24
	; GISEL-GFX11-NEXT: scratch_store_b32 off, v23, s25			; GISEL-GFX11-NEXT: scratch_store_b32 off, v23, s25
	; GISEL-GFX11-NEXT: s_add_u32 s24, s32, 32			; GISEL-GFX11-NEXT: s_add_u32 s24, s32, 32
	; GISEL-GFX11-NEXT: s_add_u32 s25, s32, 36			; GISEL-GFX11-NEXT: s_add_u32 s25, s32, 36
	; GISEL-GFX11-NEXT: scratch_store_b32 off, v24, s24			; GISEL-GFX11-NEXT: scratch_store_b32 off, v24, s24
	; GISEL-GFX11-NEXT: scratch_store_b32 off, v25, s25			; GISEL-GFX11-NEXT: scratch_store_b32 off, v25, s25
	; GISEL-GFX11-NEXT: s_add_u32 s24, s32, 40			; GISEL-GFX11-NEXT: s_add_u32 s24, s32, 40
				; GISEL-GFX11-NEXT: v_dual_mov_b32 v32, v8 :: v_dual_mov_b32 v33, v9
				; GISEL-GFX11-NEXT: v_dual_mov_b32 v34, v10 :: v_dual_mov_b32 v35, v11
				; GISEL-GFX11-NEXT: v_dual_mov_b32 v36, v12 :: v_dual_mov_b32 v37, v13
				; GISEL-GFX11-NEXT: v_dual_mov_b32 v38, v14 :: v_dual_mov_b32 v39, v15
	; GISEL-GFX11-NEXT: s_add_u32 s25, s32, 44			; GISEL-GFX11-NEXT: s_add_u32 s25, s32, 44
	; GISEL-GFX11-NEXT: scratch_store_b32 off, v26, s24			; GISEL-GFX11-NEXT: scratch_store_b32 off, v26, s24
	; GISEL-GFX11-NEXT: scratch_store_b32 off, v27, s25			; GISEL-GFX11-NEXT: scratch_store_b32 off, v27, s25
	; GISEL-GFX11-NEXT: s_add_u32 s24, s32, 48			; GISEL-GFX11-NEXT: s_add_u32 s24, s32, 48
	; GISEL-GFX11-NEXT: s_add_u32 s25, s32, 52			; GISEL-GFX11-NEXT: s_add_u32 s25, s32, 52
	; GISEL-GFX11-NEXT: scratch_store_b32 off, v28, s24			; GISEL-GFX11-NEXT: scratch_store_b32 off, v28, s24
	; GISEL-GFX11-NEXT: scratch_store_b32 off, v29, s25			; GISEL-GFX11-NEXT: scratch_store_b32 off, v29, s25
	; GISEL-GFX11-NEXT: s_getpc_b64 s[24:25]			; GISEL-GFX11-NEXT: s_add_u32 s24, s32, 56
	; GISEL-GFX11-NEXT: s_add_u32 s24, s24, use@gotpcrel32@lo+4			; GISEL-GFX11-NEXT: s_add_u32 s25, s32, 60
	; GISEL-GFX11-NEXT: s_addc_u32 s25, s25, use@gotpcrel32@hi+12			; GISEL-GFX11-NEXT: scratch_store_b32 off, v30, s24
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v32, v8 :: v_dual_mov_b32 v33, v9			; GISEL-GFX11-NEXT: scratch_store_b32 off, v31, s25
	; GISEL-GFX11-NEXT: s_load_b64 s[24:25], s[24:25], 0x0
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v34, v10 :: v_dual_mov_b32 v35, v11
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v36, v12 :: v_dual_mov_b32 v37, v13
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v38, v14 :: v_dual_mov_b32 v39, v15
	; GISEL-GFX11-NEXT: s_add_u32 s26, s32, 56
	; GISEL-GFX11-NEXT: s_add_u32 s27, s32, 60
	; GISEL-GFX11-NEXT: scratch_store_b32 off, v30, s26
	; GISEL-GFX11-NEXT: scratch_store_b32 off, v31, s27
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1			; GISEL-GFX11-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3			; GISEL-GFX11-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v4, s4 :: v_dual_mov_b32 v5, s5			; GISEL-GFX11-NEXT: v_dual_mov_b32 v4, s4 :: v_dual_mov_b32 v5, s5
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v6, s6 :: v_dual_mov_b32 v7, s7			; GISEL-GFX11-NEXT: v_dual_mov_b32 v6, s6 :: v_dual_mov_b32 v7, s7
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v8, s8 :: v_dual_mov_b32 v9, s9			; GISEL-GFX11-NEXT: v_dual_mov_b32 v8, s8 :: v_dual_mov_b32 v9, s9
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v10, s10 :: v_dual_mov_b32 v11, s11			; GISEL-GFX11-NEXT: v_dual_mov_b32 v10, s10 :: v_dual_mov_b32 v11, s11
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v12, s12 :: v_dual_mov_b32 v13, s13			; GISEL-GFX11-NEXT: v_dual_mov_b32 v12, s12 :: v_dual_mov_b32 v13, s13
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v14, s14 :: v_dual_mov_b32 v15, s15			; GISEL-GFX11-NEXT: v_dual_mov_b32 v14, s14 :: v_dual_mov_b32 v15, s15
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v16, s16 :: v_dual_mov_b32 v17, s17			; GISEL-GFX11-NEXT: v_dual_mov_b32 v16, s16 :: v_dual_mov_b32 v17, s17
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v18, s18 :: v_dual_mov_b32 v19, s19			; GISEL-GFX11-NEXT: v_dual_mov_b32 v18, s18 :: v_dual_mov_b32 v19, s19
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v20, s20 :: v_dual_mov_b32 v21, s21			; GISEL-GFX11-NEXT: v_dual_mov_b32 v20, s20 :: v_dual_mov_b32 v21, s21
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v22, s22 :: v_dual_mov_b32 v23, s23			; GISEL-GFX11-NEXT: v_dual_mov_b32 v22, s22 :: v_dual_mov_b32 v23, s23
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v24, v32 :: v_dual_mov_b32 v25, v33			; GISEL-GFX11-NEXT: v_dual_mov_b32 v24, v32 :: v_dual_mov_b32 v25, v33
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v26, v34 :: v_dual_mov_b32 v27, v35			; GISEL-GFX11-NEXT: v_dual_mov_b32 v26, v34 :: v_dual_mov_b32 v27, v35
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v28, v36 :: v_dual_mov_b32 v29, v37			; GISEL-GFX11-NEXT: v_dual_mov_b32 v28, v36 :: v_dual_mov_b32 v29, v37
	; GISEL-GFX11-NEXT: v_dual_mov_b32 v30, v38 :: v_dual_mov_b32 v31, v39			; GISEL-GFX11-NEXT: v_dual_mov_b32 v30, v38 :: v_dual_mov_b32 v31, v39
	; GISEL-GFX11-NEXT: s_waitcnt lgkmcnt(0)			; GISEL-GFX11-NEXT: s_mov_b32 s24, use@abs32@lo
				; GISEL-GFX11-NEXT: s_mov_b32 s25, use@abs32@hi
				; GISEL-GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1)
	; GISEL-GFX11-NEXT: s_swappc_b64 s[30:31], s[24:25]			; GISEL-GFX11-NEXT: s_swappc_b64 s[30:31], s[24:25]
	; GISEL-GFX11-NEXT: s_endpgm			; GISEL-GFX11-NEXT: s_endpgm
	;			;
	; GISEL-GFX10-LABEL: amdgpu_cs_chain_spill:			; GISEL-GFX10-LABEL: amdgpu_cs_chain_spill:
	; GISEL-GFX10: ; %bb.0:			; GISEL-GFX10: ; %bb.0:
	; GISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GISEL-GFX10-NEXT: s_getpc_b64 s[24:25]
	; GISEL-GFX10-NEXT: s_add_u32 s24, s24, use@gotpcrel32@lo+4
	; GISEL-GFX10-NEXT: s_addc_u32 s25, s25, use@gotpcrel32@hi+12
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v32, v8			; GISEL-GFX10-NEXT: v_mov_b32_e32 v32, v8
	; GISEL-GFX10-NEXT: s_load_dwordx2 s[24:25], s[24:25], 0x0
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v33, v9			; GISEL-GFX10-NEXT: v_mov_b32_e32 v33, v9
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v34, v10			; GISEL-GFX10-NEXT: v_mov_b32_e32 v34, v10
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v35, v11			; GISEL-GFX10-NEXT: v_mov_b32_e32 v35, v11
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v36, v12			; GISEL-GFX10-NEXT: v_mov_b32_e32 v36, v12
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v37, v13			; GISEL-GFX10-NEXT: v_mov_b32_e32 v37, v13
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v38, v14			; GISEL-GFX10-NEXT: v_mov_b32_e32 v38, v14
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v39, v15			; GISEL-GFX10-NEXT: v_mov_b32_e32 v39, v15
	; GISEL-GFX10-NEXT: buffer_store_dword v16, off, s[48:51], s32			; GISEL-GFX10-NEXT: buffer_store_dword v16, off, s[48:51], s32
	Show All 40 Lines
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v25, v33			; GISEL-GFX10-NEXT: v_mov_b32_e32 v25, v33
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v26, v34			; GISEL-GFX10-NEXT: v_mov_b32_e32 v26, v34
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v27, v35			; GISEL-GFX10-NEXT: v_mov_b32_e32 v27, v35
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v28, v36			; GISEL-GFX10-NEXT: v_mov_b32_e32 v28, v36
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v29, v37			; GISEL-GFX10-NEXT: v_mov_b32_e32 v29, v37
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v30, v38			; GISEL-GFX10-NEXT: v_mov_b32_e32 v30, v38
	; GISEL-GFX10-NEXT: v_mov_b32_e32 v31, v39			; GISEL-GFX10-NEXT: v_mov_b32_e32 v31, v39
	; GISEL-GFX10-NEXT: s_mov_b64 s[0:1], s[48:49]			; GISEL-GFX10-NEXT: s_mov_b64 s[0:1], s[48:49]
				; GISEL-GFX10-NEXT: s_mov_b32 s24, use@abs32@lo
				; GISEL-GFX10-NEXT: s_mov_b32 s25, use@abs32@hi
	; GISEL-GFX10-NEXT: s_mov_b64 s[2:3], s[50:51]			; GISEL-GFX10-NEXT: s_mov_b64 s[2:3], s[50:51]
	; GISEL-GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GISEL-GFX10-NEXT: s_swappc_b64 s[30:31], s[24:25]			; GISEL-GFX10-NEXT: s_swappc_b64 s[30:31], s[24:25]
	; GISEL-GFX10-NEXT: s_endpgm			; GISEL-GFX10-NEXT: s_endpgm
	;			;
	; DAGISEL-GFX11-LABEL: amdgpu_cs_chain_spill:			; DAGISEL-GFX11-LABEL: amdgpu_cs_chain_spill:
	; DAGISEL-GFX11: ; %bb.0:			; DAGISEL-GFX11: ; %bb.0:
	; DAGISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; DAGISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; DAGISEL-GFX11-NEXT: s_add_i32 s24, s32, 60			; DAGISEL-GFX11-NEXT: s_add_i32 s24, s32, 60
	; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v16, s32			; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v16, s32
	Show All 10 Lines
	; DAGISEL-GFX11-NEXT: s_add_i32 s25, s32, 36			; DAGISEL-GFX11-NEXT: s_add_i32 s25, s32, 36
	; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v26, s24			; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v26, s24
	; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v25, s25			; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v25, s25
	; DAGISEL-GFX11-NEXT: s_add_i32 s24, s32, 32			; DAGISEL-GFX11-NEXT: s_add_i32 s24, s32, 32
	; DAGISEL-GFX11-NEXT: s_add_i32 s25, s32, 28			; DAGISEL-GFX11-NEXT: s_add_i32 s25, s32, 28
	; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v24, s24			; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v24, s24
	; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v23, s25			; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v23, s25
	; DAGISEL-GFX11-NEXT: s_add_i32 s24, s32, 24			; DAGISEL-GFX11-NEXT: s_add_i32 s24, s32, 24
				; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v32, v15 :: v_dual_mov_b32 v33, v14
				; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v34, v13 :: v_dual_mov_b32 v35, v12
				; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v36, v11 :: v_dual_mov_b32 v37, v10
				; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v38, v9 :: v_dual_mov_b32 v39, v8
	; DAGISEL-GFX11-NEXT: s_add_i32 s25, s32, 20			; DAGISEL-GFX11-NEXT: s_add_i32 s25, s32, 20
	; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v22, s24			; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v22, s24
	; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v21, s25			; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v21, s25
	; DAGISEL-GFX11-NEXT: s_add_i32 s24, s32, 16			; DAGISEL-GFX11-NEXT: s_add_i32 s24, s32, 16
	; DAGISEL-GFX11-NEXT: s_add_i32 s25, s32, 12			; DAGISEL-GFX11-NEXT: s_add_i32 s25, s32, 12
	; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v20, s24			; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v20, s24
	; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v19, s25			; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v19, s25
	; DAGISEL-GFX11-NEXT: s_getpc_b64 s[24:25]			; DAGISEL-GFX11-NEXT: s_add_i32 s24, s32, 8
	; DAGISEL-GFX11-NEXT: s_add_u32 s24, s24, use@gotpcrel32@lo+4			; DAGISEL-GFX11-NEXT: s_add_i32 s25, s32, 4
	; DAGISEL-GFX11-NEXT: s_addc_u32 s25, s25, use@gotpcrel32@hi+12			; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v18, s24
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v32, v15 :: v_dual_mov_b32 v33, v14			; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v17, s25
	; DAGISEL-GFX11-NEXT: s_load_b64 s[24:25], s[24:25], 0x0
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v34, v13 :: v_dual_mov_b32 v35, v12
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v36, v11 :: v_dual_mov_b32 v37, v10
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v38, v9 :: v_dual_mov_b32 v39, v8
	; DAGISEL-GFX11-NEXT: s_add_i32 s26, s32, 8
	; DAGISEL-GFX11-NEXT: s_add_i32 s27, s32, 4
	; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v18, s26
	; DAGISEL-GFX11-NEXT: scratch_store_b32 off, v17, s27
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1			; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v0, s0 :: v_dual_mov_b32 v1, s1
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3			; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v2, s2 :: v_dual_mov_b32 v3, s3
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v4, s4 :: v_dual_mov_b32 v5, s5			; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v4, s4 :: v_dual_mov_b32 v5, s5
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v6, s6 :: v_dual_mov_b32 v7, s7			; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v6, s6 :: v_dual_mov_b32 v7, s7
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v8, s8 :: v_dual_mov_b32 v9, s9			; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v8, s8 :: v_dual_mov_b32 v9, s9
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v10, s10 :: v_dual_mov_b32 v11, s11			; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v10, s10 :: v_dual_mov_b32 v11, s11
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v12, s12 :: v_dual_mov_b32 v13, s13			; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v12, s12 :: v_dual_mov_b32 v13, s13
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v14, s14 :: v_dual_mov_b32 v15, s15			; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v14, s14 :: v_dual_mov_b32 v15, s15
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v16, s16 :: v_dual_mov_b32 v17, s17			; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v16, s16 :: v_dual_mov_b32 v17, s17
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v18, s18 :: v_dual_mov_b32 v19, s19			; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v18, s18 :: v_dual_mov_b32 v19, s19
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v20, s20 :: v_dual_mov_b32 v21, s21			; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v20, s20 :: v_dual_mov_b32 v21, s21
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v22, s22 :: v_dual_mov_b32 v23, s23			; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v22, s22 :: v_dual_mov_b32 v23, s23
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v24, v39 :: v_dual_mov_b32 v25, v38			; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v24, v39 :: v_dual_mov_b32 v25, v38
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v26, v37 :: v_dual_mov_b32 v27, v36			; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v26, v37 :: v_dual_mov_b32 v27, v36
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v28, v35 :: v_dual_mov_b32 v29, v34			; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v28, v35 :: v_dual_mov_b32 v29, v34
	; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v30, v33 :: v_dual_mov_b32 v31, v32			; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v30, v33 :: v_dual_mov_b32 v31, v32
	; DAGISEL-GFX11-NEXT: s_waitcnt lgkmcnt(0)			; DAGISEL-GFX11-NEXT: s_mov_b32 s25, use@abs32@hi
				; DAGISEL-GFX11-NEXT: s_mov_b32 s24, use@abs32@lo
				; DAGISEL-GFX11-NEXT: s_delay_alu instid0(SALU_CYCLE_1)
	; DAGISEL-GFX11-NEXT: s_swappc_b64 s[30:31], s[24:25]			; DAGISEL-GFX11-NEXT: s_swappc_b64 s[30:31], s[24:25]
	; DAGISEL-GFX11-NEXT: s_endpgm			; DAGISEL-GFX11-NEXT: s_endpgm
	;			;
	; DAGISEL-GFX10-LABEL: amdgpu_cs_chain_spill:			; DAGISEL-GFX10-LABEL: amdgpu_cs_chain_spill:
	; DAGISEL-GFX10: ; %bb.0:			; DAGISEL-GFX10: ; %bb.0:
	; DAGISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; DAGISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; DAGISEL-GFX10-NEXT: s_getpc_b64 s[24:25]
	; DAGISEL-GFX10-NEXT: s_add_u32 s24, s24, use@gotpcrel32@lo+4
	; DAGISEL-GFX10-NEXT: s_addc_u32 s25, s25, use@gotpcrel32@hi+12
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v32, v15			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v32, v15
	; DAGISEL-GFX10-NEXT: s_load_dwordx2 s[24:25], s[24:25], 0x0
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v33, v14			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v33, v14
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v34, v13			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v34, v13
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v35, v12			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v35, v12
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v36, v11			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v36, v11
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v37, v10			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v37, v10
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v38, v9			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v38, v9
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v39, v8			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v39, v8
	; DAGISEL-GFX10-NEXT: buffer_store_dword v16, off, s[48:51], s32			; DAGISEL-GFX10-NEXT: buffer_store_dword v16, off, s[48:51], s32
	Show All 40 Lines
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v25, v38			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v25, v38
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v26, v37			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v26, v37
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v27, v36			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v27, v36
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v28, v35			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v28, v35
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v29, v34			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v29, v34
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v30, v33			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v30, v33
	; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v31, v32			; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v31, v32
	; DAGISEL-GFX10-NEXT: s_mov_b64 s[0:1], s[48:49]			; DAGISEL-GFX10-NEXT: s_mov_b64 s[0:1], s[48:49]
				; DAGISEL-GFX10-NEXT: s_mov_b32 s25, use@abs32@hi
				; DAGISEL-GFX10-NEXT: s_mov_b32 s24, use@abs32@lo
	; DAGISEL-GFX10-NEXT: s_mov_b64 s[2:3], s[50:51]			; DAGISEL-GFX10-NEXT: s_mov_b64 s[2:3], s[50:51]
	; DAGISEL-GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; DAGISEL-GFX10-NEXT: s_swappc_b64 s[30:31], s[24:25]			; DAGISEL-GFX10-NEXT: s_swappc_b64 s[30:31], s[24:25]
	; DAGISEL-GFX10-NEXT: s_endpgm			; DAGISEL-GFX10-NEXT: s_endpgm
	call amdgpu_gfx void @use(<24 x i32> %sgprs, <24 x i32> %vgprs)			call amdgpu_gfx void @use(<24 x i32> %sgprs, <24 x i32> %vgprs)
	ret void			ret void
	}			}

				define amdgpu_cs void @cs_to_chain(<3 x i32> inreg %a, <3 x i32> %b) {
				; GISEL-GFX11-LABEL: cs_to_chain:
				; GISEL-GFX11: ; %bb.0:
				; GISEL-GFX11-NEXT: v_dual_mov_b32 v3, v0 :: v_dual_mov_b32 v10, v2
				; GISEL-GFX11-NEXT: s_mov_b32 s3, s0
				; GISEL-GFX11-NEXT: ;;#ASMSTART
				; GISEL-GFX11-NEXT: s_nop
				; GISEL-GFX11-NEXT: ;;#ASMEND
				; GISEL-GFX11-NEXT: s_mov_b32 s4, chain_callee@abs32@lo
				; GISEL-GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
				; GISEL-GFX11-NEXT: v_dual_mov_b32 v8, v3 :: v_dual_mov_b32 v9, v1
				; GISEL-GFX11-NEXT: s_mov_b32 s5, chain_callee@abs32@hi
				; GISEL-GFX11-NEXT: s_mov_b32 s0, s3
				; GISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; GISEL-GFX10-LABEL: cs_to_chain:
				; GISEL-GFX10: ; %bb.0:
				; GISEL-GFX10-NEXT: s_getpc_b64 s[100:101]
				; GISEL-GFX10-NEXT: s_mov_b32 s100, s0
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v3, v0
				; GISEL-GFX10-NEXT: s_load_dwordx4 s[100:103], s[100:101], 0x10
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v9, v1
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v10, v2
				; GISEL-GFX10-NEXT: s_mov_b32 s4, chain_callee@abs32@lo
				; GISEL-GFX10-NEXT: s_mov_b32 s5, chain_callee@abs32@hi
				; GISEL-GFX10-NEXT: s_waitcnt lgkmcnt(0)
				; GISEL-GFX10-NEXT: s_bitset0_b32 s103, 21
				; GISEL-GFX10-NEXT: s_add_u32 s100, s100, s3
				; GISEL-GFX10-NEXT: s_mov_b32 s3, s0
				; GISEL-GFX10-NEXT: ;;#ASMSTART
				; GISEL-GFX10-NEXT: s_nop
				; GISEL-GFX10-NEXT: ;;#ASMEND
				; GISEL-GFX10-NEXT: s_addc_u32 s101, s101, 0
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v8, v3
				; GISEL-GFX10-NEXT: s_mov_b64 s[48:49], s[100:101]
				; GISEL-GFX10-NEXT: s_mov_b32 s0, s3
				; GISEL-GFX10-NEXT: s_mov_b64 s[50:51], s[102:103]
				; GISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX11-LABEL: cs_to_chain:
				; DAGISEL-GFX11: ; %bb.0:
				; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v3, v0 :: v_dual_mov_b32 v10, v2
				; DAGISEL-GFX11-NEXT: s_mov_b32 s3, s0
				; DAGISEL-GFX11-NEXT: ;;#ASMSTART
				; DAGISEL-GFX11-NEXT: s_nop
				; DAGISEL-GFX11-NEXT: ;;#ASMEND
				; DAGISEL-GFX11-NEXT: s_mov_b32 s5, chain_callee@abs32@hi
				; DAGISEL-GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
				; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v8, v3 :: v_dual_mov_b32 v9, v1
				; DAGISEL-GFX11-NEXT: s_mov_b32 s4, chain_callee@abs32@lo
				; DAGISEL-GFX11-NEXT: s_mov_b32 s0, s3
				; DAGISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX10-LABEL: cs_to_chain:
				; DAGISEL-GFX10: ; %bb.0:
				; DAGISEL-GFX10-NEXT: s_getpc_b64 s[100:101]
				; DAGISEL-GFX10-NEXT: s_mov_b32 s100, s0
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v3, v0
				; DAGISEL-GFX10-NEXT: s_load_dwordx4 s[100:103], s[100:101], 0x10
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v9, v1
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v10, v2
				; DAGISEL-GFX10-NEXT: s_mov_b32 s5, chain_callee@abs32@hi
				; DAGISEL-GFX10-NEXT: s_mov_b32 s4, chain_callee@abs32@lo
				; DAGISEL-GFX10-NEXT: s_waitcnt lgkmcnt(0)
				; DAGISEL-GFX10-NEXT: s_bitset0_b32 s103, 21
				; DAGISEL-GFX10-NEXT: s_add_u32 s100, s100, s3
				; DAGISEL-GFX10-NEXT: s_mov_b32 s3, s0
				; DAGISEL-GFX10-NEXT: ;;#ASMSTART
				; DAGISEL-GFX10-NEXT: s_nop
				; DAGISEL-GFX10-NEXT: ;;#ASMEND
				; DAGISEL-GFX10-NEXT: s_addc_u32 s101, s101, 0
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v8, v3
				; DAGISEL-GFX10-NEXT: s_mov_b64 s[48:49], s[100:101]
				; DAGISEL-GFX10-NEXT: s_mov_b64 s[50:51], s[102:103]
				; DAGISEL-GFX10-NEXT: s_mov_b32 s0, s3
				; DAGISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				call void asm "s_nop", "~{v0},~{v8},~{v16},~{s0}"()
				call void(ptr, i32, <3 x i32>, <3 x i32>, i32, ...) @llvm.amdgcn.cs.chain.v3i32(ptr @chain_callee, i32 -1, <3 x i32> inreg %a, <3 x i32> %b, i32 0)
				unreachable
				}

				define amdgpu_cs_chain void @chain_to_chain(<3 x i32> inreg %a, <3 x i32> %b) {
				; GISEL-GFX11-LABEL: chain_to_chain:
				; GISEL-GFX11: ; %bb.0:
				; GISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GISEL-GFX11-NEXT: v_mov_b32_e32 v1, v8
				; GISEL-GFX11-NEXT: s_mov_b32 s3, s0
				; GISEL-GFX11-NEXT: ;;#ASMSTART
				; GISEL-GFX11-NEXT: s_nop
				; GISEL-GFX11-NEXT: ;;#ASMEND
				; GISEL-GFX11-NEXT: s_mov_b32 s4, chain_callee@abs32@lo
				; GISEL-GFX11-NEXT: s_mov_b32 s5, chain_callee@abs32@hi
				; GISEL-GFX11-NEXT: v_mov_b32_e32 v8, v1
				; GISEL-GFX11-NEXT: s_mov_b32 s0, s3
				; GISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; GISEL-GFX10-LABEL: chain_to_chain:
				; GISEL-GFX10: ; %bb.0:
				; GISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v1, v8
				; GISEL-GFX10-NEXT: s_mov_b32 s3, s0
				; GISEL-GFX10-NEXT: ;;#ASMSTART
				; GISEL-GFX10-NEXT: s_nop
				; GISEL-GFX10-NEXT: ;;#ASMEND
				; GISEL-GFX10-NEXT: s_mov_b32 s4, chain_callee@abs32@lo
				; GISEL-GFX10-NEXT: s_mov_b32 s5, chain_callee@abs32@hi
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v8, v1
				; GISEL-GFX10-NEXT: s_mov_b32 s0, s3
				; GISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX11-LABEL: chain_to_chain:
				; DAGISEL-GFX11: ; %bb.0:
				; DAGISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; DAGISEL-GFX11-NEXT: v_mov_b32_e32 v1, v8
				; DAGISEL-GFX11-NEXT: s_mov_b32 s3, s0
				; DAGISEL-GFX11-NEXT: ;;#ASMSTART
				; DAGISEL-GFX11-NEXT: s_nop
				; DAGISEL-GFX11-NEXT: ;;#ASMEND
				; DAGISEL-GFX11-NEXT: s_mov_b32 s5, chain_callee@abs32@hi
				; DAGISEL-GFX11-NEXT: s_mov_b32 s4, chain_callee@abs32@lo
				; DAGISEL-GFX11-NEXT: v_mov_b32_e32 v8, v1
				; DAGISEL-GFX11-NEXT: s_mov_b32 s0, s3
				; DAGISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX10-LABEL: chain_to_chain:
				; DAGISEL-GFX10: ; %bb.0:
				; DAGISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v1, v8
				; DAGISEL-GFX10-NEXT: s_mov_b32 s3, s0
				; DAGISEL-GFX10-NEXT: ;;#ASMSTART
				; DAGISEL-GFX10-NEXT: s_nop
				; DAGISEL-GFX10-NEXT: ;;#ASMEND
				; DAGISEL-GFX10-NEXT: s_mov_b32 s5, chain_callee@abs32@hi
				; DAGISEL-GFX10-NEXT: s_mov_b32 s4, chain_callee@abs32@lo
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v8, v1
				; DAGISEL-GFX10-NEXT: s_mov_b32 s0, s3
				; DAGISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				call void asm "s_nop", "~{v0},~{v8},~{v16},~{s0}"()
				call void(ptr, i32, <3 x i32>, <3 x i32>, i32, ...) @llvm.amdgcn.cs.chain.v3i32(ptr @chain_callee, i32 -1, <3 x i32> inreg %a, <3 x i32> %b, i32 0)
				unreachable
				}

				define amdgpu_cs_chain void @chain_to_chain_use_all_v0_v7(<3 x i32> inreg %a, <3 x i32> %b) {
				; GISEL-GFX11-LABEL: chain_to_chain_use_all_v0_v7:
				; GISEL-GFX11: ; %bb.0:
				; GISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GISEL-GFX11-NEXT: v_mov_b32_e32 v11, v8
				; GISEL-GFX11-NEXT: s_mov_b32 s3, s0
				; GISEL-GFX11-NEXT: ;;#ASMSTART
				; GISEL-GFX11-NEXT: s_nop
				; GISEL-GFX11-NEXT: ;;#ASMEND
				; GISEL-GFX11-NEXT: s_mov_b32 s4, chain_callee@abs32@lo
				; GISEL-GFX11-NEXT: s_mov_b32 s5, chain_callee@abs32@hi
				; GISEL-GFX11-NEXT: v_mov_b32_e32 v8, v11
				; GISEL-GFX11-NEXT: s_mov_b32 s0, s3
				; GISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; GISEL-GFX10-LABEL: chain_to_chain_use_all_v0_v7:
				; GISEL-GFX10: ; %bb.0:
				; GISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v11, v8
				; GISEL-GFX10-NEXT: s_mov_b32 s3, s0
				; GISEL-GFX10-NEXT: ;;#ASMSTART
				; GISEL-GFX10-NEXT: s_nop
				; GISEL-GFX10-NEXT: ;;#ASMEND
				; GISEL-GFX10-NEXT: s_mov_b32 s4, chain_callee@abs32@lo
				; GISEL-GFX10-NEXT: s_mov_b32 s5, chain_callee@abs32@hi
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v8, v11
				; GISEL-GFX10-NEXT: s_mov_b32 s0, s3
				; GISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX11-LABEL: chain_to_chain_use_all_v0_v7:
				; DAGISEL-GFX11: ; %bb.0:
				; DAGISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; DAGISEL-GFX11-NEXT: v_mov_b32_e32 v11, v8
				; DAGISEL-GFX11-NEXT: s_mov_b32 s3, s0
				; DAGISEL-GFX11-NEXT: ;;#ASMSTART
				; DAGISEL-GFX11-NEXT: s_nop
				; DAGISEL-GFX11-NEXT: ;;#ASMEND
				; DAGISEL-GFX11-NEXT: s_mov_b32 s5, chain_callee@abs32@hi
				; DAGISEL-GFX11-NEXT: s_mov_b32 s4, chain_callee@abs32@lo
				; DAGISEL-GFX11-NEXT: v_mov_b32_e32 v8, v11
				; DAGISEL-GFX11-NEXT: s_mov_b32 s0, s3
				; DAGISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX10-LABEL: chain_to_chain_use_all_v0_v7:
				; DAGISEL-GFX10: ; %bb.0:
				; DAGISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v11, v8
				; DAGISEL-GFX10-NEXT: s_mov_b32 s3, s0
				; DAGISEL-GFX10-NEXT: ;;#ASMSTART
				; DAGISEL-GFX10-NEXT: s_nop
				; DAGISEL-GFX10-NEXT: ;;#ASMEND
				; DAGISEL-GFX10-NEXT: s_mov_b32 s5, chain_callee@abs32@hi
				; DAGISEL-GFX10-NEXT: s_mov_b32 s4, chain_callee@abs32@lo
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v8, v11
				; DAGISEL-GFX10-NEXT: s_mov_b32 s0, s3
				; DAGISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				call void asm "s_nop", "~{v0},~{v1},~{v2},~{v3},~{v4},~{v5},~{v6},~{v7},~{v8},~{v16},~{s0}"()
				call void(ptr, i32, <3 x i32>, <3 x i32>, i32, ...) @llvm.amdgcn.cs.chain.v3i32(ptr @chain_callee, i32 -1, <3 x i32> inreg %a, <3 x i32> %b, i32 0)
				unreachable
				}

				define amdgpu_cs_chain void @chain_to_chain_fewer_args(<3 x i32> inreg %a, <3 x i32> %b) {
				; GISEL-GFX11-LABEL: chain_to_chain_fewer_args:
				; GISEL-GFX11: ; %bb.0:
				; GISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GISEL-GFX11-NEXT: v_mov_b32_e32 v1, v8
				; GISEL-GFX11-NEXT: s_mov_b32 s2, s0
				; GISEL-GFX11-NEXT: ;;#ASMSTART
				; GISEL-GFX11-NEXT: s_nop
				; GISEL-GFX11-NEXT: ;;#ASMEND
				; GISEL-GFX11-NEXT: s_mov_b32 s4, chain_callee_2@abs32@lo
				; GISEL-GFX11-NEXT: s_mov_b32 s5, chain_callee_2@abs32@hi
				; GISEL-GFX11-NEXT: v_mov_b32_e32 v8, v1
				; GISEL-GFX11-NEXT: s_mov_b32 s0, s2
				; GISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; GISEL-GFX10-LABEL: chain_to_chain_fewer_args:
				; GISEL-GFX10: ; %bb.0:
				; GISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v1, v8
				; GISEL-GFX10-NEXT: s_mov_b32 s2, s0
				; GISEL-GFX10-NEXT: ;;#ASMSTART
				; GISEL-GFX10-NEXT: s_nop
				; GISEL-GFX10-NEXT: ;;#ASMEND
				; GISEL-GFX10-NEXT: s_mov_b32 s4, chain_callee_2@abs32@lo
				; GISEL-GFX10-NEXT: s_mov_b32 s5, chain_callee_2@abs32@hi
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v8, v1
				; GISEL-GFX10-NEXT: s_mov_b32 s0, s2
				; GISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX11-LABEL: chain_to_chain_fewer_args:
				; DAGISEL-GFX11: ; %bb.0:
				; DAGISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; DAGISEL-GFX11-NEXT: v_mov_b32_e32 v1, v8
				; DAGISEL-GFX11-NEXT: s_mov_b32 s2, s0
				; DAGISEL-GFX11-NEXT: ;;#ASMSTART
				; DAGISEL-GFX11-NEXT: s_nop
				; DAGISEL-GFX11-NEXT: ;;#ASMEND
				; DAGISEL-GFX11-NEXT: s_mov_b32 s5, chain_callee_2@abs32@hi
				; DAGISEL-GFX11-NEXT: s_mov_b32 s4, chain_callee_2@abs32@lo
				; DAGISEL-GFX11-NEXT: v_mov_b32_e32 v8, v1
				; DAGISEL-GFX11-NEXT: s_mov_b32 s0, s2
				; DAGISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX10-LABEL: chain_to_chain_fewer_args:
				; DAGISEL-GFX10: ; %bb.0:
				; DAGISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v1, v8
				; DAGISEL-GFX10-NEXT: s_mov_b32 s2, s0
				; DAGISEL-GFX10-NEXT: ;;#ASMSTART
				; DAGISEL-GFX10-NEXT: s_nop
				; DAGISEL-GFX10-NEXT: ;;#ASMEND
				; DAGISEL-GFX10-NEXT: s_mov_b32 s5, chain_callee_2@abs32@hi
				; DAGISEL-GFX10-NEXT: s_mov_b32 s4, chain_callee_2@abs32@lo
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v8, v1
				; DAGISEL-GFX10-NEXT: s_mov_b32 s0, s2
				; DAGISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				%s = shufflevector <3 x i32> %a, <3 x i32> zeroinitializer, <2 x i32> <i32 0, i32 1>
				%v = shufflevector <3 x i32> %b, <3 x i32> zeroinitializer, <2 x i32> <i32 0, i32 1>
				call void asm "s_nop", "~{v0},~{v8},~{v16},~{s0}"()
				call void(ptr, i32, <2 x i32>, <2 x i32>, i32, ...) @llvm.amdgcn.cs.chain.v2i32(ptr @chain_callee_2, i32 -1, <2 x i32> inreg %s, <2 x i32> %v, i32 0)
				unreachable
				}

				define amdgpu_cs_chain void @chain_to_chain_more_args(<3 x i32> inreg %a, <3 x i32> %b) {
				; GISEL-GFX11-LABEL: chain_to_chain_more_args:
				; GISEL-GFX11: ; %bb.0:
				; GISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GISEL-GFX11-NEXT: v_mov_b32_e32 v1, v8
				; GISEL-GFX11-NEXT: s_mov_b32 s3, s0
				; GISEL-GFX11-NEXT: ;;#ASMSTART
				; GISEL-GFX11-NEXT: s_nop
				; GISEL-GFX11-NEXT: ;;#ASMEND
				; GISEL-GFX11-NEXT: s_mov_b32 s4, chain_callee_2@abs32@lo
				; GISEL-GFX11-NEXT: s_mov_b32 s5, chain_callee_2@abs32@hi
				; GISEL-GFX11-NEXT: v_dual_mov_b32 v8, v1 :: v_dual_mov_b32 v11, 0
				; GISEL-GFX11-NEXT: s_mov_b32 s0, s3
				; GISEL-GFX11-NEXT: s_mov_b32 s3, 0
				; GISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; GISEL-GFX10-LABEL: chain_to_chain_more_args:
				; GISEL-GFX10: ; %bb.0:
				; GISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v1, v8
				; GISEL-GFX10-NEXT: s_mov_b32 s3, s0
				; GISEL-GFX10-NEXT: ;;#ASMSTART
				; GISEL-GFX10-NEXT: s_nop
				; GISEL-GFX10-NEXT: ;;#ASMEND
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v11, 0
				; GISEL-GFX10-NEXT: s_mov_b32 s4, chain_callee_2@abs32@lo
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v8, v1
				; GISEL-GFX10-NEXT: s_mov_b32 s5, chain_callee_2@abs32@hi
				; GISEL-GFX10-NEXT: s_mov_b32 s0, s3
				; GISEL-GFX10-NEXT: s_mov_b32 s3, 0
				; GISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX11-LABEL: chain_to_chain_more_args:
				; DAGISEL-GFX11: ; %bb.0:
				; DAGISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; DAGISEL-GFX11-NEXT: v_mov_b32_e32 v1, v8
				; DAGISEL-GFX11-NEXT: s_mov_b32 s3, s0
				; DAGISEL-GFX11-NEXT: ;;#ASMSTART
				; DAGISEL-GFX11-NEXT: s_nop
				; DAGISEL-GFX11-NEXT: ;;#ASMEND
				; DAGISEL-GFX11-NEXT: s_mov_b32 s5, chain_callee_2@abs32@hi
				; DAGISEL-GFX11-NEXT: s_mov_b32 s4, chain_callee_2@abs32@lo
				; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v8, v1 :: v_dual_mov_b32 v11, 0
				; DAGISEL-GFX11-NEXT: s_mov_b32 s0, s3
				; DAGISEL-GFX11-NEXT: s_mov_b32 s3, 0
				; DAGISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX10-LABEL: chain_to_chain_more_args:
				; DAGISEL-GFX10: ; %bb.0:
				; DAGISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v1, v8
				; DAGISEL-GFX10-NEXT: s_mov_b32 s3, s0
				; DAGISEL-GFX10-NEXT: ;;#ASMSTART
				; DAGISEL-GFX10-NEXT: s_nop
				; DAGISEL-GFX10-NEXT: ;;#ASMEND
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v11, 0
				; DAGISEL-GFX10-NEXT: s_mov_b32 s5, chain_callee_2@abs32@hi
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v8, v1
				; DAGISEL-GFX10-NEXT: s_mov_b32 s4, chain_callee_2@abs32@lo
				; DAGISEL-GFX10-NEXT: s_mov_b32 s0, s3
				; DAGISEL-GFX10-NEXT: s_mov_b32 s3, 0
				; DAGISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				%s = shufflevector <3 x i32> %a, <3 x i32> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
				%v = shufflevector <3 x i32> %b, <3 x i32> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
				call void asm "s_nop", "~{v0},~{v8},~{v16},~{s0}"()
				call void(ptr, i32, <4 x i32>, <4 x i32>, i32, ...) @llvm.amdgcn.cs.chain.v4i32(ptr @chain_callee_2, i32 -1, <4 x i32> inreg %s, <4 x i32> %v, i32 0)
				unreachable
				}

				declare void @llvm.amdgcn.cs.chain.v2i32(ptr, i32, <2 x i32>, <2 x i32>, i32, ...)
				declare void @llvm.amdgcn.cs.chain.v3i32(ptr, i32, <3 x i32>, <3 x i32>, i32, ...)
				declare void @llvm.amdgcn.cs.chain.v4i32(ptr, i32, <4 x i32>, <4 x i32>, i32, ...)
				declare amdgpu_cs_chain void @chain_callee_2(<2 x i32> inreg, <2 x i32>)
				declare amdgpu_cs_chain void @chain_callee(<3 x i32> inreg, <3 x i32>)
				declare amdgpu_cs_chain void @chain_callee_4(<4 x i32> inreg, <4 x i32>)

llvm/test/CodeGen/AMDGPU/amdgpu-cs-chain-preserve-cc.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 2			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 2
	; RUN: llc -global-isel=1 -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs < %s \| FileCheck -check-prefix=GISEL-GFX11 %s			; RUN: llc -global-isel=1 -mtriple=amdgcn--amdpal -mcpu=gfx1100 -verify-machineinstrs < %s \| FileCheck -check-prefix=GISEL-GFX11 %s
	; RUN: llc -global-isel=1 -march=amdgcn -mcpu=gfx1030 -verify-machineinstrs < %s \| FileCheck -check-prefix=GISEL-GFX10 %s			; RUN: llc -global-isel=1 -mtriple=amdgcn--amdpal -mcpu=gfx1030 -verify-machineinstrs < %s \| FileCheck -check-prefix=GISEL-GFX10 %s
	; RUN: llc -global-isel=0 -march=amdgcn -mcpu=gfx1100 -verify-machineinstrs < %s \| FileCheck -check-prefix=DAGISEL-GFX11 %s			; RUN: llc -global-isel=0 -mtriple=amdgcn--amdpal -mcpu=gfx1100 -verify-machineinstrs < %s \| FileCheck -check-prefix=DAGISEL-GFX11 %s
	; RUN: llc -global-isel=0 -march=amdgcn -mcpu=gfx1030 -verify-machineinstrs < %s \| FileCheck -check-prefix=DAGISEL-GFX10 %s			; RUN: llc -global-isel=0 -mtriple=amdgcn--amdpal -mcpu=gfx1030 -verify-machineinstrs < %s \| FileCheck -check-prefix=DAGISEL-GFX10 %s

	declare amdgpu_gfx void @use(...)

	; FIXME: The values of the counters are undefined on entry to amdgpu_cs_chain_preserve functions, so these waits are unnecessary.

	define amdgpu_cs_chain_preserve void @amdgpu_cs_chain_preserve_no_stack({ptr, i32, <4 x i32>} inreg %a, {ptr, i32, <4 x i32>} %b) {			define amdgpu_cs_chain_preserve void @amdgpu_cs_chain_preserve_no_stack({ptr, i32, <4 x i32>} inreg %a, {ptr, i32, <4 x i32>} %b) {
	; GISEL-GFX11-LABEL: amdgpu_cs_chain_preserve_no_stack:			; GISEL-GFX11-LABEL: amdgpu_cs_chain_preserve_no_stack:
	; GISEL-GFX11: ; %bb.0:			; GISEL-GFX11: ; %bb.0:
	; GISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GISEL-GFX11-NEXT: s_endpgm			; GISEL-GFX11-NEXT: s_endpgm
	;			;
	; GISEL-GFX10-LABEL: amdgpu_cs_chain_preserve_no_stack:			; GISEL-GFX10-LABEL: amdgpu_cs_chain_preserve_no_stack:
	; GISEL-GFX10: ; %bb.0:			; GISEL-GFX10: ; %bb.0:
	; GISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GISEL-GFX10-NEXT: s_endpgm			; GISEL-GFX10-NEXT: s_endpgm
	;			;
	; DAGISEL-GFX11-LABEL: amdgpu_cs_chain_preserve_no_stack:			; DAGISEL-GFX11-LABEL: amdgpu_cs_chain_preserve_no_stack:
	; DAGISEL-GFX11: ; %bb.0:			; DAGISEL-GFX11: ; %bb.0:
	; DAGISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; DAGISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; DAGISEL-GFX11-NEXT: s_endpgm			; DAGISEL-GFX11-NEXT: s_endpgm
	;			;
	; DAGISEL-GFX10-LABEL: amdgpu_cs_chain_preserve_no_stack:			; DAGISEL-GFX10-LABEL: amdgpu_cs_chain_preserve_no_stack:
	; DAGISEL-GFX10: ; %bb.0:			; DAGISEL-GFX10: ; %bb.0:
	; DAGISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; DAGISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; DAGISEL-GFX10-NEXT: s_endpgm			; DAGISEL-GFX10-NEXT: s_endpgm
	ret void			ret void
	}			}

				define amdgpu_cs void @cs_to_chain_preserve(<3 x i32> inreg %a, <3 x i32> %b) {
				; GISEL-GFX11-LABEL: cs_to_chain_preserve:
				; GISEL-GFX11: ; %bb.0:
				; GISEL-GFX11-NEXT: v_dual_mov_b32 v3, v0 :: v_dual_mov_b32 v10, v2
				; GISEL-GFX11-NEXT: s_mov_b32 s3, s0
				; GISEL-GFX11-NEXT: ;;#ASMSTART
				; GISEL-GFX11-NEXT: s_nop
				; GISEL-GFX11-NEXT: ;;#ASMEND
				; GISEL-GFX11-NEXT: s_mov_b32 s4, chain_preserve_callee@abs32@lo
				; GISEL-GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
				; GISEL-GFX11-NEXT: v_dual_mov_b32 v8, v3 :: v_dual_mov_b32 v9, v1
				; GISEL-GFX11-NEXT: s_mov_b32 s5, chain_preserve_callee@abs32@hi
				; GISEL-GFX11-NEXT: s_mov_b32 s0, s3
				; GISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; GISEL-GFX10-LABEL: cs_to_chain_preserve:
				; GISEL-GFX10: ; %bb.0:
				; GISEL-GFX10-NEXT: s_getpc_b64 s[100:101]
				; GISEL-GFX10-NEXT: s_mov_b32 s100, s0
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v3, v0
				; GISEL-GFX10-NEXT: s_load_dwordx4 s[100:103], s[100:101], 0x10
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v9, v1
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v10, v2
				; GISEL-GFX10-NEXT: s_mov_b32 s4, chain_preserve_callee@abs32@lo
				; GISEL-GFX10-NEXT: s_mov_b32 s5, chain_preserve_callee@abs32@hi
				; GISEL-GFX10-NEXT: s_waitcnt lgkmcnt(0)
				; GISEL-GFX10-NEXT: s_bitset0_b32 s103, 21
				; GISEL-GFX10-NEXT: s_add_u32 s100, s100, s3
				; GISEL-GFX10-NEXT: s_mov_b32 s3, s0
				; GISEL-GFX10-NEXT: ;;#ASMSTART
				; GISEL-GFX10-NEXT: s_nop
				; GISEL-GFX10-NEXT: ;;#ASMEND
				; GISEL-GFX10-NEXT: s_addc_u32 s101, s101, 0
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v8, v3
				; GISEL-GFX10-NEXT: s_mov_b64 s[48:49], s[100:101]
				; GISEL-GFX10-NEXT: s_mov_b32 s0, s3
				; GISEL-GFX10-NEXT: s_mov_b64 s[50:51], s[102:103]
				; GISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX11-LABEL: cs_to_chain_preserve:
				; DAGISEL-GFX11: ; %bb.0:
				; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v3, v0 :: v_dual_mov_b32 v10, v2
				; DAGISEL-GFX11-NEXT: s_mov_b32 s3, s0
				; DAGISEL-GFX11-NEXT: ;;#ASMSTART
				; DAGISEL-GFX11-NEXT: s_nop
				; DAGISEL-GFX11-NEXT: ;;#ASMEND
				; DAGISEL-GFX11-NEXT: s_mov_b32 s5, chain_preserve_callee@abs32@hi
				; DAGISEL-GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
				; DAGISEL-GFX11-NEXT: v_dual_mov_b32 v8, v3 :: v_dual_mov_b32 v9, v1
				; DAGISEL-GFX11-NEXT: s_mov_b32 s4, chain_preserve_callee@abs32@lo
				; DAGISEL-GFX11-NEXT: s_mov_b32 s0, s3
				; DAGISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX10-LABEL: cs_to_chain_preserve:
				; DAGISEL-GFX10: ; %bb.0:
				; DAGISEL-GFX10-NEXT: s_getpc_b64 s[100:101]
				; DAGISEL-GFX10-NEXT: s_mov_b32 s100, s0
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v3, v0
				; DAGISEL-GFX10-NEXT: s_load_dwordx4 s[100:103], s[100:101], 0x10
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v9, v1
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v10, v2
				; DAGISEL-GFX10-NEXT: s_mov_b32 s5, chain_preserve_callee@abs32@hi
				; DAGISEL-GFX10-NEXT: s_mov_b32 s4, chain_preserve_callee@abs32@lo
				; DAGISEL-GFX10-NEXT: s_waitcnt lgkmcnt(0)
				; DAGISEL-GFX10-NEXT: s_bitset0_b32 s103, 21
				; DAGISEL-GFX10-NEXT: s_add_u32 s100, s100, s3
				; DAGISEL-GFX10-NEXT: s_mov_b32 s3, s0
				; DAGISEL-GFX10-NEXT: ;;#ASMSTART
				; DAGISEL-GFX10-NEXT: s_nop
				; DAGISEL-GFX10-NEXT: ;;#ASMEND
				; DAGISEL-GFX10-NEXT: s_addc_u32 s101, s101, 0
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v8, v3
				; DAGISEL-GFX10-NEXT: s_mov_b64 s[48:49], s[100:101]
				; DAGISEL-GFX10-NEXT: s_mov_b64 s[50:51], s[102:103]
				; DAGISEL-GFX10-NEXT: s_mov_b32 s0, s3
				; DAGISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				call void asm "s_nop", "~{v0},~{v8},~{v16},~{s0}"()
				call void(ptr, i32, <3 x i32>, <3 x i32>, i32, ...) @llvm.amdgcn.cs.chain.v3i32(ptr @chain_preserve_callee, i32 -1, <3 x i32> inreg %a, <3 x i32> %b, i32 0)
				unreachable
				}

				define amdgpu_cs_chain void @chain_to_chain_preserve(<3 x i32> inreg %a, <3 x i32> %b) {
				; GISEL-GFX11-LABEL: chain_to_chain_preserve:
				; GISEL-GFX11: ; %bb.0:
				; GISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GISEL-GFX11-NEXT: v_mov_b32_e32 v1, v8
				; GISEL-GFX11-NEXT: s_mov_b32 s3, s0
				; GISEL-GFX11-NEXT: ;;#ASMSTART
				; GISEL-GFX11-NEXT: s_nop
				; GISEL-GFX11-NEXT: ;;#ASMEND
				; GISEL-GFX11-NEXT: s_mov_b32 s4, chain_preserve_callee@abs32@lo
				; GISEL-GFX11-NEXT: s_mov_b32 s5, chain_preserve_callee@abs32@hi
				; GISEL-GFX11-NEXT: v_mov_b32_e32 v8, v1
				; GISEL-GFX11-NEXT: s_mov_b32 s0, s3
				; GISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; GISEL-GFX10-LABEL: chain_to_chain_preserve:
				; GISEL-GFX10: ; %bb.0:
				; GISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v1, v8
				; GISEL-GFX10-NEXT: s_mov_b32 s3, s0
				; GISEL-GFX10-NEXT: ;;#ASMSTART
				; GISEL-GFX10-NEXT: s_nop
				; GISEL-GFX10-NEXT: ;;#ASMEND
				; GISEL-GFX10-NEXT: s_mov_b32 s4, chain_preserve_callee@abs32@lo
				; GISEL-GFX10-NEXT: s_mov_b32 s5, chain_preserve_callee@abs32@hi
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v8, v1
				; GISEL-GFX10-NEXT: s_mov_b32 s0, s3
				; GISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX11-LABEL: chain_to_chain_preserve:
				; DAGISEL-GFX11: ; %bb.0:
				; DAGISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; DAGISEL-GFX11-NEXT: v_mov_b32_e32 v1, v8
				; DAGISEL-GFX11-NEXT: s_mov_b32 s3, s0
				; DAGISEL-GFX11-NEXT: ;;#ASMSTART
				; DAGISEL-GFX11-NEXT: s_nop
				; DAGISEL-GFX11-NEXT: ;;#ASMEND
				; DAGISEL-GFX11-NEXT: s_mov_b32 s5, chain_preserve_callee@abs32@hi
				; DAGISEL-GFX11-NEXT: s_mov_b32 s4, chain_preserve_callee@abs32@lo
				; DAGISEL-GFX11-NEXT: v_mov_b32_e32 v8, v1
				; DAGISEL-GFX11-NEXT: s_mov_b32 s0, s3
				; DAGISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX10-LABEL: chain_to_chain_preserve:
				; DAGISEL-GFX10: ; %bb.0:
				; DAGISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v1, v8
				; DAGISEL-GFX10-NEXT: s_mov_b32 s3, s0
				; DAGISEL-GFX10-NEXT: ;;#ASMSTART
				; DAGISEL-GFX10-NEXT: s_nop
				; DAGISEL-GFX10-NEXT: ;;#ASMEND
				; DAGISEL-GFX10-NEXT: s_mov_b32 s5, chain_preserve_callee@abs32@hi
				; DAGISEL-GFX10-NEXT: s_mov_b32 s4, chain_preserve_callee@abs32@lo
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v8, v1
				; DAGISEL-GFX10-NEXT: s_mov_b32 s0, s3
				; DAGISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				call void asm "s_nop", "~{v0},~{v8},~{v16},~{s0}"()
				call void(ptr, i32, <3 x i32>, <3 x i32>, i32, ...) @llvm.amdgcn.cs.chain.v3i32(ptr @chain_preserve_callee, i32 -1, <3 x i32> inreg %a, <3 x i32> %b, i32 0)
				unreachable
				}

				; FIXME: Preserve things (i.e. v16)!
				; FIXME: Setup s32.

				define amdgpu_cs_chain_preserve void @chain_preserve_to_chain_preserve(<3 x i32> inreg %a, <3 x i32> %b) {
				; GISEL-GFX11-LABEL: chain_preserve_to_chain_preserve:
				; GISEL-GFX11: ; %bb.0:
				; GISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GISEL-GFX11-NEXT: v_mov_b32_e32 v1, v8
				; GISEL-GFX11-NEXT: s_mov_b32 s3, s0
				; GISEL-GFX11-NEXT: ;;#ASMSTART
				; GISEL-GFX11-NEXT: s_nop
				; GISEL-GFX11-NEXT: ;;#ASMEND
				; GISEL-GFX11-NEXT: s_mov_b32 s4, chain_preserve_callee@abs32@lo
				; GISEL-GFX11-NEXT: s_mov_b32 s5, chain_preserve_callee@abs32@hi
				; GISEL-GFX11-NEXT: v_mov_b32_e32 v8, v1
				; GISEL-GFX11-NEXT: s_mov_b32 s0, s3
				; GISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; GISEL-GFX10-LABEL: chain_preserve_to_chain_preserve:
				; GISEL-GFX10: ; %bb.0:
				; GISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v1, v8
				; GISEL-GFX10-NEXT: s_mov_b32 s3, s0
				; GISEL-GFX10-NEXT: ;;#ASMSTART
				; GISEL-GFX10-NEXT: s_nop
				; GISEL-GFX10-NEXT: ;;#ASMEND
				; GISEL-GFX10-NEXT: s_mov_b32 s4, chain_preserve_callee@abs32@lo
				; GISEL-GFX10-NEXT: s_mov_b32 s5, chain_preserve_callee@abs32@hi
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v8, v1
				; GISEL-GFX10-NEXT: s_mov_b32 s0, s3
				; GISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX11-LABEL: chain_preserve_to_chain_preserve:
				; DAGISEL-GFX11: ; %bb.0:
				; DAGISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; DAGISEL-GFX11-NEXT: v_mov_b32_e32 v1, v8
				; DAGISEL-GFX11-NEXT: s_mov_b32 s3, s0
				; DAGISEL-GFX11-NEXT: ;;#ASMSTART
				; DAGISEL-GFX11-NEXT: s_nop
				; DAGISEL-GFX11-NEXT: ;;#ASMEND
				; DAGISEL-GFX11-NEXT: s_mov_b32 s5, chain_preserve_callee@abs32@hi
				; DAGISEL-GFX11-NEXT: s_mov_b32 s4, chain_preserve_callee@abs32@lo
				; DAGISEL-GFX11-NEXT: v_mov_b32_e32 v8, v1
				; DAGISEL-GFX11-NEXT: s_mov_b32 s0, s3
				; DAGISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX10-LABEL: chain_preserve_to_chain_preserve:
				; DAGISEL-GFX10: ; %bb.0:
				; DAGISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v1, v8
				; DAGISEL-GFX10-NEXT: s_mov_b32 s3, s0
				; DAGISEL-GFX10-NEXT: ;;#ASMSTART
				; DAGISEL-GFX10-NEXT: s_nop
				; DAGISEL-GFX10-NEXT: ;;#ASMEND
				; DAGISEL-GFX10-NEXT: s_mov_b32 s5, chain_preserve_callee@abs32@hi
				; DAGISEL-GFX10-NEXT: s_mov_b32 s4, chain_preserve_callee@abs32@lo
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v8, v1
				; DAGISEL-GFX10-NEXT: s_mov_b32 s0, s3
				; DAGISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				call void asm "s_nop", "~{v0},~{v8},~{v16},~{s0}"()
				call void(ptr, i32, <3 x i32>, <3 x i32>, i32, ...) @llvm.amdgcn.cs.chain.v3i32(ptr @chain_preserve_callee, i32 -1, <3 x i32> inreg %a, <3 x i32> %b, i32 0)
				unreachable
				}

				define amdgpu_cs_chain_preserve void @chain_preserve_to_chain(<3 x i32> inreg %a, <3 x i32> %b) {
				; GISEL-GFX11-LABEL: chain_preserve_to_chain:
				; GISEL-GFX11: ; %bb.0:
				; GISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GISEL-GFX11-NEXT: v_mov_b32_e32 v1, v8
				; GISEL-GFX11-NEXT: s_mov_b32 s3, s0
				; GISEL-GFX11-NEXT: ;;#ASMSTART
				; GISEL-GFX11-NEXT: s_nop
				; GISEL-GFX11-NEXT: ;;#ASMEND
				; GISEL-GFX11-NEXT: s_mov_b32 s4, chain_callee@abs32@lo
				; GISEL-GFX11-NEXT: s_mov_b32 s5, chain_callee@abs32@hi
				; GISEL-GFX11-NEXT: v_mov_b32_e32 v8, v1
				; GISEL-GFX11-NEXT: s_mov_b32 s0, s3
				; GISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; GISEL-GFX10-LABEL: chain_preserve_to_chain:
				; GISEL-GFX10: ; %bb.0:
				; GISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v1, v8
				; GISEL-GFX10-NEXT: s_mov_b32 s3, s0
				; GISEL-GFX10-NEXT: ;;#ASMSTART
				; GISEL-GFX10-NEXT: s_nop
				; GISEL-GFX10-NEXT: ;;#ASMEND
				; GISEL-GFX10-NEXT: s_mov_b32 s4, chain_callee@abs32@lo
				; GISEL-GFX10-NEXT: s_mov_b32 s5, chain_callee@abs32@hi
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v8, v1
				; GISEL-GFX10-NEXT: s_mov_b32 s0, s3
				; GISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX11-LABEL: chain_preserve_to_chain:
				; DAGISEL-GFX11: ; %bb.0:
				; DAGISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; DAGISEL-GFX11-NEXT: v_mov_b32_e32 v1, v8
				; DAGISEL-GFX11-NEXT: s_mov_b32 s3, s0
				; DAGISEL-GFX11-NEXT: ;;#ASMSTART
				; DAGISEL-GFX11-NEXT: s_nop
				; DAGISEL-GFX11-NEXT: ;;#ASMEND
				; DAGISEL-GFX11-NEXT: s_mov_b32 s5, chain_callee@abs32@hi
				; DAGISEL-GFX11-NEXT: s_mov_b32 s4, chain_callee@abs32@lo
				; DAGISEL-GFX11-NEXT: v_mov_b32_e32 v8, v1
				; DAGISEL-GFX11-NEXT: s_mov_b32 s0, s3
				; DAGISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX10-LABEL: chain_preserve_to_chain:
				; DAGISEL-GFX10: ; %bb.0:
				; DAGISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v1, v8
				; DAGISEL-GFX10-NEXT: s_mov_b32 s3, s0
				; DAGISEL-GFX10-NEXT: ;;#ASMSTART
				; DAGISEL-GFX10-NEXT: s_nop
				; DAGISEL-GFX10-NEXT: ;;#ASMEND
				; DAGISEL-GFX10-NEXT: s_mov_b32 s5, chain_callee@abs32@hi
				; DAGISEL-GFX10-NEXT: s_mov_b32 s4, chain_callee@abs32@lo
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v8, v1
				; DAGISEL-GFX10-NEXT: s_mov_b32 s0, s3
				; DAGISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				call void asm "s_nop", "~{v0},~{v8},~{v16},~{s0}"()
				call void(ptr, i32, <3 x i32>, <3 x i32>, i32, ...) @llvm.amdgcn.cs.chain.v3i32(ptr @chain_callee, i32 -1, <3 x i32> inreg %a, <3 x i32> %b, i32 0)
				unreachable
				}

				define amdgpu_cs_chain_preserve void @chain_preserve_to_chain_use_all_v0_v7(<3 x i32> inreg %a, <3 x i32> %b) {
				; GISEL-GFX11-LABEL: chain_preserve_to_chain_use_all_v0_v7:
				; GISEL-GFX11: ; %bb.0:
				; GISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GISEL-GFX11-NEXT: v_mov_b32_e32 v11, v8
				; GISEL-GFX11-NEXT: s_mov_b32 s3, s0
				; GISEL-GFX11-NEXT: ;;#ASMSTART
				; GISEL-GFX11-NEXT: s_nop
				; GISEL-GFX11-NEXT: ;;#ASMEND
				; GISEL-GFX11-NEXT: s_mov_b32 s4, chain_callee@abs32@lo
				; GISEL-GFX11-NEXT: s_mov_b32 s5, chain_callee@abs32@hi
				; GISEL-GFX11-NEXT: v_mov_b32_e32 v8, v11
				; GISEL-GFX11-NEXT: s_mov_b32 s0, s3
				; GISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; GISEL-GFX10-LABEL: chain_preserve_to_chain_use_all_v0_v7:
				; GISEL-GFX10: ; %bb.0:
				; GISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v11, v8
				; GISEL-GFX10-NEXT: s_mov_b32 s3, s0
				; GISEL-GFX10-NEXT: ;;#ASMSTART
				; GISEL-GFX10-NEXT: s_nop
				; GISEL-GFX10-NEXT: ;;#ASMEND
				; GISEL-GFX10-NEXT: s_mov_b32 s4, chain_callee@abs32@lo
				; GISEL-GFX10-NEXT: s_mov_b32 s5, chain_callee@abs32@hi
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v8, v11
				; GISEL-GFX10-NEXT: s_mov_b32 s0, s3
				; GISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX11-LABEL: chain_preserve_to_chain_use_all_v0_v7:
				; DAGISEL-GFX11: ; %bb.0:
				; DAGISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; DAGISEL-GFX11-NEXT: v_mov_b32_e32 v11, v8
				; DAGISEL-GFX11-NEXT: s_mov_b32 s3, s0
				; DAGISEL-GFX11-NEXT: ;;#ASMSTART
				; DAGISEL-GFX11-NEXT: s_nop
				; DAGISEL-GFX11-NEXT: ;;#ASMEND
				; DAGISEL-GFX11-NEXT: s_mov_b32 s5, chain_callee@abs32@hi
				; DAGISEL-GFX11-NEXT: s_mov_b32 s4, chain_callee@abs32@lo
				; DAGISEL-GFX11-NEXT: v_mov_b32_e32 v8, v11
				; DAGISEL-GFX11-NEXT: s_mov_b32 s0, s3
				; DAGISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX10-LABEL: chain_preserve_to_chain_use_all_v0_v7:
				; DAGISEL-GFX10: ; %bb.0:
				; DAGISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v11, v8
				; DAGISEL-GFX10-NEXT: s_mov_b32 s3, s0
				; DAGISEL-GFX10-NEXT: ;;#ASMSTART
				; DAGISEL-GFX10-NEXT: s_nop
				; DAGISEL-GFX10-NEXT: ;;#ASMEND
				; DAGISEL-GFX10-NEXT: s_mov_b32 s5, chain_callee@abs32@hi
				; DAGISEL-GFX10-NEXT: s_mov_b32 s4, chain_callee@abs32@lo
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v8, v11
				; DAGISEL-GFX10-NEXT: s_mov_b32 s0, s3
				; DAGISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				call void asm "s_nop", "~{v0},~{v1},~{v2},~{v3},~{v4},~{v5},~{v6},~{v7},~{v8},~{v16},~{s0}"()
				call void(ptr, i32, <3 x i32>, <3 x i32>, i32, ...) @llvm.amdgcn.cs.chain.v3i32(ptr @chain_callee, i32 -1, <3 x i32> inreg %a, <3 x i32> %b, i32 0)
				unreachable
				}

				define amdgpu_cs_chain_preserve void @chain_preserve_to_chain_preserve_fewer_args(<3 x i32> inreg %a, <3 x i32> %b) {
				; GISEL-GFX11-LABEL: chain_preserve_to_chain_preserve_fewer_args:
				; GISEL-GFX11: ; %bb.0:
				; GISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GISEL-GFX11-NEXT: v_mov_b32_e32 v1, v8
				; GISEL-GFX11-NEXT: s_mov_b32 s2, s0
				; GISEL-GFX11-NEXT: ;;#ASMSTART
				; GISEL-GFX11-NEXT: s_nop
				; GISEL-GFX11-NEXT: ;;#ASMEND
				; GISEL-GFX11-NEXT: s_mov_b32 s4, chain_preserve_callee_2@abs32@lo
				; GISEL-GFX11-NEXT: s_mov_b32 s5, chain_preserve_callee_2@abs32@hi
				; GISEL-GFX11-NEXT: v_mov_b32_e32 v8, v1
				; GISEL-GFX11-NEXT: s_mov_b32 s0, s2
				; GISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; GISEL-GFX10-LABEL: chain_preserve_to_chain_preserve_fewer_args:
				; GISEL-GFX10: ; %bb.0:
				; GISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v1, v8
				; GISEL-GFX10-NEXT: s_mov_b32 s2, s0
				; GISEL-GFX10-NEXT: ;;#ASMSTART
				; GISEL-GFX10-NEXT: s_nop
				; GISEL-GFX10-NEXT: ;;#ASMEND
				; GISEL-GFX10-NEXT: s_mov_b32 s4, chain_preserve_callee_2@abs32@lo
				; GISEL-GFX10-NEXT: s_mov_b32 s5, chain_preserve_callee_2@abs32@hi
				; GISEL-GFX10-NEXT: v_mov_b32_e32 v8, v1
				; GISEL-GFX10-NEXT: s_mov_b32 s0, s2
				; GISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; GISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX11-LABEL: chain_preserve_to_chain_preserve_fewer_args:
				; DAGISEL-GFX11: ; %bb.0:
				; DAGISEL-GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; DAGISEL-GFX11-NEXT: v_mov_b32_e32 v1, v8
				; DAGISEL-GFX11-NEXT: s_mov_b32 s2, s0
				; DAGISEL-GFX11-NEXT: ;;#ASMSTART
				; DAGISEL-GFX11-NEXT: s_nop
				; DAGISEL-GFX11-NEXT: ;;#ASMEND
				; DAGISEL-GFX11-NEXT: s_mov_b32 s5, chain_preserve_callee_2@abs32@hi
				; DAGISEL-GFX11-NEXT: s_mov_b32 s4, chain_preserve_callee_2@abs32@lo
				; DAGISEL-GFX11-NEXT: v_mov_b32_e32 v8, v1
				; DAGISEL-GFX11-NEXT: s_mov_b32 s0, s2
				; DAGISEL-GFX11-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX11-NEXT: s_setpc_b64 s[4:5]
				;
				; DAGISEL-GFX10-LABEL: chain_preserve_to_chain_preserve_fewer_args:
				; DAGISEL-GFX10: ; %bb.0:
				; DAGISEL-GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v1, v8
				; DAGISEL-GFX10-NEXT: s_mov_b32 s2, s0
				; DAGISEL-GFX10-NEXT: ;;#ASMSTART
				; DAGISEL-GFX10-NEXT: s_nop
				; DAGISEL-GFX10-NEXT: ;;#ASMEND
				; DAGISEL-GFX10-NEXT: s_mov_b32 s5, chain_preserve_callee_2@abs32@hi
				; DAGISEL-GFX10-NEXT: s_mov_b32 s4, chain_preserve_callee_2@abs32@lo
				; DAGISEL-GFX10-NEXT: v_mov_b32_e32 v8, v1
				; DAGISEL-GFX10-NEXT: s_mov_b32 s0, s2
				; DAGISEL-GFX10-NEXT: s_mov_b32 exec_lo, -1
				; DAGISEL-GFX10-NEXT: s_setpc_b64 s[4:5]
				%s = shufflevector <3 x i32> %a, <3 x i32> zeroinitializer, <2 x i32> <i32 0, i32 1>
				%v = shufflevector <3 x i32> %b, <3 x i32> zeroinitializer, <2 x i32> <i32 0, i32 1>
				call void asm "s_nop", "~{v0},~{v8},~{v16},~{s0}"()
				call void(ptr, i32, <2 x i32>, <2 x i32>, i32, ...) @llvm.amdgcn.cs.chain.v2i32(ptr @chain_preserve_callee_2, i32 -1, <2 x i32> inreg %s, <2 x i32> %v, i32 0)
				unreachable
				}

				; Note that amdgpu_cs_chain_preserve functions are not allowed to call
				; llvm.amdgcn.cs.chain with more vgpr args than they received as parameters.

				declare void @llvm.amdgcn.cs.chain.v3i32(ptr, i32, <3 x i32>, <3 x i32>, i32, ...)
				declare amdgpu_cs_chain_preserve void @chain_preserve_callee(<3 x i32> inreg, <3 x i32>)
				declare amdgpu_cs_chain void @chain_callee(<3 x i32> inreg, <3 x i32>)

				declare void @llvm.amdgcn.cs.chain.v2i32(ptr, i32, <2 x i32>, <2 x i32>, i32, ...)
				declare amdgpu_cs_chain_preserve void @chain_preserve_callee_2(<2 x i32> inreg, <2 x i32>)

llvm/test/CodeGen/AMDGPU/isel-amdgcn-cs-chain-intrinsic-w32.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py UTC_ARGS: --version 2
				; RUN: llc -global-isel=1 -mtriple=amdgcn--amdpal -mcpu=gfx1100 -mattr=+wavefrontsize32,-wavefrontsize64 -stop-after=finalize-isel -verify-machineinstrs < %s \| FileCheck -check-prefix=GISEL-GFX11 %s
				; RUN: llc -global-isel=1 -mtriple=amdgcn--amdpal -mcpu=gfx1030 -mattr=+wavefrontsize32,-wavefrontsize64 -stop-after=finalize-isel -verify-machineinstrs < %s \| FileCheck -check-prefix=GISEL-GFX10 %s
				; RUN: llc -global-isel=0 -mtriple=amdgcn--amdpal -mcpu=gfx1100 -mattr=+wavefrontsize32,-wavefrontsize64 -stop-after=finalize-isel -verify-machineinstrs < %s \| FileCheck -check-prefix=DAGISEL-GFX11 %s
				; RUN: llc -global-isel=0 -mtriple=amdgcn--amdpal -mcpu=gfx1030 -mattr=+wavefrontsize32,-wavefrontsize64 -stop-after=finalize-isel -verify-machineinstrs < %s \| FileCheck -check-prefix=DAGISEL-GFX10 %s

				declare amdgpu_cs_chain void @callee(<3 x i32> inreg, { i32, ptr addrspace(5), i32, i32 })
				declare amdgpu_cs_chain_preserve void @callee_preserve(<3 x i32> inreg, { i32, ptr addrspace(5), i32, i32 })
				declare void @llvm.amdgcn.cs.chain(ptr, i32, <3 x i32>, { i32, ptr addrspace(5), i32, i32 }, i32, ...) noreturn

				define amdgpu_cs_chain void @chain_to_chain(<3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr) {
				; GISEL-GFX11-LABEL: name: chain_to_chain
				; GISEL-GFX11: bb.1 (%ir-block.0):
				; GISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GISEL-GFX11-NEXT: {{ $}}
				; GISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; GISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; GISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; GISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; GISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY]]
				; GISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY1]]
				; GISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY2]]
				; GISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; GISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY4]]
				; GISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY5]]
				; GISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY6]]
				; GISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; GISEL-GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; GISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[S_MOV_B32_]], %subreg.sub0, [[S_MOV_B32_1]], %subreg.sub1
				; GISEL-GFX11-NEXT: [[COPY7:%[0-9]+]]:ccr_sgpr_64 = COPY [[REG_SEQUENCE]]
				; GISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W32 [[COPY7]], @callee, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; GISEL-GFX10-LABEL: name: chain_to_chain
				; GISEL-GFX10: bb.1 (%ir-block.0):
				; GISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GISEL-GFX10-NEXT: {{ $}}
				; GISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; GISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; GISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; GISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; GISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY]]
				; GISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY1]]
				; GISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY2]]
				; GISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; GISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY4]]
				; GISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY5]]
				; GISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY6]]
				; GISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_128 = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; GISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY7]]
				; GISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; GISEL-GFX10-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; GISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[S_MOV_B32_]], %subreg.sub0, [[S_MOV_B32_1]], %subreg.sub1
				; GISEL-GFX10-NEXT: [[COPY8:%[0-9]+]]:ccr_sgpr_64 = COPY [[REG_SEQUENCE]]
				; GISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W32 [[COPY8]], @callee, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11, implicit $sgpr48_sgpr49_sgpr50_sgpr51
				;
				; DAGISEL-GFX11-LABEL: name: chain_to_chain
				; DAGISEL-GFX11: bb.0 (%ir-block.0):
				; DAGISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; DAGISEL-GFX11-NEXT: {{ $}}
				; DAGISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; DAGISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; DAGISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; DAGISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; DAGISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; DAGISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE killed [[S_MOV_B32_1]], %subreg.sub0, killed [[S_MOV_B32_]], %subreg.sub1
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_2:%[0-9]+]]:sreg_32 = S_MOV_B32 -1
				; DAGISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W32 killed [[REG_SEQUENCE]], @callee, 0, killed [[S_MOV_B32_2]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; DAGISEL-GFX10-LABEL: name: chain_to_chain
				; DAGISEL-GFX10: bb.0 (%ir-block.0):
				; DAGISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; DAGISEL-GFX10-NEXT: {{ $}}
				; DAGISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; DAGISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; DAGISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; DAGISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; DAGISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; DAGISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE killed [[S_MOV_B32_1]], %subreg.sub0, killed [[S_MOV_B32_]], %subreg.sub1
				; DAGISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_128 = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_2:%[0-9]+]]:sreg_32 = S_MOV_B32 -1
				; DAGISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY7]]
				; DAGISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W32 killed [[REG_SEQUENCE]], @callee, 0, killed [[S_MOV_B32_2]], amdgpu_allvgprs, implicit $sgpr48_sgpr49_sgpr50_sgpr51, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				call void(ptr, i32, <3 x i32>, { i32, ptr addrspace(5), i32, i32 }, i32, ...) @llvm.amdgcn.cs.chain(ptr @callee, i32 -1, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr, i32 0)
				unreachable
				}

				define amdgpu_cs void @cs_to_chain(<3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr) {
				; GISEL-GFX11-LABEL: name: cs_to_chain
				; GISEL-GFX11: bb.1 (%ir-block.0):
				; GISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr0, $vgpr1, $vgpr2, $vgpr3
				; GISEL-GFX11-NEXT: {{ $}}
				; GISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; GISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY]]
				; GISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY1]]
				; GISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY2]]
				; GISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; GISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY4]]
				; GISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY5]]
				; GISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY6]]
				; GISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; GISEL-GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; GISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[S_MOV_B32_]], %subreg.sub0, [[S_MOV_B32_1]], %subreg.sub1
				; GISEL-GFX11-NEXT: [[COPY7:%[0-9]+]]:ccr_sgpr_64 = COPY [[REG_SEQUENCE]]
				; GISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W32 [[COPY7]], @callee, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; GISEL-GFX10-LABEL: name: cs_to_chain
				; GISEL-GFX10: bb.1 (%ir-block.0):
				; GISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr0, $vgpr1, $vgpr2, $vgpr3
				; GISEL-GFX10-NEXT: {{ $}}
				; GISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; GISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY]]
				; GISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY1]]
				; GISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY2]]
				; GISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; GISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY4]]
				; GISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY5]]
				; GISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY6]]
				; GISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_128 = COPY $sgpr100_sgpr101_sgpr102_sgpr103
				; GISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY7]]
				; GISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; GISEL-GFX10-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; GISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[S_MOV_B32_]], %subreg.sub0, [[S_MOV_B32_1]], %subreg.sub1
				; GISEL-GFX10-NEXT: [[COPY8:%[0-9]+]]:ccr_sgpr_64 = COPY [[REG_SEQUENCE]]
				; GISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W32 [[COPY8]], @callee, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11, implicit $sgpr48_sgpr49_sgpr50_sgpr51
				;
				; DAGISEL-GFX11-LABEL: name: cs_to_chain
				; DAGISEL-GFX11: bb.0 (%ir-block.0):
				; DAGISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr0, $vgpr1, $vgpr2, $vgpr3
				; DAGISEL-GFX11-NEXT: {{ $}}
				; DAGISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; DAGISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; DAGISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; DAGISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; DAGISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; DAGISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE killed [[S_MOV_B32_1]], %subreg.sub0, killed [[S_MOV_B32_]], %subreg.sub1
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_2:%[0-9]+]]:sreg_32 = S_MOV_B32 -1
				; DAGISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W32 killed [[REG_SEQUENCE]], @callee, 0, killed [[S_MOV_B32_2]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; DAGISEL-GFX10-LABEL: name: cs_to_chain
				; DAGISEL-GFX10: bb.0 (%ir-block.0):
				; DAGISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr0, $vgpr1, $vgpr2, $vgpr3
				; DAGISEL-GFX10-NEXT: {{ $}}
				; DAGISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; DAGISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; DAGISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; DAGISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; DAGISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; DAGISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE killed [[S_MOV_B32_1]], %subreg.sub0, killed [[S_MOV_B32_]], %subreg.sub1
				; DAGISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_128 = COPY $sgpr100_sgpr101_sgpr102_sgpr103
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_2:%[0-9]+]]:sreg_32 = S_MOV_B32 -1
				; DAGISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY7]]
				; DAGISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W32 killed [[REG_SEQUENCE]], @callee, 0, killed [[S_MOV_B32_2]], amdgpu_allvgprs, implicit $sgpr48_sgpr49_sgpr50_sgpr51, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				call void(ptr, i32, <3 x i32>, { i32, ptr addrspace(5), i32, i32 }, i32, ...) @llvm.amdgcn.cs.chain(ptr @callee, i32 -1, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr, i32 0)
				unreachable
				}

				define amdgpu_cs_chain void @chain_to_chain_preserve(<3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr) {
				; GISEL-GFX11-LABEL: name: chain_to_chain_preserve
				; GISEL-GFX11: bb.1 (%ir-block.0):
				; GISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GISEL-GFX11-NEXT: {{ $}}
				; GISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; GISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; GISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; GISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; GISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY]]
				; GISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY1]]
				; GISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY2]]
				; GISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; GISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY4]]
				; GISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY5]]
				; GISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY6]]
				; GISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee_preserve
				; GISEL-GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee_preserve
				; GISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[S_MOV_B32_]], %subreg.sub0, [[S_MOV_B32_1]], %subreg.sub1
				; GISEL-GFX11-NEXT: [[COPY7:%[0-9]+]]:ccr_sgpr_64 = COPY [[REG_SEQUENCE]]
				; GISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W32 [[COPY7]], @callee_preserve, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; GISEL-GFX10-LABEL: name: chain_to_chain_preserve
				; GISEL-GFX10: bb.1 (%ir-block.0):
				; GISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GISEL-GFX10-NEXT: {{ $}}
				; GISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; GISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; GISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; GISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; GISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY]]
				; GISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY1]]
				; GISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY2]]
				; GISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; GISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY4]]
				; GISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY5]]
				; GISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY6]]
				; GISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_128 = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; GISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY7]]
				; GISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee_preserve
				; GISEL-GFX10-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee_preserve
				; GISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[S_MOV_B32_]], %subreg.sub0, [[S_MOV_B32_1]], %subreg.sub1
				; GISEL-GFX10-NEXT: [[COPY8:%[0-9]+]]:ccr_sgpr_64 = COPY [[REG_SEQUENCE]]
				; GISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W32 [[COPY8]], @callee_preserve, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11, implicit $sgpr48_sgpr49_sgpr50_sgpr51
				;
				; DAGISEL-GFX11-LABEL: name: chain_to_chain_preserve
				; DAGISEL-GFX11: bb.0 (%ir-block.0):
				; DAGISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; DAGISEL-GFX11-NEXT: {{ $}}
				; DAGISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; DAGISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; DAGISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; DAGISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; DAGISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee_preserve
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee_preserve
				; DAGISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE killed [[S_MOV_B32_1]], %subreg.sub0, killed [[S_MOV_B32_]], %subreg.sub1
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_2:%[0-9]+]]:sreg_32 = S_MOV_B32 -1
				; DAGISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W32 killed [[REG_SEQUENCE]], @callee_preserve, 0, killed [[S_MOV_B32_2]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; DAGISEL-GFX10-LABEL: name: chain_to_chain_preserve
				; DAGISEL-GFX10: bb.0 (%ir-block.0):
				; DAGISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; DAGISEL-GFX10-NEXT: {{ $}}
				; DAGISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; DAGISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; DAGISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; DAGISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; DAGISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee_preserve
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee_preserve
				; DAGISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE killed [[S_MOV_B32_1]], %subreg.sub0, killed [[S_MOV_B32_]], %subreg.sub1
				; DAGISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_128 = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_2:%[0-9]+]]:sreg_32 = S_MOV_B32 -1
				; DAGISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY7]]
				; DAGISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W32 killed [[REG_SEQUENCE]], @callee_preserve, 0, killed [[S_MOV_B32_2]], amdgpu_allvgprs, implicit $sgpr48_sgpr49_sgpr50_sgpr51, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				call void(ptr, i32, <3 x i32>, { i32, ptr addrspace(5), i32, i32 }, i32, ...) @llvm.amdgcn.cs.chain(ptr @callee_preserve, i32 -1, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr, i32 0)
				unreachable
				}

				define amdgpu_cs void @cs_to_chain_preserve(<3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr) {
				; GISEL-GFX11-LABEL: name: cs_to_chain_preserve
				; GISEL-GFX11: bb.1 (%ir-block.0):
				; GISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr0, $vgpr1, $vgpr2, $vgpr3
				; GISEL-GFX11-NEXT: {{ $}}
				; GISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; GISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY]]
				; GISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY1]]
				; GISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY2]]
				; GISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; GISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY4]]
				; GISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY5]]
				; GISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY6]]
				; GISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee_preserve
				; GISEL-GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee_preserve
				; GISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[S_MOV_B32_]], %subreg.sub0, [[S_MOV_B32_1]], %subreg.sub1
				; GISEL-GFX11-NEXT: [[COPY7:%[0-9]+]]:ccr_sgpr_64 = COPY [[REG_SEQUENCE]]
				; GISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W32 [[COPY7]], @callee_preserve, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; GISEL-GFX10-LABEL: name: cs_to_chain_preserve
				; GISEL-GFX10: bb.1 (%ir-block.0):
				; GISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr0, $vgpr1, $vgpr2, $vgpr3
				; GISEL-GFX10-NEXT: {{ $}}
				; GISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; GISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY]]
				; GISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY1]]
				; GISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY2]]
				; GISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; GISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY4]]
				; GISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY5]]
				; GISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY6]]
				; GISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_128 = COPY $sgpr100_sgpr101_sgpr102_sgpr103
				; GISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY7]]
				; GISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee_preserve
				; GISEL-GFX10-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee_preserve
				; GISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[S_MOV_B32_]], %subreg.sub0, [[S_MOV_B32_1]], %subreg.sub1
				; GISEL-GFX10-NEXT: [[COPY8:%[0-9]+]]:ccr_sgpr_64 = COPY [[REG_SEQUENCE]]
				; GISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W32 [[COPY8]], @callee_preserve, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11, implicit $sgpr48_sgpr49_sgpr50_sgpr51
				;
				; DAGISEL-GFX11-LABEL: name: cs_to_chain_preserve
				; DAGISEL-GFX11: bb.0 (%ir-block.0):
				; DAGISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr0, $vgpr1, $vgpr2, $vgpr3
				; DAGISEL-GFX11-NEXT: {{ $}}
				; DAGISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; DAGISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; DAGISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; DAGISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; DAGISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee_preserve
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee_preserve
				; DAGISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE killed [[S_MOV_B32_1]], %subreg.sub0, killed [[S_MOV_B32_]], %subreg.sub1
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_2:%[0-9]+]]:sreg_32 = S_MOV_B32 -1
				; DAGISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W32 killed [[REG_SEQUENCE]], @callee_preserve, 0, killed [[S_MOV_B32_2]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; DAGISEL-GFX10-LABEL: name: cs_to_chain_preserve
				; DAGISEL-GFX10: bb.0 (%ir-block.0):
				; DAGISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr0, $vgpr1, $vgpr2, $vgpr3
				; DAGISEL-GFX10-NEXT: {{ $}}
				; DAGISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; DAGISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; DAGISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; DAGISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; DAGISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee_preserve
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee_preserve
				; DAGISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE killed [[S_MOV_B32_1]], %subreg.sub0, killed [[S_MOV_B32_]], %subreg.sub1
				; DAGISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_128 = COPY $sgpr100_sgpr101_sgpr102_sgpr103
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_2:%[0-9]+]]:sreg_32 = S_MOV_B32 -1
				; DAGISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY7]]
				; DAGISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W32 killed [[REG_SEQUENCE]], @callee_preserve, 0, killed [[S_MOV_B32_2]], amdgpu_allvgprs, implicit $sgpr48_sgpr49_sgpr50_sgpr51, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				call void(ptr, i32, <3 x i32>, { i32, ptr addrspace(5), i32, i32 }, i32, ...) @llvm.amdgcn.cs.chain(ptr @callee_preserve, i32 -1, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr, i32 0)
				unreachable
				}

				define amdgpu_cs_chain void @indirect(ptr inreg %callee, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr) {
				; GISEL-GFX11-LABEL: name: indirect
				; GISEL-GFX11: bb.1 (%ir-block.0):
				; GISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GISEL-GFX11-NEXT: {{ $}}
				; GISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; GISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; GISEL-GFX11-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; GISEL-GFX11-NEXT: [[COPY8:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; GISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY2]]
				; GISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY3]]
				; GISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY4]]
				; GISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY5]]
				; GISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY6]]
				; GISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY7]]
				; GISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY8]]
				; GISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W32 [[REG_SEQUENCE]], 0, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; GISEL-GFX10-LABEL: name: indirect
				; GISEL-GFX10: bb.1 (%ir-block.0):
				; GISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GISEL-GFX10-NEXT: {{ $}}
				; GISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; GISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; GISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; GISEL-GFX10-NEXT: [[COPY8:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; GISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY2]]
				; GISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY3]]
				; GISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY4]]
				; GISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY5]]
				; GISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY6]]
				; GISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY7]]
				; GISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY8]]
				; GISEL-GFX10-NEXT: [[COPY9:%[0-9]+]]:sgpr_128 = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; GISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY9]]
				; GISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W32 [[REG_SEQUENCE]], 0, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11, implicit $sgpr48_sgpr49_sgpr50_sgpr51
				;
				; DAGISEL-GFX11-LABEL: name: indirect
				; DAGISEL-GFX11: bb.0 (%ir-block.0):
				; DAGISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; DAGISEL-GFX11-NEXT: {{ $}}
				; DAGISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; DAGISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; DAGISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; DAGISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; DAGISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; DAGISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; DAGISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX11-NEXT: [[COPY7:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX11-NEXT: [[COPY8:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE [[COPY8]], %subreg.sub0, [[COPY7]], %subreg.sub1
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 -1
				; DAGISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W32 killed [[REG_SEQUENCE]], 0, 0, killed [[S_MOV_B32_]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; DAGISEL-GFX10-LABEL: name: indirect
				; DAGISEL-GFX10: bb.0 (%ir-block.0):
				; DAGISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; DAGISEL-GFX10-NEXT: {{ $}}
				; DAGISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; DAGISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; DAGISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; DAGISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; DAGISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; DAGISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; DAGISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX10-NEXT: [[COPY8:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE [[COPY8]], %subreg.sub0, [[COPY7]], %subreg.sub1
				; DAGISEL-GFX10-NEXT: [[COPY9:%[0-9]+]]:sgpr_128 = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 -1
				; DAGISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY9]]
				; DAGISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W32 killed [[REG_SEQUENCE]], 0, 0, killed [[S_MOV_B32_]], amdgpu_allvgprs, implicit $sgpr48_sgpr49_sgpr50_sgpr51, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				call void(ptr, i32, <3 x i32>, { i32, ptr addrspace(5), i32, i32 }, i32, ...) @llvm.amdgcn.cs.chain(ptr %callee, i32 -1, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr, i32 0)
				unreachable
				}

				define amdgpu_cs_chain void @non_imm_exec(i32 inreg %exec, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr) {
				; GISEL-GFX11-LABEL: name: non_imm_exec
				; GISEL-GFX11: bb.1 (%ir-block.0):
				; GISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GISEL-GFX11-NEXT: {{ $}}
				; GISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; GISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; GISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; GISEL-GFX11-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; GISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY1]]
				; GISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY2]]
				; GISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY3]]
				; GISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY4]]
				; GISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY5]]
				; GISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY6]]
				; GISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY7]]
				; GISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; GISEL-GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; GISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[S_MOV_B32_]], %subreg.sub0, [[S_MOV_B32_1]], %subreg.sub1
				; GISEL-GFX11-NEXT: [[COPY8:%[0-9]+]]:ccr_sgpr_64 = COPY [[REG_SEQUENCE]]
				; GISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W32 [[COPY8]], @callee, 0, [[COPY]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; GISEL-GFX10-LABEL: name: non_imm_exec
				; GISEL-GFX10: bb.1 (%ir-block.0):
				; GISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GISEL-GFX10-NEXT: {{ $}}
				; GISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; GISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; GISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; GISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; GISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY1]]
				; GISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY2]]
				; GISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY3]]
				; GISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY4]]
				; GISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY5]]
				; GISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY6]]
				; GISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY7]]
				; GISEL-GFX10-NEXT: [[COPY8:%[0-9]+]]:sgpr_128 = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; GISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY8]]
				; GISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; GISEL-GFX10-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; GISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[S_MOV_B32_]], %subreg.sub0, [[S_MOV_B32_1]], %subreg.sub1
				; GISEL-GFX10-NEXT: [[COPY9:%[0-9]+]]:ccr_sgpr_64 = COPY [[REG_SEQUENCE]]
				; GISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W32 [[COPY9]], @callee, 0, [[COPY]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11, implicit $sgpr48_sgpr49_sgpr50_sgpr51
				;
				; DAGISEL-GFX11-LABEL: name: non_imm_exec
				; DAGISEL-GFX11: bb.0 (%ir-block.0):
				; DAGISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; DAGISEL-GFX11-NEXT: {{ $}}
				; DAGISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; DAGISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; DAGISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; DAGISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; DAGISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; DAGISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX11-NEXT: [[COPY7:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; DAGISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE killed [[S_MOV_B32_1]], %subreg.sub0, killed [[S_MOV_B32_]], %subreg.sub1
				; DAGISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W32 killed [[REG_SEQUENCE]], @callee, 0, [[COPY7]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; DAGISEL-GFX10-LABEL: name: non_imm_exec
				; DAGISEL-GFX10: bb.0 (%ir-block.0):
				; DAGISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; DAGISEL-GFX10-NEXT: {{ $}}
				; DAGISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; DAGISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; DAGISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; DAGISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; DAGISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; DAGISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; DAGISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE killed [[S_MOV_B32_1]], %subreg.sub0, killed [[S_MOV_B32_]], %subreg.sub1
				; DAGISEL-GFX10-NEXT: [[COPY8:%[0-9]+]]:sgpr_128 = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; DAGISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY8]]
				; DAGISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W32 killed [[REG_SEQUENCE]], @callee, 0, [[COPY7]], amdgpu_allvgprs, implicit $sgpr48_sgpr49_sgpr50_sgpr51, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				call void(ptr, i32, <3 x i32>, { i32, ptr addrspace(5), i32, i32 }, i32, ...) @llvm.amdgcn.cs.chain(ptr @callee, i32 %exec, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr, i32 0)
				unreachable
				}

				define amdgpu_cs_chain void @indirect_with_non_imm_exec(ptr inreg %callee, i32 inreg %exec, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr) {
				; GISEL-GFX11-LABEL: name: indirect_with_non_imm_exec
				; GISEL-GFX11: bb.1 (%ir-block.0):
				; GISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $sgpr5, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GISEL-GFX11-NEXT: {{ $}}
				; GISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:sreg_32 = COPY $sgpr5
				; GISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; GISEL-GFX11-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; GISEL-GFX11-NEXT: [[COPY8:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; GISEL-GFX11-NEXT: [[COPY9:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; GISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY3]]
				; GISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY4]]
				; GISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY5]]
				; GISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY6]]
				; GISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY7]]
				; GISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY8]]
				; GISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY9]]
				; GISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W32 [[REG_SEQUENCE]], 0, 0, [[COPY2]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; GISEL-GFX10-LABEL: name: indirect_with_non_imm_exec
				; GISEL-GFX10: bb.1 (%ir-block.0):
				; GISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $sgpr5, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GISEL-GFX10-NEXT: {{ $}}
				; GISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:sreg_32 = COPY $sgpr5
				; GISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; GISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; GISEL-GFX10-NEXT: [[COPY8:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; GISEL-GFX10-NEXT: [[COPY9:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; GISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY3]]
				; GISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY4]]
				; GISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY5]]
				; GISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY6]]
				; GISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY7]]
				; GISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY8]]
				; GISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY9]]
				; GISEL-GFX10-NEXT: [[COPY10:%[0-9]+]]:sgpr_128 = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; GISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY10]]
				; GISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W32 [[REG_SEQUENCE]], 0, 0, [[COPY2]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11, implicit $sgpr48_sgpr49_sgpr50_sgpr51
				;
				; DAGISEL-GFX11-LABEL: name: indirect_with_non_imm_exec
				; DAGISEL-GFX11: bb.0 (%ir-block.0):
				; DAGISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $sgpr5, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; DAGISEL-GFX11-NEXT: {{ $}}
				; DAGISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; DAGISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; DAGISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; DAGISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; DAGISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr5
				; DAGISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; DAGISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; DAGISEL-GFX11-NEXT: [[COPY7:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX11-NEXT: [[COPY8:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX11-NEXT: [[COPY9:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE [[COPY9]], %subreg.sub0, [[COPY8]], %subreg.sub1
				; DAGISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W32 killed [[REG_SEQUENCE]], 0, 0, [[COPY7]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; DAGISEL-GFX10-LABEL: name: indirect_with_non_imm_exec
				; DAGISEL-GFX10: bb.0 (%ir-block.0):
				; DAGISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $sgpr5, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; DAGISEL-GFX10-NEXT: {{ $}}
				; DAGISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; DAGISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; DAGISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; DAGISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; DAGISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr5
				; DAGISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; DAGISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; DAGISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX10-NEXT: [[COPY8:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX10-NEXT: [[COPY9:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE [[COPY9]], %subreg.sub0, [[COPY8]], %subreg.sub1
				; DAGISEL-GFX10-NEXT: [[COPY10:%[0-9]+]]:sgpr_128 = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; DAGISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY10]]
				; DAGISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W32 killed [[REG_SEQUENCE]], 0, 0, [[COPY7]], amdgpu_allvgprs, implicit $sgpr48_sgpr49_sgpr50_sgpr51, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				call void(ptr, i32, <3 x i32>, { i32, ptr addrspace(5), i32, i32 }, i32, ...) @llvm.amdgcn.cs.chain(ptr %callee, i32 %exec, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr, i32 0)
				unreachable
				}

llvm/test/CodeGen/AMDGPU/isel-amdgcn-cs-chain-intrinsic-w64.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py UTC_ARGS: --version 2
				; RUN: llc -global-isel=1 -mtriple=amdgcn--amdpal -mcpu=gfx1100 -mattr=-wavefrontsize32,+wavefrontsize64 -stop-after=finalize-isel -verify-machineinstrs < %s \| FileCheck -check-prefix=GISEL-GFX11 %s
				; RUN: llc -global-isel=1 -mtriple=amdgcn--amdpal -mcpu=gfx1030 -mattr=-wavefrontsize32,+wavefrontsize64 -stop-after=finalize-isel -verify-machineinstrs < %s \| FileCheck -check-prefix=GISEL-GFX10 %s
				; RUN: llc -global-isel=0 -mtriple=amdgcn--amdpal -mcpu=gfx1100 -mattr=-wavefrontsize32,+wavefrontsize64 -stop-after=finalize-isel -verify-machineinstrs < %s \| FileCheck -check-prefix=DAGISEL-GFX11 %s
				; RUN: llc -global-isel=0 -mtriple=amdgcn--amdpal -mcpu=gfx1030 -mattr=-wavefrontsize32,+wavefrontsize64 -stop-after=finalize-isel -verify-machineinstrs < %s \| FileCheck -check-prefix=DAGISEL-GFX10 %s

				declare amdgpu_cs_chain void @callee(<3 x i32> inreg, { i32, ptr addrspace(5), i32, i32 })
				declare amdgpu_cs_chain_preserve void @callee_preserve(<3 x i32> inreg, { i32, ptr addrspace(5), i32, i32 })
				declare void @llvm.amdgcn.cs.chain(ptr, i64, <3 x i32>, { i32, ptr addrspace(5), i32, i32 }, i32, ...) noreturn

				define amdgpu_cs_chain void @chain_to_chain(<3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr) {
				; GISEL-GFX11-LABEL: name: chain_to_chain
				; GISEL-GFX11: bb.1 (%ir-block.0):
				; GISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GISEL-GFX11-NEXT: {{ $}}
				; GISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; GISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; GISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; GISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; GISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY]]
				; GISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY1]]
				; GISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY2]]
				; GISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; GISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY4]]
				; GISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY5]]
				; GISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY6]]
				; GISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; GISEL-GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; GISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[S_MOV_B32_]], %subreg.sub0, [[S_MOV_B32_1]], %subreg.sub1
				; GISEL-GFX11-NEXT: [[COPY7:%[0-9]+]]:ccr_sgpr_64 = COPY [[REG_SEQUENCE]]
				; GISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W64 [[COPY7]], @callee, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; GISEL-GFX10-LABEL: name: chain_to_chain
				; GISEL-GFX10: bb.1 (%ir-block.0):
				; GISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GISEL-GFX10-NEXT: {{ $}}
				; GISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; GISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; GISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; GISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; GISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY]]
				; GISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY1]]
				; GISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY2]]
				; GISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; GISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY4]]
				; GISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY5]]
				; GISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY6]]
				; GISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_128 = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; GISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY7]]
				; GISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; GISEL-GFX10-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; GISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[S_MOV_B32_]], %subreg.sub0, [[S_MOV_B32_1]], %subreg.sub1
				; GISEL-GFX10-NEXT: [[COPY8:%[0-9]+]]:ccr_sgpr_64 = COPY [[REG_SEQUENCE]]
				; GISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W64 [[COPY8]], @callee, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11, implicit $sgpr48_sgpr49_sgpr50_sgpr51
				;
				; DAGISEL-GFX11-LABEL: name: chain_to_chain
				; DAGISEL-GFX11: bb.0 (%ir-block.0):
				; DAGISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; DAGISEL-GFX11-NEXT: {{ $}}
				; DAGISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; DAGISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; DAGISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; DAGISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; DAGISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; DAGISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE killed [[S_MOV_B32_1]], %subreg.sub0, killed [[S_MOV_B32_]], %subreg.sub1
				; DAGISEL-GFX11-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64 = S_MOV_B64 -1
				; DAGISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W64 killed [[REG_SEQUENCE]], @callee, 0, killed [[S_MOV_B64_]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; DAGISEL-GFX10-LABEL: name: chain_to_chain
				; DAGISEL-GFX10: bb.0 (%ir-block.0):
				; DAGISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; DAGISEL-GFX10-NEXT: {{ $}}
				; DAGISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; DAGISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; DAGISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; DAGISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; DAGISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; DAGISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE killed [[S_MOV_B32_1]], %subreg.sub0, killed [[S_MOV_B32_]], %subreg.sub1
				; DAGISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_128 = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; DAGISEL-GFX10-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64 = S_MOV_B64 -1
				; DAGISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY7]]
				; DAGISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W64 killed [[REG_SEQUENCE]], @callee, 0, killed [[S_MOV_B64_]], amdgpu_allvgprs, implicit $sgpr48_sgpr49_sgpr50_sgpr51, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				call void(ptr, i64, <3 x i32>, { i32, ptr addrspace(5), i32, i32 }, i32, ...) @llvm.amdgcn.cs.chain(ptr @callee, i64 -1, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr, i32 0)
				unreachable
				}

				define amdgpu_cs void @cs_to_chain(<3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr) {
				; GISEL-GFX11-LABEL: name: cs_to_chain
				; GISEL-GFX11: bb.1 (%ir-block.0):
				; GISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr0, $vgpr1, $vgpr2, $vgpr3
				; GISEL-GFX11-NEXT: {{ $}}
				; GISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; GISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY]]
				; GISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY1]]
				; GISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY2]]
				; GISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; GISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY4]]
				; GISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY5]]
				; GISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY6]]
				; GISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; GISEL-GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; GISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[S_MOV_B32_]], %subreg.sub0, [[S_MOV_B32_1]], %subreg.sub1
				; GISEL-GFX11-NEXT: [[COPY7:%[0-9]+]]:ccr_sgpr_64 = COPY [[REG_SEQUENCE]]
				; GISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W64 [[COPY7]], @callee, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; GISEL-GFX10-LABEL: name: cs_to_chain
				; GISEL-GFX10: bb.1 (%ir-block.0):
				; GISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr0, $vgpr1, $vgpr2, $vgpr3
				; GISEL-GFX10-NEXT: {{ $}}
				; GISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; GISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY]]
				; GISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY1]]
				; GISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY2]]
				; GISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; GISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY4]]
				; GISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY5]]
				; GISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY6]]
				; GISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_128 = COPY $sgpr100_sgpr101_sgpr102_sgpr103
				; GISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY7]]
				; GISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; GISEL-GFX10-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; GISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[S_MOV_B32_]], %subreg.sub0, [[S_MOV_B32_1]], %subreg.sub1
				; GISEL-GFX10-NEXT: [[COPY8:%[0-9]+]]:ccr_sgpr_64 = COPY [[REG_SEQUENCE]]
				; GISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W64 [[COPY8]], @callee, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11, implicit $sgpr48_sgpr49_sgpr50_sgpr51
				;
				; DAGISEL-GFX11-LABEL: name: cs_to_chain
				; DAGISEL-GFX11: bb.0 (%ir-block.0):
				; DAGISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr0, $vgpr1, $vgpr2, $vgpr3
				; DAGISEL-GFX11-NEXT: {{ $}}
				; DAGISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; DAGISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; DAGISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; DAGISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; DAGISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; DAGISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE killed [[S_MOV_B32_1]], %subreg.sub0, killed [[S_MOV_B32_]], %subreg.sub1
				; DAGISEL-GFX11-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64 = S_MOV_B64 -1
				; DAGISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W64 killed [[REG_SEQUENCE]], @callee, 0, killed [[S_MOV_B64_]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; DAGISEL-GFX10-LABEL: name: cs_to_chain
				; DAGISEL-GFX10: bb.0 (%ir-block.0):
				; DAGISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr0, $vgpr1, $vgpr2, $vgpr3
				; DAGISEL-GFX10-NEXT: {{ $}}
				; DAGISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; DAGISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; DAGISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; DAGISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; DAGISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; DAGISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE killed [[S_MOV_B32_1]], %subreg.sub0, killed [[S_MOV_B32_]], %subreg.sub1
				; DAGISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_128 = COPY $sgpr100_sgpr101_sgpr102_sgpr103
				; DAGISEL-GFX10-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64 = S_MOV_B64 -1
				; DAGISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY7]]
				; DAGISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W64 killed [[REG_SEQUENCE]], @callee, 0, killed [[S_MOV_B64_]], amdgpu_allvgprs, implicit $sgpr48_sgpr49_sgpr50_sgpr51, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				call void(ptr, i64, <3 x i32>, { i32, ptr addrspace(5), i32, i32 }, i32, ...) @llvm.amdgcn.cs.chain(ptr @callee, i64 -1, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr, i32 0)
				unreachable
				}

				define amdgpu_cs_chain void @chain_to_chain_preserve(<3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr) {
				; GISEL-GFX11-LABEL: name: chain_to_chain_preserve
				; GISEL-GFX11: bb.1 (%ir-block.0):
				; GISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GISEL-GFX11-NEXT: {{ $}}
				; GISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; GISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; GISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; GISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; GISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY]]
				; GISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY1]]
				; GISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY2]]
				; GISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; GISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY4]]
				; GISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY5]]
				; GISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY6]]
				; GISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee_preserve
				; GISEL-GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee_preserve
				; GISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[S_MOV_B32_]], %subreg.sub0, [[S_MOV_B32_1]], %subreg.sub1
				; GISEL-GFX11-NEXT: [[COPY7:%[0-9]+]]:ccr_sgpr_64 = COPY [[REG_SEQUENCE]]
				; GISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W64 [[COPY7]], @callee_preserve, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; GISEL-GFX10-LABEL: name: chain_to_chain_preserve
				; GISEL-GFX10: bb.1 (%ir-block.0):
				; GISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GISEL-GFX10-NEXT: {{ $}}
				; GISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; GISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; GISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; GISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; GISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY]]
				; GISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY1]]
				; GISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY2]]
				; GISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; GISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY4]]
				; GISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY5]]
				; GISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY6]]
				; GISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_128 = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; GISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY7]]
				; GISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee_preserve
				; GISEL-GFX10-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee_preserve
				; GISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[S_MOV_B32_]], %subreg.sub0, [[S_MOV_B32_1]], %subreg.sub1
				; GISEL-GFX10-NEXT: [[COPY8:%[0-9]+]]:ccr_sgpr_64 = COPY [[REG_SEQUENCE]]
				; GISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W64 [[COPY8]], @callee_preserve, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11, implicit $sgpr48_sgpr49_sgpr50_sgpr51
				;
				; DAGISEL-GFX11-LABEL: name: chain_to_chain_preserve
				; DAGISEL-GFX11: bb.0 (%ir-block.0):
				; DAGISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; DAGISEL-GFX11-NEXT: {{ $}}
				; DAGISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; DAGISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; DAGISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; DAGISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; DAGISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee_preserve
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee_preserve
				; DAGISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE killed [[S_MOV_B32_1]], %subreg.sub0, killed [[S_MOV_B32_]], %subreg.sub1
				; DAGISEL-GFX11-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64 = S_MOV_B64 -1
				; DAGISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W64 killed [[REG_SEQUENCE]], @callee_preserve, 0, killed [[S_MOV_B64_]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; DAGISEL-GFX10-LABEL: name: chain_to_chain_preserve
				; DAGISEL-GFX10: bb.0 (%ir-block.0):
				; DAGISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; DAGISEL-GFX10-NEXT: {{ $}}
				; DAGISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; DAGISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; DAGISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; DAGISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; DAGISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee_preserve
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee_preserve
				; DAGISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE killed [[S_MOV_B32_1]], %subreg.sub0, killed [[S_MOV_B32_]], %subreg.sub1
				; DAGISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_128 = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; DAGISEL-GFX10-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64 = S_MOV_B64 -1
				; DAGISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY7]]
				; DAGISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W64 killed [[REG_SEQUENCE]], @callee_preserve, 0, killed [[S_MOV_B64_]], amdgpu_allvgprs, implicit $sgpr48_sgpr49_sgpr50_sgpr51, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				call void(ptr, i64, <3 x i32>, { i32, ptr addrspace(5), i32, i32 }, i32, ...) @llvm.amdgcn.cs.chain(ptr @callee_preserve, i64 -1, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr, i32 0)
				unreachable
				}

				define amdgpu_cs void @cs_to_chain_preserve(<3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr) {
				; GISEL-GFX11-LABEL: name: cs_to_chain_preserve
				; GISEL-GFX11: bb.1 (%ir-block.0):
				; GISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr0, $vgpr1, $vgpr2, $vgpr3
				; GISEL-GFX11-NEXT: {{ $}}
				; GISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; GISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY]]
				; GISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY1]]
				; GISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY2]]
				; GISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; GISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY4]]
				; GISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY5]]
				; GISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY6]]
				; GISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee_preserve
				; GISEL-GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee_preserve
				; GISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[S_MOV_B32_]], %subreg.sub0, [[S_MOV_B32_1]], %subreg.sub1
				; GISEL-GFX11-NEXT: [[COPY7:%[0-9]+]]:ccr_sgpr_64 = COPY [[REG_SEQUENCE]]
				; GISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W64 [[COPY7]], @callee_preserve, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; GISEL-GFX10-LABEL: name: cs_to_chain_preserve
				; GISEL-GFX10: bb.1 (%ir-block.0):
				; GISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr0, $vgpr1, $vgpr2, $vgpr3
				; GISEL-GFX10-NEXT: {{ $}}
				; GISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; GISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY]]
				; GISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY1]]
				; GISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY2]]
				; GISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; GISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY4]]
				; GISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY5]]
				; GISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY6]]
				; GISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_128 = COPY $sgpr100_sgpr101_sgpr102_sgpr103
				; GISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY7]]
				; GISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee_preserve
				; GISEL-GFX10-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee_preserve
				; GISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[S_MOV_B32_]], %subreg.sub0, [[S_MOV_B32_1]], %subreg.sub1
				; GISEL-GFX10-NEXT: [[COPY8:%[0-9]+]]:ccr_sgpr_64 = COPY [[REG_SEQUENCE]]
				; GISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W64 [[COPY8]], @callee_preserve, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11, implicit $sgpr48_sgpr49_sgpr50_sgpr51
				;
				; DAGISEL-GFX11-LABEL: name: cs_to_chain_preserve
				; DAGISEL-GFX11: bb.0 (%ir-block.0):
				; DAGISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr0, $vgpr1, $vgpr2, $vgpr3
				; DAGISEL-GFX11-NEXT: {{ $}}
				; DAGISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; DAGISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; DAGISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; DAGISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; DAGISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee_preserve
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee_preserve
				; DAGISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE killed [[S_MOV_B32_1]], %subreg.sub0, killed [[S_MOV_B32_]], %subreg.sub1
				; DAGISEL-GFX11-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64 = S_MOV_B64 -1
				; DAGISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W64 killed [[REG_SEQUENCE]], @callee_preserve, 0, killed [[S_MOV_B64_]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; DAGISEL-GFX10-LABEL: name: cs_to_chain_preserve
				; DAGISEL-GFX10: bb.0 (%ir-block.0):
				; DAGISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr0, $vgpr1, $vgpr2, $vgpr3
				; DAGISEL-GFX10-NEXT: {{ $}}
				; DAGISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr3
				; DAGISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; DAGISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; DAGISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; DAGISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee_preserve
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee_preserve
				; DAGISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE killed [[S_MOV_B32_1]], %subreg.sub0, killed [[S_MOV_B32_]], %subreg.sub1
				; DAGISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_128 = COPY $sgpr100_sgpr101_sgpr102_sgpr103
				; DAGISEL-GFX10-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64 = S_MOV_B64 -1
				; DAGISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY7]]
				; DAGISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W64 killed [[REG_SEQUENCE]], @callee_preserve, 0, killed [[S_MOV_B64_]], amdgpu_allvgprs, implicit $sgpr48_sgpr49_sgpr50_sgpr51, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				call void(ptr, i64, <3 x i32>, { i32, ptr addrspace(5), i32, i32 }, i32, ...) @llvm.amdgcn.cs.chain(ptr @callee_preserve, i64 -1, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr, i32 0)
				unreachable
				}

				define amdgpu_cs_chain void @indirect(ptr inreg %callee, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr) {
				; GISEL-GFX11-LABEL: name: indirect
				; GISEL-GFX11: bb.1 (%ir-block.0):
				; GISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GISEL-GFX11-NEXT: {{ $}}
				; GISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; GISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; GISEL-GFX11-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; GISEL-GFX11-NEXT: [[COPY8:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; GISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY2]]
				; GISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY3]]
				; GISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY4]]
				; GISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY5]]
				; GISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY6]]
				; GISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY7]]
				; GISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY8]]
				; GISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W64 [[REG_SEQUENCE]], 0, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; GISEL-GFX10-LABEL: name: indirect
				; GISEL-GFX10: bb.1 (%ir-block.0):
				; GISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GISEL-GFX10-NEXT: {{ $}}
				; GISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; GISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; GISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; GISEL-GFX10-NEXT: [[COPY8:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; GISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY2]]
				; GISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY3]]
				; GISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY4]]
				; GISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY5]]
				; GISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY6]]
				; GISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY7]]
				; GISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY8]]
				; GISEL-GFX10-NEXT: [[COPY9:%[0-9]+]]:sgpr_128 = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; GISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY9]]
				; GISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W64 [[REG_SEQUENCE]], 0, 0, -1, amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11, implicit $sgpr48_sgpr49_sgpr50_sgpr51
				;
				; DAGISEL-GFX11-LABEL: name: indirect
				; DAGISEL-GFX11: bb.0 (%ir-block.0):
				; DAGISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; DAGISEL-GFX11-NEXT: {{ $}}
				; DAGISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; DAGISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; DAGISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; DAGISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; DAGISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; DAGISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; DAGISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX11-NEXT: [[COPY7:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX11-NEXT: [[COPY8:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE [[COPY8]], %subreg.sub0, [[COPY7]], %subreg.sub1
				; DAGISEL-GFX11-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64 = S_MOV_B64 -1
				; DAGISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W64 killed [[REG_SEQUENCE]], 0, 0, killed [[S_MOV_B64_]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; DAGISEL-GFX10-LABEL: name: indirect
				; DAGISEL-GFX10: bb.0 (%ir-block.0):
				; DAGISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; DAGISEL-GFX10-NEXT: {{ $}}
				; DAGISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; DAGISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; DAGISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; DAGISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; DAGISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; DAGISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; DAGISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX10-NEXT: [[COPY8:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE [[COPY8]], %subreg.sub0, [[COPY7]], %subreg.sub1
				; DAGISEL-GFX10-NEXT: [[COPY9:%[0-9]+]]:sgpr_128 = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; DAGISEL-GFX10-NEXT: [[S_MOV_B64_:%[0-9]+]]:sreg_64 = S_MOV_B64 -1
				; DAGISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY9]]
				; DAGISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W64 killed [[REG_SEQUENCE]], 0, 0, killed [[S_MOV_B64_]], amdgpu_allvgprs, implicit $sgpr48_sgpr49_sgpr50_sgpr51, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				call void(ptr, i64, <3 x i32>, { i32, ptr addrspace(5), i32, i32 }, i32, ...) @llvm.amdgcn.cs.chain(ptr %callee, i64 -1, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr, i32 0)
				unreachable
				}

				define amdgpu_cs_chain void @non_imm_exec(i64 inreg %exec, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr) {
				; GISEL-GFX11-LABEL: name: non_imm_exec
				; GISEL-GFX11: bb.1 (%ir-block.0):
				; GISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GISEL-GFX11-NEXT: {{ $}}
				; GISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; GISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; GISEL-GFX11-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; GISEL-GFX11-NEXT: [[COPY8:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; GISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY2]]
				; GISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY3]]
				; GISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY4]]
				; GISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY5]]
				; GISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY6]]
				; GISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY7]]
				; GISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY8]]
				; GISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; GISEL-GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; GISEL-GFX11-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[S_MOV_B32_]], %subreg.sub0, [[S_MOV_B32_1]], %subreg.sub1
				; GISEL-GFX11-NEXT: [[COPY9:%[0-9]+]]:ccr_sgpr_64 = COPY [[REG_SEQUENCE1]]
				; GISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W64 [[COPY9]], @callee, 0, [[REG_SEQUENCE]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; GISEL-GFX10-LABEL: name: non_imm_exec
				; GISEL-GFX10: bb.1 (%ir-block.0):
				; GISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GISEL-GFX10-NEXT: {{ $}}
				; GISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; GISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; GISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; GISEL-GFX10-NEXT: [[COPY8:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; GISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY2]]
				; GISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY3]]
				; GISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY4]]
				; GISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY5]]
				; GISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY6]]
				; GISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY7]]
				; GISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY8]]
				; GISEL-GFX10-NEXT: [[COPY9:%[0-9]+]]:sgpr_128 = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; GISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY9]]
				; GISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; GISEL-GFX10-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; GISEL-GFX10-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[S_MOV_B32_]], %subreg.sub0, [[S_MOV_B32_1]], %subreg.sub1
				; GISEL-GFX10-NEXT: [[COPY10:%[0-9]+]]:ccr_sgpr_64 = COPY [[REG_SEQUENCE1]]
				; GISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W64 [[COPY10]], @callee, 0, [[REG_SEQUENCE]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11, implicit $sgpr48_sgpr49_sgpr50_sgpr51
				;
				; DAGISEL-GFX11-LABEL: name: non_imm_exec
				; DAGISEL-GFX11: bb.0 (%ir-block.0):
				; DAGISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; DAGISEL-GFX11-NEXT: {{ $}}
				; DAGISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; DAGISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; DAGISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; DAGISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; DAGISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; DAGISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; DAGISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX11-NEXT: [[COPY7:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX11-NEXT: [[COPY8:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY8]], %subreg.sub0, [[COPY7]], %subreg.sub1
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; DAGISEL-GFX11-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; DAGISEL-GFX11-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE killed [[S_MOV_B32_1]], %subreg.sub0, killed [[S_MOV_B32_]], %subreg.sub1
				; DAGISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W64 killed [[REG_SEQUENCE1]], @callee, 0, killed [[REG_SEQUENCE]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; DAGISEL-GFX10-LABEL: name: non_imm_exec
				; DAGISEL-GFX10: bb.0 (%ir-block.0):
				; DAGISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; DAGISEL-GFX10-NEXT: {{ $}}
				; DAGISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; DAGISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; DAGISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; DAGISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; DAGISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; DAGISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; DAGISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX10-NEXT: [[COPY8:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY8]], %subreg.sub0, [[COPY7]], %subreg.sub1
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-hi) @callee
				; DAGISEL-GFX10-NEXT: [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 target-flags(amdgpu-abs32-lo) @callee
				; DAGISEL-GFX10-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE killed [[S_MOV_B32_1]], %subreg.sub0, killed [[S_MOV_B32_]], %subreg.sub1
				; DAGISEL-GFX10-NEXT: [[COPY9:%[0-9]+]]:sgpr_128 = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; DAGISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY9]]
				; DAGISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W64 killed [[REG_SEQUENCE1]], @callee, 0, killed [[REG_SEQUENCE]], amdgpu_allvgprs, implicit $sgpr48_sgpr49_sgpr50_sgpr51, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				call void(ptr, i64, <3 x i32>, { i32, ptr addrspace(5), i32, i32 }, i32, ...) @llvm.amdgcn.cs.chain(ptr @callee, i64 %exec, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr, i32 0)
				unreachable
				}

				define amdgpu_cs_chain void @indirect_with_non_imm_exec(ptr inreg %callee, i64 inreg %exec, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr) {
				; GISEL-GFX11-LABEL: name: indirect_with_non_imm_exec
				; GISEL-GFX11: bb.1 (%ir-block.0):
				; GISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $sgpr5, $sgpr6, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GISEL-GFX11-NEXT: {{ $}}
				; GISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-GFX11-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY3]], %subreg.sub1
				; GISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:sreg_32 = COPY $sgpr5
				; GISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:sreg_32 = COPY $sgpr6
				; GISEL-GFX11-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; GISEL-GFX11-NEXT: [[COPY8:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; GISEL-GFX11-NEXT: [[COPY9:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; GISEL-GFX11-NEXT: [[COPY10:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; GISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY4]]
				; GISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY5]]
				; GISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY6]]
				; GISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY7]]
				; GISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY8]]
				; GISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY9]]
				; GISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY10]]
				; GISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W64 [[REG_SEQUENCE]], 0, 0, [[REG_SEQUENCE1]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; GISEL-GFX10-LABEL: name: indirect_with_non_imm_exec
				; GISEL-GFX10: bb.1 (%ir-block.0):
				; GISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $sgpr5, $sgpr6, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; GISEL-GFX10-NEXT: {{ $}}
				; GISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:sreg_32 = COPY $sgpr0
				; GISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:sreg_32 = COPY $sgpr1
				; GISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE [[COPY]], %subreg.sub0, [[COPY1]], %subreg.sub1
				; GISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:sreg_32 = COPY $sgpr2
				; GISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:sreg_32 = COPY $sgpr3
				; GISEL-GFX10-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:sreg_64 = REG_SEQUENCE [[COPY2]], %subreg.sub0, [[COPY3]], %subreg.sub1
				; GISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:sreg_32 = COPY $sgpr4
				; GISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:sreg_32 = COPY $sgpr5
				; GISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:sreg_32 = COPY $sgpr6
				; GISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; GISEL-GFX10-NEXT: [[COPY8:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; GISEL-GFX10-NEXT: [[COPY9:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; GISEL-GFX10-NEXT: [[COPY10:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; GISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY4]]
				; GISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY5]]
				; GISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY6]]
				; GISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY7]]
				; GISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY8]]
				; GISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY9]]
				; GISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY10]]
				; GISEL-GFX10-NEXT: [[COPY11:%[0-9]+]]:sgpr_128 = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; GISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY11]]
				; GISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W64 [[REG_SEQUENCE]], 0, 0, [[REG_SEQUENCE1]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11, implicit $sgpr48_sgpr49_sgpr50_sgpr51
				;
				; DAGISEL-GFX11-LABEL: name: indirect_with_non_imm_exec
				; DAGISEL-GFX11: bb.0 (%ir-block.0):
				; DAGISEL-GFX11-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $sgpr5, $sgpr6, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; DAGISEL-GFX11-NEXT: {{ $}}
				; DAGISEL-GFX11-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; DAGISEL-GFX11-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; DAGISEL-GFX11-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; DAGISEL-GFX11-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; DAGISEL-GFX11-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr6
				; DAGISEL-GFX11-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr5
				; DAGISEL-GFX11-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; DAGISEL-GFX11-NEXT: [[COPY7:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; DAGISEL-GFX11-NEXT: [[COPY8:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX11-NEXT: [[COPY9:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX11-NEXT: [[COPY10:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX11-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY8]], %subreg.sub0, [[COPY7]], %subreg.sub1
				; DAGISEL-GFX11-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE [[COPY10]], %subreg.sub0, [[COPY9]], %subreg.sub1
				; DAGISEL-GFX11-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX11-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX11-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX11-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX11-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX11-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX11-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX11-NEXT: SI_CS_CHAIN_TC_W64 killed [[REG_SEQUENCE1]], 0, 0, killed [[REG_SEQUENCE]], amdgpu_allvgprs, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				;
				; DAGISEL-GFX10-LABEL: name: indirect_with_non_imm_exec
				; DAGISEL-GFX10: bb.0 (%ir-block.0):
				; DAGISEL-GFX10-NEXT: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $sgpr5, $sgpr6, $vgpr8, $vgpr9, $vgpr10, $vgpr11
				; DAGISEL-GFX10-NEXT: {{ $}}
				; DAGISEL-GFX10-NEXT: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr11
				; DAGISEL-GFX10-NEXT: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr10
				; DAGISEL-GFX10-NEXT: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr9
				; DAGISEL-GFX10-NEXT: [[COPY3:%[0-9]+]]:vgpr_32 = COPY $vgpr8
				; DAGISEL-GFX10-NEXT: [[COPY4:%[0-9]+]]:sgpr_32 = COPY $sgpr6
				; DAGISEL-GFX10-NEXT: [[COPY5:%[0-9]+]]:sgpr_32 = COPY $sgpr5
				; DAGISEL-GFX10-NEXT: [[COPY6:%[0-9]+]]:sgpr_32 = COPY $sgpr4
				; DAGISEL-GFX10-NEXT: [[COPY7:%[0-9]+]]:sgpr_32 = COPY $sgpr3
				; DAGISEL-GFX10-NEXT: [[COPY8:%[0-9]+]]:sgpr_32 = COPY $sgpr2
				; DAGISEL-GFX10-NEXT: [[COPY9:%[0-9]+]]:sgpr_32 = COPY $sgpr1
				; DAGISEL-GFX10-NEXT: [[COPY10:%[0-9]+]]:sgpr_32 = COPY $sgpr0
				; DAGISEL-GFX10-NEXT: [[REG_SEQUENCE:%[0-9]+]]:sgpr_64 = REG_SEQUENCE [[COPY8]], %subreg.sub0, [[COPY7]], %subreg.sub1
				; DAGISEL-GFX10-NEXT: [[REG_SEQUENCE1:%[0-9]+]]:ccr_sgpr_64 = REG_SEQUENCE [[COPY10]], %subreg.sub0, [[COPY9]], %subreg.sub1
				; DAGISEL-GFX10-NEXT: [[COPY11:%[0-9]+]]:sgpr_128 = COPY $sgpr48_sgpr49_sgpr50_sgpr51
				; DAGISEL-GFX10-NEXT: $sgpr48_sgpr49_sgpr50_sgpr51 = COPY [[COPY11]]
				; DAGISEL-GFX10-NEXT: $sgpr0 = COPY [[COPY6]]
				; DAGISEL-GFX10-NEXT: $sgpr1 = COPY [[COPY5]]
				; DAGISEL-GFX10-NEXT: $sgpr2 = COPY [[COPY4]]
				; DAGISEL-GFX10-NEXT: $vgpr8 = COPY [[COPY3]]
				; DAGISEL-GFX10-NEXT: $vgpr9 = COPY [[COPY2]]
				; DAGISEL-GFX10-NEXT: $vgpr10 = COPY [[COPY1]]
				; DAGISEL-GFX10-NEXT: $vgpr11 = COPY [[COPY]]
				; DAGISEL-GFX10-NEXT: SI_CS_CHAIN_TC_W64 killed [[REG_SEQUENCE1]], 0, 0, killed [[REG_SEQUENCE]], amdgpu_allvgprs, implicit $sgpr48_sgpr49_sgpr50_sgpr51, implicit $sgpr0, implicit $sgpr1, implicit $sgpr2, implicit $vgpr8, implicit $vgpr9, implicit $vgpr10, implicit $vgpr11
				call void(ptr, i64, <3 x i32>, { i32, ptr addrspace(5), i32, i32 }, i32, ...) @llvm.amdgcn.cs.chain(ptr %callee, i64 %exec, <3 x i32> inreg %sgpr, { i32, ptr addrspace(5), i32, i32 } %vgpr, i32 0)
				unreachable
				}

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] ISel for @llvm.amdgcn.cs.chain intrinsicClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 558023

llvm/lib/CodeGen/GlobalISel/IRTranslator.cpp

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp

llvm/lib/Target/AMDGPU/AMDGPUCallLowering.h

llvm/lib/Target/AMDGPU/AMDGPUCallLowering.cpp

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.h

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

llvm/lib/Target/AMDGPU/AMDGPUInstrInfo.td

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/lib/Target/AMDGPU/SIInstructions.td

llvm/lib/Target/AMDGPU/SILateBranchLowering.cpp

llvm/lib/Target/AMDGPU/SIRegisterInfo.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/irtranslator-amdgcn-cs-chain.ll

llvm/test/CodeGen/AMDGPU/amdgpu-cs-chain-cc.ll

llvm/test/CodeGen/AMDGPU/amdgpu-cs-chain-preserve-cc.ll

llvm/test/CodeGen/AMDGPU/isel-amdgcn-cs-chain-intrinsic-w32.ll

llvm/test/CodeGen/AMDGPU/isel-amdgcn-cs-chain-intrinsic-w64.ll

[AMDGPU] ISel for @llvm.amdgcn.cs.chain intrinsic
ClosedPublic