This is an archive of the discontinued LLVM Phabricator instance.

[NVPTX] Use different, convergent MIs for convergent calls.
ClosedPublic

Authored by jlebar on Feb 18 2016, 4:21 PM.

Download Raw Diff

Details

Reviewers

jholewinski
mehdi_amini

Commits

rGb5ca00a58de5: [NVPTX] Use different, convergent MIs for convergent calls.
rL262373: [NVPTX] Use different, convergent MIs for convergent calls.

Summary

Calls sometimes need to be convergent. This is already handled at the
LLVM IR level, but it also needs to be handled at the MI level.

Ideally we'd propagate convergence from instructions, down through the
selection DAG, and into MIs. But this is Hard, and would affect
optimizations in the SDNs -- right now only SDNs with two operands have
any flags at all.

Instead, here's a much simpler hack: Add new opcodes for NVPTX for
convergent calls, and generate these when lowering convergent LLVM
calls.

Diff Detail

Repository: rL LLVM

Event Timeline

jlebar updated this revision to Diff 48422.Feb 18 2016, 4:21 PM

jlebar retitled this revision from to [NVPTX] Use different, convergent MIs for convergent calls..

jlebar updated this object.

jlebar added a reviewer: jholewinski.

jlebar added subscribers: llvm-commits, tra, jhen and 2 others.

Herald added a subscriber: jholewinski. · View Herald TranscriptFeb 18 2016, 4:21 PM

jlebar mentioned this in D17320: Don't tail-duplicate blocks that contain convergent instructions..Feb 18 2016, 4:27 PM

Friendly ping. I know I have some big reviews outstanding from you, but the issue addressed here is a fairly critical correctness fix. I'm also happy to have tra or someone review this, but just wanted to respect your ownership and expertise here.

If no one else chime in, this LGTM.
(it would be better to have someone more familiar with NVPTX to double check )

This revision is now accepted and ready to land.Feb 29 2016, 5:47 PM

Looks reasonable to me. Thanks!

Closed by commit rL262373: [NVPTX] Use different, convergent MIs for convergent calls. (authored by jlebar). · Explain WhyMar 1 2016, 11:28 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

include/

llvm/

Target/

TargetLowering.h

15 lines

lib/

CodeGen/

SelectionDAG/

SelectionDAGBuilder.cpp

8 lines

Target/

NVPTX/

NVPTXISelLowering.h

2 lines

NVPTXISelLowering.cpp

12 lines

NVPTXInstrInfo.td

91 lines

test/

CodeGen/

NVPTX/

convergent-mir-call.ll

27 lines

Diff 49520

llvm/trunk/include/llvm/Target/TargetLowering.h

Show First 20 Lines • Show All 2,342 Lines • ▼ Show 20 Lines	struct CallLoweringInfo {
SDValue Chain;		SDValue Chain;
Type *RetTy;		Type *RetTy;
bool RetSExt : 1;		bool RetSExt : 1;
bool RetZExt : 1;		bool RetZExt : 1;
bool IsVarArg : 1;		bool IsVarArg : 1;
bool IsInReg : 1;		bool IsInReg : 1;
bool DoesNotReturn : 1;		bool DoesNotReturn : 1;
bool IsReturnValueUsed : 1;		bool IsReturnValueUsed : 1;
		bool IsConvergent : 1;

// IsTailCall should be modified by implementations of		// IsTailCall should be modified by implementations of
// TargetLowering::LowerCall that perform tail call conversions.		// TargetLowering::LowerCall that perform tail call conversions.
bool IsTailCall;		bool IsTailCall;

unsigned NumFixedArgs;		unsigned NumFixedArgs;
CallingConv::ID CallConv;		CallingConv::ID CallConv;
SDValue Callee;		SDValue Callee;
ArgListTy Args;		ArgListTy Args;
SelectionDAG &DAG;		SelectionDAG &DAG;
SDLoc DL;		SDLoc DL;
ImmutableCallSite *CS;		ImmutableCallSite *CS;
bool IsPatchPoint;		bool IsPatchPoint;
SmallVector<ISD::OutputArg, 32> Outs;		SmallVector<ISD::OutputArg, 32> Outs;
SmallVector<SDValue, 32> OutVals;		SmallVector<SDValue, 32> OutVals;
SmallVector<ISD::InputArg, 32> Ins;		SmallVector<ISD::InputArg, 32> Ins;

CallLoweringInfo(SelectionDAG &DAG)		CallLoweringInfo(SelectionDAG &DAG)
: RetTy(nullptr), RetSExt(false), RetZExt(false), IsVarArg(false),		: RetTy(nullptr), RetSExt(false), RetZExt(false), IsVarArg(false),
IsInReg(false), DoesNotReturn(false), IsReturnValueUsed(true),		IsInReg(false), DoesNotReturn(false), IsReturnValueUsed(true),
IsTailCall(false), NumFixedArgs(-1), CallConv(CallingConv::C),		IsConvergent(false), IsTailCall(false), NumFixedArgs(-1),
DAG(DAG), CS(nullptr), IsPatchPoint(false) {}		CallConv(CallingConv::C), DAG(DAG), CS(nullptr), IsPatchPoint(false) {
		}

CallLoweringInfo &setDebugLoc(SDLoc dl) {		CallLoweringInfo &setDebugLoc(SDLoc dl) {
DL = dl;		DL = dl;
return *this;		return *this;
}		}

CallLoweringInfo &setChain(SDValue InChain) {		CallLoweringInfo &setChain(SDValue InChain) {
Chain = InChain;		Chain = InChain;
▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines	CallLoweringInfo &setTailCall(bool Value = true) {
return *this;		return *this;
}		}

CallLoweringInfo &setDiscardResult(bool Value = true) {		CallLoweringInfo &setDiscardResult(bool Value = true) {
IsReturnValueUsed = !Value;		IsReturnValueUsed = !Value;
return *this;		return *this;
}		}

		CallLoweringInfo &setConvergent(bool Value = true) {
		IsConvergent = Value;
		return *this;
		}

CallLoweringInfo &setSExtResult(bool Value = true) {		CallLoweringInfo &setSExtResult(bool Value = true) {
RetSExt = Value;		RetSExt = Value;
return *this;		return *this;
}		}

CallLoweringInfo &setZExtResult(bool Value = true) {		CallLoweringInfo &setZExtResult(bool Value = true) {
RetZExt = Value;		RetZExt = Value;
return *this;		return *this;
▲ Show 20 Lines • Show All 437 Lines • Show Last 20 Lines

llvm/trunk/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 5,556 Lines • ▼ Show 20 Lines	void SelectionDAGBuilder::LowerCallTo(ImmutableCallSite CS, SDValue Callee,
}		}

// Check if target-independent constraints permit a tail call here.		// Check if target-independent constraints permit a tail call here.
// Target-dependent constraints are checked within TLI->LowerCallTo.		// Target-dependent constraints are checked within TLI->LowerCallTo.
if (isTailCall && !isInTailCallPosition(CS, DAG.getTarget()))		if (isTailCall && !isInTailCallPosition(CS, DAG.getTarget()))
isTailCall = false;		isTailCall = false;

TargetLowering::CallLoweringInfo CLI(DAG);		TargetLowering::CallLoweringInfo CLI(DAG);
CLI.setDebugLoc(getCurSDLoc()).setChain(getRoot())		CLI.setDebugLoc(getCurSDLoc())
		.setChain(getRoot())
.setCallee(RetTy, FTy, Callee, std::move(Args), CS)		.setCallee(RetTy, FTy, Callee, std::move(Args), CS)
.setTailCall(isTailCall);		.setTailCall(isTailCall)
		.setConvergent(CS.isConvergent());
std::pair<SDValue, SDValue> Result = lowerInvokable(CLI, EHPadBB);		std::pair<SDValue, SDValue> Result = lowerInvokable(CLI, EHPadBB);

if (Result.first.getNode()) {		if (Result.first.getNode()) {
const Instruction *Inst = CS.getInstruction();		const Instruction *Inst = CS.getInstruction();
Result.first = lowerRangeToAssertZExt(DAG, *Inst, Result.first);		Result.first = lowerRangeToAssertZExt(DAG, *Inst, Result.first);
setValue(Inst, Result.first);		setValue(Inst, Result.first);
}		}
}		}
▲ Show 20 Lines • Show All 3,227 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/NVPTX/NVPTXISelLowering.h

Show All 28 Lines	enum NodeType : unsigned {
RET_FLAG,		RET_FLAG,
LOAD_PARAM,		LOAD_PARAM,
DeclareParam,		DeclareParam,
DeclareScalarParam,		DeclareScalarParam,
DeclareRetParam,		DeclareRetParam,
DeclareRet,		DeclareRet,
DeclareScalarRet,		DeclareScalarRet,
PrintCall,		PrintCall,
		PrintConvergentCall,
PrintCallUni,		PrintCallUni,
		PrintConvergentCallUni,
CallArgBegin,		CallArgBegin,
CallArg,		CallArg,
LastCallArg,		LastCallArg,
CallArgEnd,		CallArgEnd,
CallVoid,		CallVoid,
CallVal,		CallVal,
CallSymbol,		CallSymbol,
Prototype,		Prototype,
▲ Show 20 Lines • Show All 499 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/NVPTX/NVPTXISelLowering.cpp

Show First 20 Lines • Show All 308 Lines • ▼ Show 20 Lines	const char *NVPTXTargetLowering::getTargetNodeName(unsigned Opcode) const {
case NVPTXISD::DeclareRet:		case NVPTXISD::DeclareRet:
return "NVPTXISD::DeclareRet";		return "NVPTXISD::DeclareRet";
case NVPTXISD::DeclareScalarRet:		case NVPTXISD::DeclareScalarRet:
return "NVPTXISD::DeclareScalarRet";		return "NVPTXISD::DeclareScalarRet";
case NVPTXISD::DeclareRetParam:		case NVPTXISD::DeclareRetParam:
return "NVPTXISD::DeclareRetParam";		return "NVPTXISD::DeclareRetParam";
case NVPTXISD::PrintCall:		case NVPTXISD::PrintCall:
return "NVPTXISD::PrintCall";		return "NVPTXISD::PrintCall";
		case NVPTXISD::PrintConvergentCall:
		return "NVPTXISD::PrintConvergentCall";
case NVPTXISD::PrintCallUni:		case NVPTXISD::PrintCallUni:
return "NVPTXISD::PrintCallUni";		return "NVPTXISD::PrintCallUni";
		case NVPTXISD::PrintConvergentCallUni:
		return "NVPTXISD::PrintConvergentCallUni";
case NVPTXISD::LoadParam:		case NVPTXISD::LoadParam:
return "NVPTXISD::LoadParam";		return "NVPTXISD::LoadParam";
case NVPTXISD::LoadParamV2:		case NVPTXISD::LoadParamV2:
return "NVPTXISD::LoadParamV2";		return "NVPTXISD::LoadParamV2";
case NVPTXISD::LoadParamV4:		case NVPTXISD::LoadParamV4:
return "NVPTXISD::LoadParamV4";		return "NVPTXISD::LoadParamV4";
case NVPTXISD::StoreParam:		case NVPTXISD::StoreParam:
return "NVPTXISD::StoreParam";		return "NVPTXISD::StoreParam";
▲ Show 20 Lines • Show All 1,107 Lines • ▼ Show 20 Lines	if (!Func) {
Chain = DAG.getNode(NVPTXISD::CallPrototype, dl, ProtoVTs, ProtoOps);		Chain = DAG.getNode(NVPTXISD::CallPrototype, dl, ProtoVTs, ProtoOps);
InFlag = Chain.getValue(1);		InFlag = Chain.getValue(1);
}		}
// Op to just print "call"		// Op to just print "call"
SDVTList PrintCallVTs = DAG.getVTList(MVT::Other, MVT::Glue);		SDVTList PrintCallVTs = DAG.getVTList(MVT::Other, MVT::Glue);
SDValue PrintCallOps[] = {		SDValue PrintCallOps[] = {
Chain, DAG.getConstant((Ins.size() == 0) ? 0 : 1, dl, MVT::i32), InFlag		Chain, DAG.getConstant((Ins.size() == 0) ? 0 : 1, dl, MVT::i32), InFlag
};		};
Chain = DAG.getNode(Func ? (NVPTXISD::PrintCallUni) : (NVPTXISD::PrintCall),		// We model convergent calls as separate opcodes.
dl, PrintCallVTs, PrintCallOps);		unsigned Opcode = Func ? NVPTXISD::PrintCallUni : NVPTXISD::PrintCall;
		if (CLI.IsConvergent)
		Opcode = Opcode == NVPTXISD::PrintCallUni ? NVPTXISD::PrintConvergentCallUni
		: NVPTXISD::PrintConvergentCall;
		Chain = DAG.getNode(Opcode, dl, PrintCallVTs, PrintCallOps);
InFlag = Chain.getValue(1);		InFlag = Chain.getValue(1);

// Ops to print out the function name		// Ops to print out the function name
SDVTList CallVoidVTs = DAG.getVTList(MVT::Other, MVT::Glue);		SDVTList CallVoidVTs = DAG.getVTList(MVT::Other, MVT::Glue);
SDValue CallVoidOps[] = { Chain, Callee, InFlag };		SDValue CallVoidOps[] = { Chain, Callee, InFlag };
Chain = DAG.getNode(NVPTXISD::CallVoid, dl, CallVoidVTs, CallVoidOps);		Chain = DAG.getNode(NVPTXISD::CallVoid, dl, CallVoidVTs, CallVoidOps);
InFlag = Chain.getValue(1);		InFlag = Chain.getValue(1);

▲ Show 20 Lines • Show All 3,110 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/NVPTX/NVPTXInstrInfo.td

Show First 20 Lines • Show All 1,695 Lines • ▼ Show 20 Lines	def LoadParamV2 :
SDNode<"NVPTXISD::LoadParamV2", SDTLoadParamV2Profile,		SDNode<"NVPTXISD::LoadParamV2", SDTLoadParamV2Profile,
[SDNPHasChain, SDNPMayLoad, SDNPOutGlue, SDNPInGlue]>;		[SDNPHasChain, SDNPMayLoad, SDNPOutGlue, SDNPInGlue]>;
def LoadParamV4 :		def LoadParamV4 :
SDNode<"NVPTXISD::LoadParamV4", SDTLoadParamV4Profile,		SDNode<"NVPTXISD::LoadParamV4", SDTLoadParamV4Profile,
[SDNPHasChain, SDNPMayLoad, SDNPOutGlue, SDNPInGlue]>;		[SDNPHasChain, SDNPMayLoad, SDNPOutGlue, SDNPInGlue]>;
def PrintCall :		def PrintCall :
SDNode<"NVPTXISD::PrintCall", SDTPrintCallProfile,		SDNode<"NVPTXISD::PrintCall", SDTPrintCallProfile,
[SDNPHasChain, SDNPOutGlue, SDNPInGlue, SDNPSideEffect]>;		[SDNPHasChain, SDNPOutGlue, SDNPInGlue, SDNPSideEffect]>;
		def PrintConvergentCall :
		SDNode<"NVPTXISD::PrintConvergentCall", SDTPrintCallProfile,
		[SDNPHasChain, SDNPOutGlue, SDNPInGlue, SDNPSideEffect]>;
def PrintCallUni :		def PrintCallUni :
SDNode<"NVPTXISD::PrintCallUni", SDTPrintCallUniProfile,		SDNode<"NVPTXISD::PrintCallUni", SDTPrintCallUniProfile,
[SDNPHasChain, SDNPOutGlue, SDNPInGlue, SDNPSideEffect]>;		[SDNPHasChain, SDNPOutGlue, SDNPInGlue, SDNPSideEffect]>;
		def PrintConvergentCallUni :
		SDNode<"NVPTXISD::PrintConvergentCallUni", SDTPrintCallUniProfile,
		[SDNPHasChain, SDNPOutGlue, SDNPInGlue, SDNPSideEffect]>;
def StoreParam :		def StoreParam :
SDNode<"NVPTXISD::StoreParam", SDTStoreParamProfile,		SDNode<"NVPTXISD::StoreParam", SDTStoreParamProfile,
[SDNPHasChain, SDNPOutGlue, SDNPInGlue, SDNPSideEffect]>;		[SDNPHasChain, SDNPOutGlue, SDNPInGlue, SDNPSideEffect]>;
def StoreParamV2 :		def StoreParamV2 :
SDNode<"NVPTXISD::StoreParamV2", SDTStoreParamV2Profile,		SDNode<"NVPTXISD::StoreParamV2", SDTStoreParamV2Profile,
[SDNPHasChain, SDNPOutGlue, SDNPInGlue, SDNPSideEffect]>;		[SDNPHasChain, SDNPOutGlue, SDNPInGlue, SDNPSideEffect]>;
def StoreParamV4 :		def StoreParamV4 :
SDNode<"NVPTXISD::StoreParamV4", SDTStoreParamV4Profile,		SDNode<"NVPTXISD::StoreParamV4", SDTStoreParamV4Profile,
▲ Show 20 Lines • Show All 101 Lines • ▼ Show 20 Lines	class StoreRetvalV4Inst<NVPTXRegClass regclass, string opstr> :
NVPTXInst<(outs),		NVPTXInst<(outs),
(ins regclass:$val, regclass:$val2, regclass:$val3,		(ins regclass:$val, regclass:$val2, regclass:$val3,
regclass:$val4, i32imm:$a),		regclass:$val4, i32imm:$a),
!strconcat("st.param.v4", opstr,		!strconcat("st.param.v4", opstr,
"\t[func_retval0+$a], {{$val, $val2, $val3, $val4}};"),		"\t[func_retval0+$a], {{$val, $val2, $val3, $val4}};"),
[]>;		[]>;

let isCall=1 in {		let isCall=1 in {
		multiclass CALL<string OpcStr, SDNode OpNode> {
def PrintCallNoRetInst : NVPTXInst<(outs), (ins),		def PrintCallNoRetInst : NVPTXInst<(outs), (ins),
"call ", [(PrintCall (i32 0))]>;		!strconcat(OpcStr, " "), [(OpNode (i32 0))]>;
def PrintCallRetInst1 : NVPTXInst<(outs), (ins),		def PrintCallRetInst1 : NVPTXInst<(outs), (ins),
"call (retval0), ", [(PrintCall (i32 1))]>;		!strconcat(OpcStr, " (retval0), "), [(OpNode (i32 1))]>;
def PrintCallRetInst2 : NVPTXInst<(outs), (ins),		def PrintCallRetInst2 : NVPTXInst<(outs), (ins),
"call (retval0, retval1), ", [(PrintCall (i32 2))]>;		!strconcat(OpcStr, " (retval0, retval1), "), [(OpNode (i32 2))]>;
def PrintCallRetInst3 : NVPTXInst<(outs), (ins),		def PrintCallRetInst3 : NVPTXInst<(outs), (ins),
"call (retval0, retval1, retval2), ", [(PrintCall (i32 3))]>;		!strconcat(OpcStr, " (retval0, retval1, retval2), "), [(OpNode (i32 3))]>;
def PrintCallRetInst4 : NVPTXInst<(outs), (ins),		def PrintCallRetInst4 : NVPTXInst<(outs), (ins),
"call (retval0, retval1, retval2, retval3), ", [(PrintCall (i32 4))]>;		!strconcat(OpcStr, " (retval0, retval1, retval2, retval3), "),
		[(OpNode (i32 4))]>;
def PrintCallRetInst5 : NVPTXInst<(outs), (ins),		def PrintCallRetInst5 : NVPTXInst<(outs), (ins),
"call (retval0, retval1, retval2, retval3, retval4), ",		!strconcat(OpcStr, " (retval0, retval1, retval2, retval3, retval4), "),
[(PrintCall (i32 5))]>;		[(OpNode (i32 5))]>;
def PrintCallRetInst6 : NVPTXInst<(outs), (ins),		def PrintCallRetInst6 : NVPTXInst<(outs), (ins),
"call (retval0, retval1, retval2, retval3, retval4, retval5), ",		!strconcat(OpcStr, " (retval0, retval1, retval2, retval3, retval4, "
[(PrintCall (i32 6))]>;		"retval5), "),
		[(OpNode (i32 6))]>;
def PrintCallRetInst7 : NVPTXInst<(outs), (ins),		def PrintCallRetInst7 : NVPTXInst<(outs), (ins),
"call (retval0, retval1, retval2, retval3, retval4, retval5, retval6), ",		!strconcat(OpcStr, " (retval0, retval1, retval2, retval3, retval4, "
[(PrintCall (i32 7))]>;		"retval5, retval6), "),
		[(OpNode (i32 7))]>;
def PrintCallRetInst8 : NVPTXInst<(outs), (ins),		def PrintCallRetInst8 : NVPTXInst<(outs), (ins),
"call (retval0, retval1, retval2, retval3, retval4, retval5, retval6, "		!strconcat(OpcStr, " (retval0, retval1, retval2, retval3, retval4, "
"retval7), ",		"retval5, retval6, retval7), "),
[(PrintCall (i32 8))]>;		[(OpNode (i32 8))]>;
		}
def PrintCallUniNoRetInst : NVPTXInst<(outs), (ins),		}
"call.uni ", [(PrintCallUni (i32 0))]>;
def PrintCallUniRetInst1 : NVPTXInst<(outs), (ins),		defm Call : CALL<"call", PrintCall>;
"call.uni (retval0), ", [(PrintCallUni (i32 1))]>;		defm CallUni : CALL<"call.uni", PrintCallUni>;
def PrintCallUniRetInst2 : NVPTXInst<(outs), (ins),
"call.uni (retval0, retval1), ", [(PrintCallUni (i32 2))]>;		// Convergent call instructions. These are identical to regular calls, except
def PrintCallUniRetInst3 : NVPTXInst<(outs), (ins),		// they have the isConvergent bit set.
"call.uni (retval0, retval1, retval2), ", [(PrintCallUni (i32 3))]>;		let isConvergent=1 in {
def PrintCallUniRetInst4 : NVPTXInst<(outs), (ins),		defm ConvergentCall : CALL<"call", PrintConvergentCall>;
"call.uni (retval0, retval1, retval2, retval3), ", [(PrintCallUni (i32 4))]>;		defm ConvergentCallUni : CALL<"call.uni", PrintConvergentCallUni>;
def PrintCallUniRetInst5 : NVPTXInst<(outs), (ins),
"call.uni (retval0, retval1, retval2, retval3, retval4), ",
[(PrintCallUni (i32 5))]>;
def PrintCallUniRetInst6 : NVPTXInst<(outs), (ins),
"call.uni (retval0, retval1, retval2, retval3, retval4, retval5), ",
[(PrintCallUni (i32 6))]>;
def PrintCallUniRetInst7 : NVPTXInst<(outs), (ins),
"call.uni (retval0, retval1, retval2, retval3, retval4, retval5, retval6), ",
[(PrintCallUni (i32 7))]>;
def PrintCallUniRetInst8 : NVPTXInst<(outs), (ins),
"call.uni (retval0, retval1, retval2, retval3, retval4, retval5, retval6, "
"retval7), ",
[(PrintCallUni (i32 8))]>;
}		}

def LoadParamMemI64 : LoadParamMemInst<Int64Regs, ".b64">;		def LoadParamMemI64 : LoadParamMemInst<Int64Regs, ".b64">;
def LoadParamMemI32 : LoadParamMemInst<Int32Regs, ".b32">;		def LoadParamMemI32 : LoadParamMemInst<Int32Regs, ".b32">;
def LoadParamMemI16 : LoadParamMemInst<Int16Regs, ".b16">;		def LoadParamMemI16 : LoadParamMemInst<Int16Regs, ".b16">;
def LoadParamMemI8 : LoadParamMemInst<Int16Regs, ".b8">;		def LoadParamMemI8 : LoadParamMemInst<Int16Regs, ".b8">;
def LoadParamMemV2I64 : LoadParamV2MemInst<Int64Regs, ".b64">;		def LoadParamMemV2I64 : LoadParamV2MemInst<Int64Regs, ".b64">;
def LoadParamMemV2I32 : LoadParamV2MemInst<Int32Regs, ".b32">;		def LoadParamMemV2I32 : LoadParamV2MemInst<Int32Regs, ".b32">;
▲ Show 20 Lines • Show All 843 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/NVPTX/convergent-mir-call.ll

				; RUN: llc -mtriple nvptx64-nvidia-cuda -stop-after machine-cp -o - < %s 2>&1 \| FileCheck %s

				; Check that convergent calls are emitted using convergent MIR instructions,
				; while non-convergent calls are not.

				target triple = "nvptx64-nvidia-cuda"

				declare void @conv() convergent
				declare void @not_conv()

				define void @test(void ()* %f) {
				; CHECK: ConvergentCallUniPrintCall
				; CHECK-NEXT: @conv
				call void @conv()

				; CHECK: CallUniPrintCall
				; CHECK-NEXT: @not_conv
				call void @not_conv()

				; CHECK: ConvergentCallPrintCall
				call void %f() convergent

				; CHECK: CallPrintCall
				call void %f()

				ret void
				}