This is an archive of the discontinued LLVM Phabricator instance.

Differential D50207

[NVPTX] Handle __nvvm_reflect("__CUDA_ARCH").
ClosedPublic

Authored by tra on Aug 2 2018, 5:00 PM.

Download Raw Diff

Details

Reviewers

jlebar

Commits

rG0a11b6366a92: [NVPTX] Handle __nvvm_reflect("__CUDA_ARCH").
rL338908: [NVPTX] Handle __nvvm_reflect("__CUDA_ARCH").

Summary

libdevice in recent CUDA versions relies on __nvvm_reflect() to select
GPU-specific bitcode. This patch addresses the requirement.

Diff Detail

Repository: rL LLVM

Event Timeline

tra created this revision.Aug 2 2018, 5:00 PM

Herald added subscribers: bixia, hiraditya, sanjoy, jholewinski. · View Herald TranscriptAug 2 2018, 5:00 PM

Just to check, the notion is that it's OK if I report a sm version less than what I end up running on?

llvm/lib/Target/NVPTX/NVVMReflect.cpp
55 ↗	(On Diff #158866)	explicit

This revision is now accepted and ready to land.Aug 2 2018, 5:08 PM

In D50207#1186491, @jlebar wrote:

Just to check, the notion is that it's OK if I report a sm version less than what I end up running on?

Yes. We may lose some performance, but not correctness as we are expected to be forward-compatible.
Until now reflect was being replaced with 0, so we were picking the variant suitable for the oldest GPU.

Added 'explicit' keyword to contructor.

Harbormaster completed remote builds in B21021: Diff 158869.Aug 2 2018, 5:15 PM

Closed by commit rL338908: [NVPTX] Handle __nvvm_reflect("__CUDA_ARCH"). (authored by tra). · Explain WhyAug 3 2018, 11:05 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

NVPTX/

NVPTX.h

2 lines

NVPTXTargetMachine.cpp

5 lines

NVVMReflect.cpp

10 lines

test/

CodeGen/

NVPTX/

nvvm-reflect-arch.ll

21 lines

Diff 159056

llvm/trunk/lib/Target/NVPTX/NVPTX.h

	Show All 40 Lines
	};			};
	}			}

	FunctionPass *createNVPTXISelDag(NVPTXTargetMachine &TM,			FunctionPass *createNVPTXISelDag(NVPTXTargetMachine &TM,
	llvm::CodeGenOpt::Level OptLevel);			llvm::CodeGenOpt::Level OptLevel);
	ModulePass *createNVPTXAssignValidGlobalNamesPass();			ModulePass *createNVPTXAssignValidGlobalNamesPass();
	ModulePass *createGenericToNVVMPass();			ModulePass *createGenericToNVVMPass();
	FunctionPass *createNVVMIntrRangePass(unsigned int SmVersion);			FunctionPass *createNVVMIntrRangePass(unsigned int SmVersion);
	FunctionPass *createNVVMReflectPass();			FunctionPass *createNVVMReflectPass(unsigned int SmVersion);
	MachineFunctionPass *createNVPTXPrologEpilogPass();			MachineFunctionPass *createNVPTXPrologEpilogPass();
	MachineFunctionPass *createNVPTXReplaceImageHandlesPass();			MachineFunctionPass *createNVPTXReplaceImageHandlesPass();
	FunctionPass *createNVPTXImageOptimizerPass();			FunctionPass *createNVPTXImageOptimizerPass();
	FunctionPass createNVPTXLowerArgsPass(const NVPTXTargetMachine TM);			FunctionPass createNVPTXLowerArgsPass(const NVPTXTargetMachine TM);
	BasicBlockPass *createNVPTXLowerAllocaPass();			BasicBlockPass *createNVPTXLowerAllocaPass();
	MachineFunctionPass *createNVPTXPeephole();			MachineFunctionPass *createNVPTXPeephole();

	Target &getTheNVPTXTarget32();			Target &getTheNVPTXTarget32();
	▲ Show 20 Lines • Show All 120 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/NVPTX/NVPTXTargetMachine.cpp

Show First 20 Lines • Show All 189 Lines • ▼ Show 20 Lines
TargetPassConfig *NVPTXTargetMachine::createPassConfig(PassManagerBase &PM) {		TargetPassConfig *NVPTXTargetMachine::createPassConfig(PassManagerBase &PM) {
return new NVPTXPassConfig(*this, PM);		return new NVPTXPassConfig(*this, PM);
}		}

void NVPTXTargetMachine::adjustPassManager(PassManagerBuilder &Builder) {		void NVPTXTargetMachine::adjustPassManager(PassManagerBuilder &Builder) {
Builder.addExtension(		Builder.addExtension(
PassManagerBuilder::EP_EarlyAsPossible,		PassManagerBuilder::EP_EarlyAsPossible,
[&](const PassManagerBuilder &, legacy::PassManagerBase &PM) {		[&](const PassManagerBuilder &, legacy::PassManagerBase &PM) {
PM.add(createNVVMReflectPass());		PM.add(createNVVMReflectPass(Subtarget.getSmVersion()));
PM.add(createNVVMIntrRangePass(Subtarget.getSmVersion()));		PM.add(createNVVMIntrRangePass(Subtarget.getSmVersion()));
});		});
}		}

TargetTransformInfo		TargetTransformInfo
NVPTXTargetMachine::getTargetTransformInfo(const Function &F) {		NVPTXTargetMachine::getTargetTransformInfo(const Function &F) {
return TargetTransformInfo(NVPTXTTIImpl(this, F));		return TargetTransformInfo(NVPTXTTIImpl(this, F));
}		}
▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines	void NVPTXPassConfig::addIRPasses() {
disablePass(&FuncletLayoutID);		disablePass(&FuncletLayoutID);
disablePass(&PatchableFunctionID);		disablePass(&PatchableFunctionID);
disablePass(&ShrinkWrapID);		disablePass(&ShrinkWrapID);

// NVVMReflectPass is added in addEarlyAsPossiblePasses, so hopefully running		// NVVMReflectPass is added in addEarlyAsPossiblePasses, so hopefully running
// it here does nothing. But since we need it for correctness when lowering		// it here does nothing. But since we need it for correctness when lowering
// to NVPTX, run it here too, in case whoever built our pass pipeline didn't		// to NVPTX, run it here too, in case whoever built our pass pipeline didn't
// call addEarlyAsPossiblePasses.		// call addEarlyAsPossiblePasses.
addPass(createNVVMReflectPass());		const NVPTXSubtarget &ST = *getTM<NVPTXTargetMachine>().getSubtargetImpl();
		addPass(createNVVMReflectPass(ST.getSmVersion()));

if (getOptLevel() != CodeGenOpt::None)		if (getOptLevel() != CodeGenOpt::None)
addPass(createNVPTXImageOptimizerPass());		addPass(createNVPTXImageOptimizerPass());
addPass(createNVPTXAssignValidGlobalNamesPass());		addPass(createNVPTXAssignValidGlobalNamesPass());
addPass(createGenericToNVVMPass());		addPass(createGenericToNVVMPass());

// NVPTXLowerArgs is required for correctness and should be run right		// NVPTXLowerArgs is required for correctness and should be run right
// before the address space inference passes.		// before the address space inference passes.
▲ Show 20 Lines • Show All 122 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/NVPTX/NVVMReflect.cpp

Show First 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
#define DEBUG_TYPE "nvptx-reflect"		#define DEBUG_TYPE "nvptx-reflect"

namespace llvm { void initializeNVVMReflectPass(PassRegistry &); }		namespace llvm { void initializeNVVMReflectPass(PassRegistry &); }

namespace {		namespace {
class NVVMReflect : public FunctionPass {		class NVVMReflect : public FunctionPass {
public:		public:
static char ID;		static char ID;
NVVMReflect() : FunctionPass(ID) {		unsigned int SmVersion;
		NVVMReflect() : NVVMReflect(0) {}
		explicit NVVMReflect(unsigned int Sm) : FunctionPass(ID), SmVersion(Sm) {
initializeNVVMReflectPass(*PassRegistry::getPassRegistry());		initializeNVVMReflectPass(*PassRegistry::getPassRegistry());
}		}

bool runOnFunction(Function &) override;		bool runOnFunction(Function &) override;
};		};
}		}

FunctionPass *llvm::createNVVMReflectPass() { return new NVVMReflect(); }		FunctionPass *llvm::createNVVMReflectPass(unsigned int SmVersion) {
		return new NVVMReflect(SmVersion);
		}

static cl::opt<bool>		static cl::opt<bool>
NVVMReflectEnabled("nvvm-reflect-enable", cl::init(true), cl::Hidden,		NVVMReflectEnabled("nvvm-reflect-enable", cl::init(true), cl::Hidden,
cl::desc("NVVM reflection, enabled by default"));		cl::desc("NVVM reflection, enabled by default"));

char NVVMReflect::ID = 0;		char NVVMReflect::ID = 0;
INITIALIZE_PASS(NVVMReflect, "nvvm-reflect",		INITIALIZE_PASS(NVVMReflect, "nvvm-reflect",
"Replace occurrences of __nvvm_reflect() calls with 0/1", false,		"Replace occurrences of __nvvm_reflect() calls with 0/1", false,
▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines	for (Instruction &I : instructions(F)) {
int ReflectVal = 0; // The default value is 0		int ReflectVal = 0; // The default value is 0
if (ReflectArg == "__CUDA_FTZ") {		if (ReflectArg == "__CUDA_FTZ") {
// Try to pull __CUDA_FTZ from the nvvm-reflect-ftz module flag. Our		// Try to pull __CUDA_FTZ from the nvvm-reflect-ftz module flag. Our
// choice here must be kept in sync with AutoUpgrade, which uses the same		// choice here must be kept in sync with AutoUpgrade, which uses the same
// technique to detect whether ftz is enabled.		// technique to detect whether ftz is enabled.
if (auto *Flag = mdconst::extract_or_null<ConstantInt>(		if (auto *Flag = mdconst::extract_or_null<ConstantInt>(
F.getParent()->getModuleFlag("nvvm-reflect-ftz")))		F.getParent()->getModuleFlag("nvvm-reflect-ftz")))
ReflectVal = Flag->getSExtValue();		ReflectVal = Flag->getSExtValue();
		} else if (ReflectArg == "__CUDA_ARCH") {
		ReflectVal = SmVersion * 10;
}		}
Call->replaceAllUsesWith(ConstantInt::get(Call->getType(), ReflectVal));		Call->replaceAllUsesWith(ConstantInt::get(Call->getType(), ReflectVal));
ToRemove.push_back(Call);		ToRemove.push_back(Call);
}		}

for (Instruction *I : ToRemove)		for (Instruction *I : ToRemove)
I->eraseFromParent();		I->eraseFromParent();

return ToRemove.size() > 0;		return ToRemove.size() > 0;
}		}

llvm/trunk/test/CodeGen/NVPTX/nvvm-reflect-arch.ll

				; Libdevice in recent CUDA versions relies on __CUDA_ARCH reflecting GPU type.
				; Verify that __nvvm_reflect() is replaced with an appropriate value.
				;
				; RUN: opt %s -S -nvvm-reflect -O2 -mtriple=nvptx64 \
				; RUN: \| FileCheck %s --check-prefixes=COMMON,SM20
				; RUN: opt %s -S -nvvm-reflect -O2 -mtriple=nvptx64 -mcpu=sm_35 \
				; RUN: \| FileCheck %s --check-prefixes=COMMON,SM35

				@"$str" = private addrspace(1) constant [12 x i8] c"__CUDA_ARCH\00"

				declare i32 @__nvvm_reflect(i8*)

				; COMMON-LABEL: @foo
				define i32 @foo(float %a, float %b) {
				; COMMON-NOT: call i32 @__nvvm_reflect
				%reflect = call i32 @__nvvm_reflect(i8* addrspacecast (i8 addrspace(1)* getelementptr inbounds ([12 x i8], [12 x i8] addrspace(1)* @"$str", i32 0, i32 0) to i8*))
				; SM20: ret i32 200
				; SM35: ret i32 350
				ret i32 %reflect
				}