This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
lib/CodeGen/
-
CodeGen/
-
CGOpenMPRuntimeNVPTX.h
2/3
CGOpenMPRuntimeNVPTX.cpp
-
test/OpenMP/
-
OpenMP/
-
nvptx_data_sharing.cpp
-
nvptx_parallel_codegen.cpp
-
nvptx_target_teams_codegen.cpp

Differential D38976

[OpenMP] Add implicit data sharing support when offloading to NVIDIA GPUs using OpenMP device offloading
ClosedPublic

Authored by gtbercea on Oct 16 2017, 2:21 PM.

Download Raw Diff

Details

Reviewers

hfinkel
carlo.bertolli
arpith-jacob
Hahnfeld
ABataev
caomhin

Commits

rGeb89b1d46f1e: [OpenMP] Add implicit data sharing support when offloading to NVIDIA GPUs using…
rC318773: [OpenMP] Add implicit data sharing support when offloading to NVIDIA GPUs using…
rL318773: [OpenMP] Add implicit data sharing support when offloading to NVIDIA GPUs using…

Summary

This patch is part of the development effort to add support in the current OpenMP GPU offloading implementation for implicitly sharing variables between a target region executed by the team master thread and the worker threads within that team.

This patch is the first of three required for successfully performing the implicit sharing of master thread variables with the worker threads within a team. The remaining two patches are:

Patch D38978 to the LLVM NVPTX backend which ensures the lowering of shared variables to an device memory which allows the sharing of references;
Patch (coming soon) is a patch to libomptarget runtime library which ensures that a list of references to shared variables is properly maintained.

A simple code snippet which illustrates an implicit data sharing situation is as follows:

#pragma omp target
{
   // master thread only
   int v;
   #pragma omp parallel
   {
      // worker threads
      // use v
   }
}

Variable v is implicitly shared from the team master thread which executes the code in between the target and parallel directives. The worker threads must operate on the latest version of v, including any updates performed by the master.

The code generated in this patch relies on the LLVM NVPTX patch (mentioned above) which prevents v from being lowered in the thread local memory of the master thread thus making the reference to this variable un-shareable with the workers. This ensures that the code generated by this patch is correct.
Since the parallel region is outlined the passing of arguments to the outlined regions must preserve the original order of arguments. The runtime therefore maintains a list of references to shared variables thus ensuring their passing in the correct order. The passing of arguments to the outlined parallel function is performed in a separate function which the data sharing infrastructure constructs in this patch. The function is inlined when optimizations are enabled.

Diff Detail

Repository: rL LLVM

Event Timeline

gtbercea created this revision.Oct 16 2017, 2:21 PM

Herald added a subscriber: jholewinski. · View Herald TranscriptOct 16 2017, 2:21 PM

gtbercea mentioned this in D38978: [OpenMP] Enable the lowering of implicitly shared variables in OpenMP GPU-offloaded target regions to the GPU shared memory.Oct 16 2017, 2:29 PM

gtbercea edited the summary of this revision. (Show Details)

This revision is now accepted and ready to land.Nov 3 2017, 12:38 PM

Hahnfeld added inline comments.Nov 3 2017, 12:48 PM

lib/CodeGen/CGOpenMPRuntimeNVPTX.cpp
2393	Is this meant to be a comment or should there be something happening here?
2396	Especially, `NextBB` can never be anything else than `nullptr`...

gtbercea updated this revision to Diff 121538.Nov 3 2017, 1:24 PM

gtbercea marked 2 inline comments as done.

Remove blocks.

lib/CodeGen/CGOpenMPRuntimeNVPTX.cpp
474	Later we should remove it from the code.

gtbercea closed this revision.Nov 21 2017, 7:55 AM

Revision Contents

Path

Size

lib/

CodeGen/

CGOpenMPRuntimeNVPTX.h

11 lines

CGOpenMPRuntimeNVPTX.cpp

219 lines

test/

OpenMP/

nvptx_data_sharing.cpp

52 lines

nvptx_parallel_codegen.cpp

22 lines

nvptx_target_teams_codegen.cpp

4 lines

Diff 119211

lib/CodeGen/CGOpenMPRuntimeNVPTX.h

Show First 20 Lines • Show All 299 Lines • ▼ Show 20 Lines	public:
};		};

private:		private:
// Track the execution mode when codegening directives within a target		// Track the execution mode when codegening directives within a target
// region. The appropriate mode (generic/spmd) is set on entry to the		// region. The appropriate mode (generic/spmd) is set on entry to the
// target region and used by containing directives such as 'parallel'		// target region and used by containing directives such as 'parallel'
// to emit optimized code.		// to emit optimized code.
ExecutionMode CurrentExecutionMode;		ExecutionMode CurrentExecutionMode;

		/// Map between an outlined function and its wrapper.
		llvm::DenseMap<llvm::Function , llvm::Function > WrapperFunctionsMap;

		/// Emit function which wraps the outline parallel region
		/// and controls the parameters which are passed to this function.
		/// The wrapper ensures that the outlined function is called
		/// with the correct arguments when data is shared.
		llvm::Function *
		createDataSharingWrapper(llvm::Function *OutlinedParallelFn,
		const OMPExecutableDirective &D);
};		};

} // CodeGen namespace.		} // CodeGen namespace.
} // clang namespace.		} // clang namespace.

#endif // LLVM_CLANG_LIB_CODEGEN_CGOPENMPRUNTIMENVPTX_H		#endif // LLVM_CLANG_LIB_CODEGEN_CGOPENMPRUNTIMENVPTX_H

lib/CodeGen/CGOpenMPRuntimeNVPTX.cpp

Show First 20 Lines • Show All 288 Lines • ▼ Show 20 Lines	void CGOpenMPRuntimeNVPTX::emitGenericKernel(const OMPExecutableDirective &D,
llvm::Constant *&OutlinedFnID,		llvm::Constant *&OutlinedFnID,
bool IsOffloadEntry,		bool IsOffloadEntry,
const RegionCodeGenTy &CodeGen) {		const RegionCodeGenTy &CodeGen) {
ExecutionModeRAII ModeRAII(CurrentExecutionMode,		ExecutionModeRAII ModeRAII(CurrentExecutionMode,
CGOpenMPRuntimeNVPTX::ExecutionMode::Generic);		CGOpenMPRuntimeNVPTX::ExecutionMode::Generic);
EntryFunctionState EST;		EntryFunctionState EST;
WorkerFunctionState WST(CGM);		WorkerFunctionState WST(CGM);
Work.clear();		Work.clear();
		WrapperFunctionsMap.clear();

// Emit target region as a standalone region.		// Emit target region as a standalone region.
class NVPTXPrePostActionTy : public PrePostActionTy {		class NVPTXPrePostActionTy : public PrePostActionTy {
CGOpenMPRuntimeNVPTX &RT;		CGOpenMPRuntimeNVPTX &RT;
CGOpenMPRuntimeNVPTX::EntryFunctionState &EST;		CGOpenMPRuntimeNVPTX::EntryFunctionState &EST;
CGOpenMPRuntimeNVPTX::WorkerFunctionState &WST;		CGOpenMPRuntimeNVPTX::WorkerFunctionState &WST;

public:		public:
▲ Show 20 Lines • Show All 157 Lines • ▼ Show 20 Lines	static void setPropertyExecutionMode(CodeGenModule &CGM, StringRef Name,
CGOpenMPRuntimeNVPTX::ExecutionMode Mode) {		CGOpenMPRuntimeNVPTX::ExecutionMode Mode) {
(void)new llvm::GlobalVariable(		(void)new llvm::GlobalVariable(
CGM.getModule(), CGM.Int8Ty, /isConstant=/true,		CGM.getModule(), CGM.Int8Ty, /isConstant=/true,
llvm::GlobalValue::WeakAnyLinkage,		llvm::GlobalValue::WeakAnyLinkage,
llvm::ConstantInt::get(CGM.Int8Ty, Mode), Name + Twine("_exec_mode"));		llvm::ConstantInt::get(CGM.Int8Ty, Mode), Name + Twine("_exec_mode"));
}		}

void CGOpenMPRuntimeNVPTX::emitWorkerFunction(WorkerFunctionState &WST) {		void CGOpenMPRuntimeNVPTX::emitWorkerFunction(WorkerFunctionState &WST) {
auto &Ctx = CGM.getContext();		ASTContext &Ctx = CGM.getContext();

CodeGenFunction CGF(CGM, /suppressNewContext=/true);		CodeGenFunction CGF(CGM, /suppressNewContext=/true);
CGF.disableDebugInfo();		CGF.disableDebugInfo();
		ABataevUnsubmitted Not Done Reply Inline Actions Later we should remove it from the code. ABataev: Later we should remove it from the code.
CGF.StartFunction(GlobalDecl(), Ctx.VoidTy, WST.WorkerFn, *WST.CGFI, {});		CGF.StartFunction(GlobalDecl(), Ctx.VoidTy, WST.WorkerFn, *WST.CGFI, {});
emitWorkerLoop(CGF, WST);		emitWorkerLoop(CGF, WST);
CGF.FinishFunction();		CGF.FinishFunction();
}		}

void CGOpenMPRuntimeNVPTX::emitWorkerLoop(CodeGenFunction &CGF,		void CGOpenMPRuntimeNVPTX::emitWorkerLoop(CodeGenFunction &CGF,
WorkerFunctionState &WST) {		WorkerFunctionState &WST) {
//		//
Show All 23 Lines	void CGOpenMPRuntimeNVPTX::emitWorkerLoop(CodeGenFunction &CGF,

Address WorkFn =		Address WorkFn =
CGF.CreateDefaultAlignTempAlloca(CGF.Int8PtrTy, /Name=/"work_fn");		CGF.CreateDefaultAlignTempAlloca(CGF.Int8PtrTy, /Name=/"work_fn");
Address ExecStatus =		Address ExecStatus =
CGF.CreateDefaultAlignTempAlloca(CGF.Int8Ty, /Name=/"exec_status");		CGF.CreateDefaultAlignTempAlloca(CGF.Int8Ty, /Name=/"exec_status");
CGF.InitTempAlloca(ExecStatus, Bld.getInt8(/C=/0));		CGF.InitTempAlloca(ExecStatus, Bld.getInt8(/C=/0));
CGF.InitTempAlloca(WorkFn, llvm::Constant::getNullValue(CGF.Int8PtrTy));		CGF.InitTempAlloca(WorkFn, llvm::Constant::getNullValue(CGF.Int8PtrTy));

llvm::Value *Args[] = {WorkFn.getPointer()};		// Set up shared arguments
		Address SharedArgs =
		CGF.CreateDefaultAlignTempAlloca(CGF.Int8PtrPtrTy, "shared_args");
		llvm::Value *Args[] = {WorkFn.getPointer(), SharedArgs.getPointer()};
llvm::Value *Ret = CGF.EmitRuntimeCall(		llvm::Value *Ret = CGF.EmitRuntimeCall(
createNVPTXRuntimeFunction(OMPRTL_NVPTX__kmpc_kernel_parallel), Args);		createNVPTXRuntimeFunction(OMPRTL_NVPTX__kmpc_kernel_parallel), Args);
Bld.CreateStore(Bld.CreateZExt(Ret, CGF.Int8Ty), ExecStatus);		Bld.CreateStore(Bld.CreateZExt(Ret, CGF.Int8Ty), ExecStatus);

// On termination condition (workid == 0), exit loop.		// On termination condition (workid == 0), exit loop.
llvm::Value *ShouldTerminate =		llvm::Value *ShouldTerminate =
Bld.CreateIsNull(Bld.CreateLoad(WorkFn), "should_terminate");		Bld.CreateIsNull(Bld.CreateLoad(WorkFn), "should_terminate");
Bld.CreateCondBr(ShouldTerminate, ExitBB, SelectWorkersBB);		Bld.CreateCondBr(ShouldTerminate, ExitBB, SelectWorkersBB);

// Activate requested workers.		// Activate requested workers.
CGF.EmitBlock(SelectWorkersBB);		CGF.EmitBlock(SelectWorkersBB);
llvm::Value *IsActive =		llvm::Value *IsActive =
Bld.CreateIsNotNull(Bld.CreateLoad(ExecStatus), "is_active");		Bld.CreateIsNotNull(Bld.CreateLoad(ExecStatus), "is_active");
Bld.CreateCondBr(IsActive, ExecuteBB, BarrierBB);		Bld.CreateCondBr(IsActive, ExecuteBB, BarrierBB);

// Signal start of parallel region.		// Signal start of parallel region.
CGF.EmitBlock(ExecuteBB);		CGF.EmitBlock(ExecuteBB);

		// Current context
		ASTContext &Ctx = CGF.getContext();

// Process work items: outlined parallel functions.		// Process work items: outlined parallel functions.
for (auto *W : Work) {		for (auto *W : Work) {
// Try to match this outlined function.		// Try to match this outlined function.
auto *ID = Bld.CreatePointerBitCastOrAddrSpaceCast(W, CGM.Int8PtrTy);		auto *ID = Bld.CreatePointerBitCastOrAddrSpaceCast(W, CGM.Int8PtrTy);

llvm::Value *WorkFnMatch =		llvm::Value *WorkFnMatch =
Bld.CreateICmpEQ(Bld.CreateLoad(WorkFn), ID, "work_match");		Bld.CreateICmpEQ(Bld.CreateLoad(WorkFn), ID, "work_match");

llvm::BasicBlock *ExecuteFNBB = CGF.createBasicBlock(".execute.fn");		llvm::BasicBlock *ExecuteFNBB = CGF.createBasicBlock(".execute.fn");
llvm::BasicBlock *CheckNextBB = CGF.createBasicBlock(".check.next");		llvm::BasicBlock *CheckNextBB = CGF.createBasicBlock(".check.next");
Bld.CreateCondBr(WorkFnMatch, ExecuteFNBB, CheckNextBB);		Bld.CreateCondBr(WorkFnMatch, ExecuteFNBB, CheckNextBB);

// Execute this outlined function.		// Execute this outlined function.
CGF.EmitBlock(ExecuteFNBB);		CGF.EmitBlock(ExecuteFNBB);

// Insert call to work function.		// Insert call to work function via shared wrapper. The shared
// FIXME: Pass arguments to outlined function from master thread.		// wrapper takes exactly three arguments:
auto *Fn = cast<llvm::Function>(W);		// - the parallelism level;
Address ZeroAddr =		// - the master thread ID;
CGF.CreateDefaultAlignTempAlloca(CGF.Int32Ty, /Name=/".zero.addr");		// - the list of references to shared arguments.
CGF.InitTempAlloca(ZeroAddr, CGF.Builder.getInt32(/C=/0));		//
llvm::Value *FnArgs[] = {ZeroAddr.getPointer(), ZeroAddr.getPointer()};		// TODO: Assert that the function is a wrapper function.s
emitCall(CGF, Fn, FnArgs);		Address Capture = CGF.EmitLoadOfPointer(SharedArgs,
		Ctx.getPointerType(
		Ctx.getPointerType(Ctx.VoidPtrTy)).castAs<PointerType>());
		emitCall(CGF, W, {Bld.getInt16(/ParallelLevel=/0),
		getMasterThreadID(CGF), Capture.getPointer()});

// Go to end of parallel region.		// Go to end of parallel region.
CGF.EmitBranch(TerminateBB);		CGF.EmitBranch(TerminateBB);

CGF.EmitBlock(CheckNextBB);		CGF.EmitBlock(CheckNextBB);
}		}

// Signal end of parallel region.		// Signal end of parallel region.
▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines	case OMPRTL_NVPTX__kmpc_spmd_kernel_deinit: {
// Build void __kmpc_spmd_kernel_deinit();		// Build void __kmpc_spmd_kernel_deinit();
llvm::FunctionType *FnTy =		llvm::FunctionType *FnTy =
llvm::FunctionType::get(CGM.VoidTy, llvm::None, /isVarArg/ false);		llvm::FunctionType::get(CGM.VoidTy, llvm::None, /isVarArg/ false);
RTLFn = CGM.CreateRuntimeFunction(FnTy, "__kmpc_spmd_kernel_deinit");		RTLFn = CGM.CreateRuntimeFunction(FnTy, "__kmpc_spmd_kernel_deinit");
break;		break;
}		}
case OMPRTL_NVPTX__kmpc_kernel_prepare_parallel: {		case OMPRTL_NVPTX__kmpc_kernel_prepare_parallel: {
/// Build void __kmpc_kernel_prepare_parallel(		/// Build void __kmpc_kernel_prepare_parallel(
/// void *outlined_function);		/// void outlined_function, void **args, kmp_int32 nArgs);
llvm::Type *TypeParams[] = {CGM.Int8PtrTy};		llvm::Type *TypeParams[] = {CGM.Int8PtrTy,
		CGM.Int8PtrPtrTy->getPointerTo(0), CGM.Int32Ty};
llvm::FunctionType *FnTy =		llvm::FunctionType *FnTy =
llvm::FunctionType::get(CGM.VoidTy, TypeParams, /isVarArg/ false);		llvm::FunctionType::get(CGM.VoidTy, TypeParams, /isVarArg/ false);
RTLFn = CGM.CreateRuntimeFunction(FnTy, "__kmpc_kernel_prepare_parallel");		RTLFn = CGM.CreateRuntimeFunction(FnTy, "__kmpc_kernel_prepare_parallel");
break;		break;
}		}
case OMPRTL_NVPTX__kmpc_kernel_parallel: {		case OMPRTL_NVPTX__kmpc_kernel_parallel: {
/// Build bool __kmpc_kernel_parallel(void **outlined_function);		/// Build bool __kmpc_kernel_parallel(void outlined_function, void *args);
llvm::Type *TypeParams[] = {CGM.Int8PtrPtrTy};		llvm::Type *TypeParams[] = {CGM.Int8PtrPtrTy,
		CGM.Int8PtrPtrTy->getPointerTo(0)};
llvm::Type *RetTy = CGM.getTypes().ConvertType(CGM.getContext().BoolTy);		llvm::Type *RetTy = CGM.getTypes().ConvertType(CGM.getContext().BoolTy);
llvm::FunctionType *FnTy =		llvm::FunctionType *FnTy =
llvm::FunctionType::get(RetTy, TypeParams, /isVarArg/ false);		llvm::FunctionType::get(RetTy, TypeParams, /isVarArg/ false);
RTLFn = CGM.CreateRuntimeFunction(FnTy, "__kmpc_kernel_parallel");		RTLFn = CGM.CreateRuntimeFunction(FnTy, "__kmpc_kernel_parallel");
break;		break;
}		}
case OMPRTL_NVPTX__kmpc_kernel_end_parallel: {		case OMPRTL_NVPTX__kmpc_kernel_end_parallel: {
/// Build void __kmpc_kernel_end_parallel();		/// Build void __kmpc_kernel_end_parallel();
▲ Show 20 Lines • Show All 202 Lines • ▼ Show 20 Lines
void CGOpenMPRuntimeNVPTX::emitNumTeamsClause(CodeGenFunction &CGF,		void CGOpenMPRuntimeNVPTX::emitNumTeamsClause(CodeGenFunction &CGF,
const Expr *NumTeams,		const Expr *NumTeams,
const Expr *ThreadLimit,		const Expr *ThreadLimit,
SourceLocation Loc) {}		SourceLocation Loc) {}

llvm::Value *CGOpenMPRuntimeNVPTX::emitParallelOutlinedFunction(		llvm::Value *CGOpenMPRuntimeNVPTX::emitParallelOutlinedFunction(
const OMPExecutableDirective &D, const VarDecl *ThreadIDVar,		const OMPExecutableDirective &D, const VarDecl *ThreadIDVar,
OpenMPDirectiveKind InnermostKind, const RegionCodeGenTy &CodeGen) {		OpenMPDirectiveKind InnermostKind, const RegionCodeGenTy &CodeGen) {
return CGOpenMPRuntime::emitParallelOutlinedFunction(D, ThreadIDVar,
InnermostKind, CodeGen);		auto *OutlinedFun = cast<llvm::Function>(
		CGOpenMPRuntime::emitParallelOutlinedFunction(
		D, ThreadIDVar, InnermostKind, CodeGen));
		if (!isInSpmdExecutionMode()) {
		llvm::Function *WrapperFun =
		createDataSharingWrapper(OutlinedFun, D);
		WrapperFunctionsMap[OutlinedFun] = WrapperFun;
		}

		return OutlinedFun;
}		}

llvm::Value *CGOpenMPRuntimeNVPTX::emitTeamsOutlinedFunction(		llvm::Value *CGOpenMPRuntimeNVPTX::emitTeamsOutlinedFunction(
const OMPExecutableDirective &D, const VarDecl *ThreadIDVar,		const OMPExecutableDirective &D, const VarDecl *ThreadIDVar,
OpenMPDirectiveKind InnermostKind, const RegionCodeGenTy &CodeGen) {		OpenMPDirectiveKind InnermostKind, const RegionCodeGenTy &CodeGen) {

llvm::Value *OutlinedFunVal = CGOpenMPRuntime::emitTeamsOutlinedFunction(		llvm::Value *OutlinedFunVal = CGOpenMPRuntime::emitTeamsOutlinedFunction(
D, ThreadIDVar, InnermostKind, CodeGen);		D, ThreadIDVar, InnermostKind, CodeGen);
Show All 35 Lines	void CGOpenMPRuntimeNVPTX::emitParallelCall(
else		else
emitGenericParallelCall(CGF, Loc, OutlinedFn, CapturedVars, IfCond);		emitGenericParallelCall(CGF, Loc, OutlinedFn, CapturedVars, IfCond);
}		}

void CGOpenMPRuntimeNVPTX::emitGenericParallelCall(		void CGOpenMPRuntimeNVPTX::emitGenericParallelCall(
CodeGenFunction &CGF, SourceLocation Loc, llvm::Value *OutlinedFn,		CodeGenFunction &CGF, SourceLocation Loc, llvm::Value *OutlinedFn,
ArrayRef<llvm::Value > CapturedVars, const Expr IfCond) {		ArrayRef<llvm::Value > CapturedVars, const Expr IfCond) {
llvm::Function *Fn = cast<llvm::Function>(OutlinedFn);		llvm::Function *Fn = cast<llvm::Function>(OutlinedFn);
		llvm::Function *WFn = WrapperFunctionsMap[Fn];
		assert(WFn && "Wrapper function does not exist!");

		// Force inline this outlined function at its call site.
		Fn->setLinkage(llvm::GlobalValue::InternalLinkage);

auto &&L0ParallelGen = [this, Fn](CodeGenFunction &CGF, PrePostActionTy &) {		auto &&L0ParallelGen = [this, WFn, &CapturedVars](CodeGenFunction &CGF,
		PrePostActionTy &) {
CGBuilderTy &Bld = CGF.Builder;		CGBuilderTy &Bld = CGF.Builder;

		llvm::Value *ID = Bld.CreateBitOrPointerCast(WFn, CGM.Int8PtrTy);

		if (!CapturedVars.empty()) {
// Prepare for parallel region. Indicate the outlined function.		// Prepare for parallel region. Indicate the outlined function.
llvm::Value *Args[] = {Bld.CreateBitOrPointerCast(Fn, CGM.Int8PtrTy)};		Address SharedArgs =
		CGF.CreateDefaultAlignTempAlloca(CGF.VoidPtrPtrTy,
		"shared_args");
		llvm::Value *SharedArgsPtr = SharedArgs.getPointer();
		llvm::Value *Args[] = {ID, SharedArgsPtr,
		Bld.getInt32(CapturedVars.size())};

CGF.EmitRuntimeCall(		CGF.EmitRuntimeCall(
createNVPTXRuntimeFunction(OMPRTL_NVPTX__kmpc_kernel_prepare_parallel),		createNVPTXRuntimeFunction(OMPRTL_NVPTX__kmpc_kernel_prepare_parallel),
Args);		Args);

		unsigned Idx = 0;
		ASTContext &Ctx = CGF.getContext();
		for (llvm::Value *V : CapturedVars) {
		Address Dst = Bld.CreateConstInBoundsGEP(
		CGF.EmitLoadOfPointer(SharedArgs,
		Ctx.getPointerType(
		Ctx.getPointerType(Ctx.VoidPtrTy)).castAs<PointerType>()),
		Idx, CGF.getPointerSize());
		llvm::Value *PtrV = Bld.CreateBitCast(V, CGF.VoidPtrTy);
		CGF.EmitStoreOfScalar(PtrV, Dst, /Volatile=/false,
		Ctx.getPointerType(Ctx.VoidPtrTy));
		Idx++;
		}
		} else {
		llvm::Value *Args[] = {ID,
		llvm::ConstantPointerNull::get(CGF.VoidPtrPtrTy->getPointerTo(0)),
		/nArgs=/Bld.getInt32(0)};
		CGF.EmitRuntimeCall(
		createNVPTXRuntimeFunction(OMPRTL_NVPTX__kmpc_kernel_prepare_parallel),
		Args);
		}

// Activate workers. This barrier is used by the master to signal		// Activate workers. This barrier is used by the master to signal
// work for the workers.		// work for the workers.
syncCTAThreads(CGF);		syncCTAThreads(CGF);

// OpenMP [2.5, Parallel Construct, p.49]		// OpenMP [2.5, Parallel Construct, p.49]
// There is an implied barrier at the end of a parallel region. After the		// There is an implied barrier at the end of a parallel region. After the
// end of a parallel region, only the master thread of the team resumes		// end of a parallel region, only the master thread of the team resumes
// execution of the enclosing task region.		// execution of the enclosing task region.
//		//
// The master waits at this barrier until all workers are done.		// The master waits at this barrier until all workers are done.
syncCTAThreads(CGF);		syncCTAThreads(CGF);

// Remember for post-processing in worker loop.		// Remember for post-processing in worker loop.
Work.push_back(Fn);		Work.emplace_back(WFn);
};		};

auto *RTLoc = emitUpdateLocation(CGF, Loc);		auto *RTLoc = emitUpdateLocation(CGF, Loc);
auto *ThreadID = getThreadID(CGF, Loc);		auto *ThreadID = getThreadID(CGF, Loc);
llvm::Value *Args[] = {RTLoc, ThreadID};		llvm::Value *Args[] = {RTLoc, ThreadID};

auto &&SeqGen = [this, Fn, &CapturedVars, &Args, Loc](CodeGenFunction &CGF,		auto &&SeqGen = [this, Fn, &CapturedVars, &Args, Loc](CodeGenFunction &CGF,
PrePostActionTy &) {		PrePostActionTy &) {
▲ Show 20 Lines • Show All 1,379 Lines • ▼ Show 20 Lines	for (unsigned I = 0, E = Args.size(); I < E; ++I) {
llvm::Value *TargetArg = CGF.Builder.CreatePointerBitCastOrAddrSpaceCast(		llvm::Value *TargetArg = CGF.Builder.CreatePointerBitCastOrAddrSpaceCast(
NativeArg, NativeArg->getType()->getPointerElementType()->getPointerTo(		NativeArg, NativeArg->getType()->getPointerElementType()->getPointerTo(
/AddrSpace=/0));		/AddrSpace=/0));
TargetArgs.emplace_back(		TargetArgs.emplace_back(
CGF.Builder.CreatePointerBitCastOrAddrSpaceCast(TargetArg, TargetType));		CGF.Builder.CreatePointerBitCastOrAddrSpaceCast(TargetArg, TargetType));
}		}
CGOpenMPRuntime::emitOutlinedFunctionCall(CGF, Loc, OutlinedFn, TargetArgs);		CGOpenMPRuntime::emitOutlinedFunctionCall(CGF, Loc, OutlinedFn, TargetArgs);
}		}

		/// Emit the code that each thread requires to execute when it encounters
		/// one of the three possible parallelism levels. This also emits the required
		/// data sharing code for each level.
		static void emitParallelismLevelCode(
		CodeGenFunction &CGF) {
		llvm::BasicBlock *AfterBB = CGF.createBasicBlock(".after.parallel");

		// Emit L0 code
		llvm::BasicBlock *LBB = CGF.createBasicBlock(".level0.parallel");
		llvm::BasicBlock *NextBB = nullptr;

		CGF.EmitBlock(LBB);

		// Level0(CGF);
		HahnfeldUnsubmitted Done Reply Inline Actions Is this meant to be a comment or should there be something happening here? Hahnfeld: Is this meant to be a comment or should there be something happening here?

		CGF.EmitBranch(AfterBB);
		if (NextBB)
		HahnfeldUnsubmitted Done Reply Inline Actions Especially, `NextBB` can never be anything else than `nullptr`... Hahnfeld: Especially, `NextBB` can never be anything else than `nullptr`...
		CGF.EmitBlock(NextBB);

		CGF.EmitBlock(AfterBB);
		}

		/// Emit function which wraps the outline parallel region
		/// and controls the arguments which are passed to this function.
		/// The wrapper ensures that the outlined function is called
		/// with the correct arguments when data is shared.
		llvm::Function *CGOpenMPRuntimeNVPTX::createDataSharingWrapper(
		llvm::Function *OutlinedParallelFn, const OMPExecutableDirective &D) {
		ASTContext &Ctx = CGM.getContext();
		const auto &CS = *cast<CapturedStmt>(D.getAssociatedStmt());

		// Create a function that takes as argument the source thread.
		FunctionArgList WrapperArgs;
		QualType Int16QTy =
		Ctx.getIntTypeForBitwidth(/DestWidth=/16, /Signed=/false);
		QualType Int32QTy =
		Ctx.getIntTypeForBitwidth(/DestWidth=/32, /Signed=/false);
		QualType Int32PtrQTy = Ctx.getPointerType(Int32QTy);
		QualType VoidPtrPtrQTy = Ctx.getPointerType(Ctx.VoidPtrTy);
		ImplicitParamDecl ParallelLevelArg(Ctx, Int16QTy, ImplicitParamDecl::Other);
		ImplicitParamDecl WrapperArg(Ctx, Int32QTy, ImplicitParamDecl::Other);
		ImplicitParamDecl SharedArgsList(Ctx, VoidPtrPtrQTy,
		ImplicitParamDecl::Other);
		WrapperArgs.emplace_back(&ParallelLevelArg);
		WrapperArgs.emplace_back(&WrapperArg);
		WrapperArgs.emplace_back(&SharedArgsList);

		auto &CGFI =
		CGM.getTypes().arrangeBuiltinFunctionDeclaration(Ctx.VoidTy, WrapperArgs);

		auto *Fn = llvm::Function::Create(
		CGM.getTypes().GetFunctionType(CGFI), llvm::GlobalValue::InternalLinkage,
		OutlinedParallelFn->getName() + "_wrapper", &CGM.getModule());
		CGM.SetInternalFunctionAttributes(/D=/nullptr, Fn, CGFI);
		Fn->setLinkage(llvm::GlobalValue::InternalLinkage);

		CodeGenFunction CGF(CGM, /suppressNewContext=/true);
		CGF.StartFunction(GlobalDecl(), Ctx.VoidTy, Fn, CGFI, WrapperArgs);

		const auto *RD = CS.getCapturedRecordDecl();
		auto CurField = RD->field_begin();

		// Emit code which performas the data sharing.
		emitParallelismLevelCode(CGF);

		// Get the array of arguments.
		SmallVector<llvm::Value *, 8> Args;

		// TODO: suppport SIMD and pass actual values
		Args.emplace_back(llvm::ConstantPointerNull::get(
		CGM.Int32Ty->getPointerTo()));
		Args.emplace_back(llvm::ConstantPointerNull::get(
		CGM.Int32Ty->getPointerTo()));

		CGBuilderTy &Bld = CGF.Builder;
		auto CI = CS.capture_begin();

		// Load the start of the array
		auto SharedArgs =
		CGF.EmitLoadOfPointer(CGF.GetAddrOfLocalVar(&SharedArgsList),
		VoidPtrPtrQTy->castAs<PointerType>());

		// For each captured variable
		for (unsigned I = 0; I < CS.capture_size(); ++I, ++CI, ++CurField) {
		// Name of captured variable
		StringRef Name;
		if (CI->capturesThis())
		Name = "this";
		else
		Name = CI->getCapturedVar()->getName();

		// We retrieve the CLANG type of the argument. We use it to create
		// an alloca which will give us the LLVM type.
		QualType ElemTy = CurField->getType();
		// If this is a capture by copy the element type has to be the pointer to
		// the data.
		if (CI->capturesVariableByCopy())
		ElemTy = Ctx.getPointerType(ElemTy);

		// Get shared address of the captured variable.
		Address ArgAddress = Bld.CreateConstInBoundsGEP(
		SharedArgs, I, CGF.getPointerSize());
		Address TypedArgAddress = Bld.CreateBitCast(
		ArgAddress, CGF.ConvertTypeForMem(Ctx.getPointerType(ElemTy)));
		llvm::Value *Arg = CGF.EmitLoadOfScalar(TypedArgAddress,
		/Volatile=/false, Int32PtrQTy, SourceLocation());
		Args.emplace_back(Arg);
		}

		emitCall(CGF, OutlinedParallelFn, Args);
		CGF.FinishFunction();
		return Fn;
		}

test/OpenMP/nvptx_data_sharing.cpp

This file was added.

				// Test device data sharing codegen.
				///==========================================================================///

				// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
				// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CK1

				// expected-no-diagnostics

				#ifndef HEADER
				#define HEADER

				void test_ds(){
				#pragma omp target
				{
				int a = 10;
				#pragma omp parallel
				{
				a = 1000;
				}
				}
				}

				/// ========= In the worker function ========= ///

				// CK1: define internal void @__omp_offloading_{{.}}test_ds{{.}}worker(){{.*}}{
				// CK1: [[SHAREDARGS:%.+]] = alloca i8**
				// CK1: call i1 @__kmpc_kernel_parallel(i8 %work_fn, i8* [[SHAREDARGS]])
				// CK1: [[SHARGSTMP:%.+]] = load i8, i8* [[SHAREDARGS]]
				// CK1: call void @__omp_outlined___wrapper{{.}}({{.}}, i8** %5)

				/// ========= In the kernel function ========= ///

				// CK1: {{.}}define void @__omp_offloading{{.}}test_ds{{.*}}()
				// CK1: [[SHAREDARGS1:%.+]] = alloca i8**
				// CK1: call void @__kmpc_kernel_prepare_parallel({{.}}, i8** [[SHAREDARGS1]], i32 1)
				// CK1: [[SHARGSTMP1:%.+]] = load i8, i8* [[SHAREDARGS1]]
				// CK1: [[SHARGSTMP2:%.+]] = getelementptr inbounds i8, i8* [[SHARGSTMP1]]
				// CK1: [[SHAREDVAR:%.+]] = bitcast i32* {{.}} to i8
				// CK1: store i8* [[SHAREDVAR]], i8** [[SHARGSTMP2]]

				/// ========= In the data sharing wrapper function ========= ///

				// CK1: {{.}}define internal void @__omp_outlined___wrapper({{.}}i8*){{.}}{
				// CK1: [[SHAREDARGS2:%.+]] = alloca i8**
				// CK1: store i8 %2, i8* [[SHAREDARGS2]]
				// CK1: [[SHARGSTMP3:%.+]] = load i8, i8* [[SHAREDARGS2]]
				// CK1: [[SHARGSTMP4:%.+]] = getelementptr inbounds i8, i8* [[SHARGSTMP3]]
				// CK1: [[SHARGSTMP5:%.+]] = bitcast i8 [[SHARGSTMP4]] to i32
				// CK1: [[SHARGSTMP6:%.+]] = load i32, i32* [[SHARGSTMP5]]
				// CK1: call void @__omp_outlined__({{.}}, i32 [[SHARGSTMP6]])

				#endif
				No newline at end of file

test/OpenMP/nvptx_parallel_codegen.cpp

Show First 20 Lines • Show All 72 Lines • ▼ Show 20 Lines	int bar(int n){
// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,		// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,
// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,		// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,
// CHECK: store i8* null, i8** [[OMP_WORK_FN]],		// CHECK: store i8* null, i8** [[OMP_WORK_FN]],
// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],		// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],
// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]		// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]
//		//
// CHECK: [[AWAIT_WORK]]		// CHECK: [[AWAIT_WORK]]
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
// CHECK: [[KPR:%.+]] = call i1 @__kmpc_kernel_parallel(i8** [[OMP_WORK_FN]])		// CHECK: [[KPR:%.+]] = call i1 @__kmpc_kernel_parallel(i8** [[OMP_WORK_FN]],
// CHECK: [[KPRB:%.+]] = zext i1 [[KPR]] to i8		// CHECK: [[KPRB:%.+]] = zext i1 [[KPR]] to i8
// store i8 [[KPRB]], i8* [[OMP_EXEC_STATUS]], align 1		// store i8 [[KPRB]], i8* [[OMP_EXEC_STATUS]], align 1
// CHECK: [[WORK:%.+]] = load i8, i8* [[OMP_WORK_FN]],		// CHECK: [[WORK:%.+]] = load i8, i8* [[OMP_WORK_FN]],
// CHECK: [[SHOULD_EXIT:%.+]] = icmp eq i8* [[WORK]], null		// CHECK: [[SHOULD_EXIT:%.+]] = icmp eq i8* [[WORK]], null
// CHECK: br i1 [[SHOULD_EXIT]], label {{%?}}[[EXIT:.+]], label {{%?}}[[SEL_WORKERS:.+]]		// CHECK: br i1 [[SHOULD_EXIT]], label {{%?}}[[EXIT:.+]], label {{%?}}[[SEL_WORKERS:.+]]
//		//
// CHECK: [[SEL_WORKERS]]		// CHECK: [[SEL_WORKERS]]
// CHECK: [[ST:%.+]] = load i8, i8* [[OMP_EXEC_STATUS]]		// CHECK: [[ST:%.+]] = load i8, i8* [[OMP_EXEC_STATUS]]
// CHECK: [[IS_ACTIVE:%.+]] = icmp ne i8 [[ST]], 0		// CHECK: [[IS_ACTIVE:%.+]] = icmp ne i8 [[ST]], 0
// CHECK: br i1 [[IS_ACTIVE]], label {{%?}}[[EXEC_PARALLEL:.+]], label {{%?}}[[BAR_PARALLEL:.+]]		// CHECK: br i1 [[IS_ACTIVE]], label {{%?}}[[EXEC_PARALLEL:.+]], label {{%?}}[[BAR_PARALLEL:.+]]
//		//
// CHECK: [[EXEC_PARALLEL]]		// CHECK: [[EXEC_PARALLEL]]
// CHECK: [[WF1:%.+]] = load i8, i8* [[OMP_WORK_FN]],		// CHECK: [[WF1:%.+]] = load i8, i8* [[OMP_WORK_FN]],
// CHECK: [[WM1:%.+]] = icmp eq i8* [[WF1]], bitcast (void (i32, i32)* [[PARALLEL_FN1:@.+]] to i8*)		// CHECK: [[WM1:%.+]] = icmp eq i8* [[WF1]], bitcast (void (i16, i32, i8*) [[PARALLEL_FN1:@.+]]_wrapper to i8*)
// CHECK: br i1 [[WM1]], label {{%?}}[[EXEC_PFN1:.+]], label {{%?}}[[CHECK_NEXT1:.+]]		// CHECK: br i1 [[WM1]], label {{%?}}[[EXEC_PFN1:.+]], label {{%?}}[[CHECK_NEXT1:.+]]
//		//
// CHECK: [[EXEC_PFN1]]		// CHECK: [[EXEC_PFN1]]
// CHECK: call void [[PARALLEL_FN1]](		// CHECK: call void [[PARALLEL_FN1]]_wrapper(
// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]		// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]
//		//
// CHECK: [[CHECK_NEXT1]]		// CHECK: [[CHECK_NEXT1]]
// CHECK: [[WF2:%.+]] = load i8, i8* [[OMP_WORK_FN]],		// CHECK: [[WF2:%.+]] = load i8, i8* [[OMP_WORK_FN]],
// CHECK: [[WM2:%.+]] = icmp eq i8* [[WF2]], bitcast (void (i32, i32)* [[PARALLEL_FN2:@.+]] to i8*)		// CHECK: [[WM2:%.+]] = icmp eq i8* [[WF2]], bitcast (void (i16, i32, i8*) [[PARALLEL_FN2:@.+]]_wrapper to i8*)
// CHECK: br i1 [[WM2]], label {{%?}}[[EXEC_PFN2:.+]], label {{%?}}[[CHECK_NEXT2:.+]]		// CHECK: br i1 [[WM2]], label {{%?}}[[EXEC_PFN2:.+]], label {{%?}}[[CHECK_NEXT2:.+]]
//		//
// CHECK: [[EXEC_PFN2]]		// CHECK: [[EXEC_PFN2]]
// CHECK: call void [[PARALLEL_FN2]](		// CHECK: call void [[PARALLEL_FN2]]_wrapper(
// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]		// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]
//		//
// CHECK: [[CHECK_NEXT2]]		// CHECK: [[CHECK_NEXT2]]
// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]		// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]
//		//
// CHECK: [[TERM_PARALLEL]]		// CHECK: [[TERM_PARALLEL]]
// CHECK: call void @__kmpc_kernel_end_parallel()		// CHECK: call void @__kmpc_kernel_end_parallel()
// CHECK: br label {{%?}}[[BAR_PARALLEL]]		// CHECK: br label {{%?}}[[BAR_PARALLEL]]
Show All 30 Lines	int bar(int n){
// CHECK: [[IS_MASTER:%.+]] = icmp eq i32 [[CMTID]],		// CHECK: [[IS_MASTER:%.+]] = icmp eq i32 [[CMTID]],
// CHECK: br i1 [[IS_MASTER]], label {{%?}}[[MASTER:.+]], label {{%?}}[[EXIT]]		// CHECK: br i1 [[IS_MASTER]], label {{%?}}[[MASTER:.+]], label {{%?}}[[EXIT]]
//		//
// CHECK: [[MASTER]]		// CHECK: [[MASTER]]
// CHECK-DAG: [[MNTH:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()		// CHECK-DAG: [[MNTH:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
// CHECK-DAG: [[MWS:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()		// CHECK-DAG: [[MWS:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
// CHECK: [[MTMP1:%.+]] = sub i32 [[MNTH]], [[MWS]]		// CHECK: [[MTMP1:%.+]] = sub i32 [[MNTH]], [[MWS]]
// CHECK: call void @__kmpc_kernel_init(i32 [[MTMP1]]		// CHECK: call void @__kmpc_kernel_init(i32 [[MTMP1]]
// CHECK: call void @__kmpc_kernel_prepare_parallel(i8* bitcast (void (i32, i32)* [[PARALLEL_FN1]] to i8*))		// CHECK: call void @__kmpc_kernel_prepare_parallel(i8* bitcast (void (i16, i32, i8*) [[PARALLEL_FN1]]_wrapper to i8*),
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
// CHECK: call void @__kmpc_serialized_parallel(		// CHECK: call void @__kmpc_serialized_parallel(
// CHECK: {{call\|invoke}} void [[PARALLEL_FN3:@.+]](		// CHECK: {{call\|invoke}} void [[PARALLEL_FN3:@.+]](
// CHECK: call void @__kmpc_end_serialized_parallel(		// CHECK: call void @__kmpc_end_serialized_parallel(
// CHECK: call void @__kmpc_kernel_prepare_parallel(i8* bitcast (void (i32, i32)* [[PARALLEL_FN2]] to i8*))		// CHECK: call void @__kmpc_kernel_prepare_parallel(i8* bitcast (void (i16, i32, i8*) [[PARALLEL_FN2]]_wrapper to i8*),
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
// CHECK-64-DAG: load i32, i32* [[REF_A]]		// CHECK-64-DAG: load i32, i32* [[REF_A]]
// CHECK-32-DAG: load i32, i32* [[LOCAL_A]]		// CHECK-32-DAG: load i32, i32* [[LOCAL_A]]
// CHECK: br label {{%?}}[[TERMINATE:.+]]		// CHECK: br label {{%?}}[[TERMINATE:.+]]
//		//
// CHECK: [[TERMINATE]]		// CHECK: [[TERMINATE]]
// CHECK: call void @__kmpc_kernel_deinit()		// CHECK: call void @__kmpc_kernel_deinit()
Show All 28 Lines	int bar(int n){
// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,		// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,
// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,		// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,
// CHECK: store i8* null, i8** [[OMP_WORK_FN]],		// CHECK: store i8* null, i8** [[OMP_WORK_FN]],
// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],		// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],
// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]		// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]
//		//
// CHECK: [[AWAIT_WORK]]		// CHECK: [[AWAIT_WORK]]
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
// CHECK: [[KPR:%.+]] = call i1 @__kmpc_kernel_parallel(i8** [[OMP_WORK_FN]])		// CHECK: [[KPR:%.+]] = call i1 @__kmpc_kernel_parallel(i8** [[OMP_WORK_FN]],
// CHECK: [[KPRB:%.+]] = zext i1 [[KPR]] to i8		// CHECK: [[KPRB:%.+]] = zext i1 [[KPR]] to i8
// store i8 [[KPRB]], i8* [[OMP_EXEC_STATUS]], align 1		// store i8 [[KPRB]], i8* [[OMP_EXEC_STATUS]], align 1
// CHECK: [[WORK:%.+]] = load i8, i8* [[OMP_WORK_FN]],		// CHECK: [[WORK:%.+]] = load i8, i8* [[OMP_WORK_FN]],
// CHECK: [[SHOULD_EXIT:%.+]] = icmp eq i8* [[WORK]], null		// CHECK: [[SHOULD_EXIT:%.+]] = icmp eq i8* [[WORK]], null
// CHECK: br i1 [[SHOULD_EXIT]], label {{%?}}[[EXIT:.+]], label {{%?}}[[SEL_WORKERS:.+]]		// CHECK: br i1 [[SHOULD_EXIT]], label {{%?}}[[EXIT:.+]], label {{%?}}[[SEL_WORKERS:.+]]
//		//
// CHECK: [[SEL_WORKERS]]		// CHECK: [[SEL_WORKERS]]
// CHECK: [[ST:%.+]] = load i8, i8* [[OMP_EXEC_STATUS]]		// CHECK: [[ST:%.+]] = load i8, i8* [[OMP_EXEC_STATUS]]
// CHECK: [[IS_ACTIVE:%.+]] = icmp ne i8 [[ST]], 0		// CHECK: [[IS_ACTIVE:%.+]] = icmp ne i8 [[ST]], 0
// CHECK: br i1 [[IS_ACTIVE]], label {{%?}}[[EXEC_PARALLEL:.+]], label {{%?}}[[BAR_PARALLEL:.+]]		// CHECK: br i1 [[IS_ACTIVE]], label {{%?}}[[EXEC_PARALLEL:.+]], label {{%?}}[[BAR_PARALLEL:.+]]
//		//
// CHECK: [[EXEC_PARALLEL]]		// CHECK: [[EXEC_PARALLEL]]
// CHECK: [[WF:%.+]] = load i8, i8* [[OMP_WORK_FN]],		// CHECK: [[WF:%.+]] = load i8, i8* [[OMP_WORK_FN]],
// CHECK: [[WM:%.+]] = icmp eq i8* [[WF]], bitcast (void (i32, i32)* [[PARALLEL_FN4:@.+]] to i8*)		// CHECK: [[WM:%.+]] = icmp eq i8* [[WF]], bitcast (void (i16, i32, i8*) [[PARALLEL_FN4:@.+]]_wrapper to i8*)
// CHECK: br i1 [[WM]], label {{%?}}[[EXEC_PFN:.+]], label {{%?}}[[CHECK_NEXT:.+]]		// CHECK: br i1 [[WM]], label {{%?}}[[EXEC_PFN:.+]], label {{%?}}[[CHECK_NEXT:.+]]
//		//
// CHECK: [[EXEC_PFN]]		// CHECK: [[EXEC_PFN]]
// CHECK: call void [[PARALLEL_FN4]](		// CHECK: call void [[PARALLEL_FN4]]_wrapper(
// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]		// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]
//		//
// CHECK: [[CHECK_NEXT]]		// CHECK: [[CHECK_NEXT]]
// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]		// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]
//		//
// CHECK: [[TERM_PARALLEL]]		// CHECK: [[TERM_PARALLEL]]
// CHECK: call void @__kmpc_kernel_end_parallel()		// CHECK: call void @__kmpc_kernel_end_parallel()
// CHECK: br label {{%?}}[[BAR_PARALLEL]]		// CHECK: br label {{%?}}[[BAR_PARALLEL]]
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	int bar(int n){
// CHECK: [[MTMP1:%.+]] = sub i32 [[MNTH]], [[MWS]]		// CHECK: [[MTMP1:%.+]] = sub i32 [[MNTH]], [[MWS]]
// CHECK: call void @__kmpc_kernel_init(i32 [[MTMP1]]		// CHECK: call void @__kmpc_kernel_init(i32 [[MTMP1]]
// CHECK-64: [[N:%.+]] = load i32, i32* [[REF_N]],		// CHECK-64: [[N:%.+]] = load i32, i32* [[REF_N]],
// CHECK-32: [[N:%.+]] = load i32, i32* [[LOCAL_N]],		// CHECK-32: [[N:%.+]] = load i32, i32* [[LOCAL_N]],
// CHECK: [[CMP:%.+]] = icmp sgt i32 [[N]], 1000		// CHECK: [[CMP:%.+]] = icmp sgt i32 [[N]], 1000
// CHECK: br i1 [[CMP]], label {{%?}}[[IF_THEN:.+]], label {{%?}}[[IF_ELSE:.+]]		// CHECK: br i1 [[CMP]], label {{%?}}[[IF_THEN:.+]], label {{%?}}[[IF_ELSE:.+]]
//		//
// CHECK: [[IF_THEN]]		// CHECK: [[IF_THEN]]
// CHECK: call void @__kmpc_kernel_prepare_parallel(i8* bitcast (void (i32, i32)* [[PARALLEL_FN4]] to i8*))		// CHECK: call void @__kmpc_kernel_prepare_parallel(i8* bitcast (void (i16, i32, i8*) [[PARALLEL_FN4]]_wrapper to i8*),
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
// CHECK: br label {{%?}}[[IF_END:.+]]		// CHECK: br label {{%?}}[[IF_END:.+]]
//		//
// CHECK: [[IF_ELSE]]		// CHECK: [[IF_ELSE]]
// CHECK: call void @__kmpc_serialized_parallel(		// CHECK: call void @__kmpc_serialized_parallel(
// CHECK: {{call\|invoke}} void [[PARALLEL_FN4]](		// CHECK: {{call\|invoke}} void [[PARALLEL_FN4]](
// CHECK: call void @__kmpc_end_serialized_parallel(		// CHECK: call void @__kmpc_end_serialized_parallel(
Show All 23 Lines

test/OpenMP/nvptx_target_teams_codegen.cpp

Show First 20 Lines • Show All 54 Lines • ▼ Show 20 Lines	int bar(int n){
// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,		// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,
// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,		// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,
// CHECK: store i8* null, i8** [[OMP_WORK_FN]],		// CHECK: store i8* null, i8** [[OMP_WORK_FN]],
// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],		// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],
// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]		// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]
//		//
// CHECK: [[AWAIT_WORK]]		// CHECK: [[AWAIT_WORK]]
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
// CHECK: [[KPR:%.+]] = call i1 @__kmpc_kernel_parallel(i8** [[OMP_WORK_FN]])		// CHECK: [[KPR:%.+]] = call i1 @__kmpc_kernel_parallel(i8 [[OMP_WORK_FN]], i8* %shared_args)
// CHECK: [[KPRB:%.+]] = zext i1 [[KPR]] to i8		// CHECK: [[KPRB:%.+]] = zext i1 [[KPR]] to i8
// store i8 [[KPRB]], i8* [[OMP_EXEC_STATUS]], align 1		// store i8 [[KPRB]], i8* [[OMP_EXEC_STATUS]], align 1
// CHECK: [[WORK:%.+]] = load i8, i8* [[OMP_WORK_FN]],		// CHECK: [[WORK:%.+]] = load i8, i8* [[OMP_WORK_FN]],
// CHECK: [[SHOULD_EXIT:%.+]] = icmp eq i8* [[WORK]], null		// CHECK: [[SHOULD_EXIT:%.+]] = icmp eq i8* [[WORK]], null
// CHECK: br i1 [[SHOULD_EXIT]], label {{%?}}[[EXIT:.+]], label {{%?}}[[SEL_WORKERS:.+]]		// CHECK: br i1 [[SHOULD_EXIT]], label {{%?}}[[EXIT:.+]], label {{%?}}[[SEL_WORKERS:.+]]
//		//
// CHECK: [[SEL_WORKERS]]		// CHECK: [[SEL_WORKERS]]
// CHECK: [[ST:%.+]] = load i8, i8* [[OMP_EXEC_STATUS]]		// CHECK: [[ST:%.+]] = load i8, i8* [[OMP_EXEC_STATUS]]
▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines	int bar(int n){
// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,		// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,
// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,		// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,
// CHECK: store i8* null, i8** [[OMP_WORK_FN]],		// CHECK: store i8* null, i8** [[OMP_WORK_FN]],
// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],		// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],
// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]		// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]
//		//
// CHECK: [[AWAIT_WORK]]		// CHECK: [[AWAIT_WORK]]
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
// CHECK: [[KPR:%.+]] = call i1 @__kmpc_kernel_parallel(i8** [[OMP_WORK_FN]])		// CHECK: [[KPR:%.+]] = call i1 @__kmpc_kernel_parallel(i8 [[OMP_WORK_FN]], i8* %shared_args)
// CHECK: [[KPRB:%.+]] = zext i1 [[KPR]] to i8		// CHECK: [[KPRB:%.+]] = zext i1 [[KPR]] to i8
// store i8 [[KPRB]], i8* [[OMP_EXEC_STATUS]], align 1		// store i8 [[KPRB]], i8* [[OMP_EXEC_STATUS]], align 1
// CHECK: [[WORK:%.+]] = load i8, i8* [[OMP_WORK_FN]],		// CHECK: [[WORK:%.+]] = load i8, i8* [[OMP_WORK_FN]],
// CHECK: [[SHOULD_EXIT:%.+]] = icmp eq i8* [[WORK]], null		// CHECK: [[SHOULD_EXIT:%.+]] = icmp eq i8* [[WORK]], null
// CHECK: br i1 [[SHOULD_EXIT]], label {{%?}}[[EXIT:.+]], label {{%?}}[[SEL_WORKERS:.+]]		// CHECK: br i1 [[SHOULD_EXIT]], label {{%?}}[[EXIT:.+]], label {{%?}}[[SEL_WORKERS:.+]]
//		//
// CHECK: [[SEL_WORKERS]]		// CHECK: [[SEL_WORKERS]]
// CHECK: [[ST:%.+]] = load i8, i8* [[OMP_EXEC_STATUS]]		// CHECK: [[ST:%.+]] = load i8, i8* [[OMP_EXEC_STATUS]]
▲ Show 20 Lines • Show All 65 Lines • Show Last 20 Lines