This is an archive of the discontinued LLVM Phabricator instance.

I do not understand why we need the flag. As far as I can tell, it has to be on to support the standard described behavior, right? Why should we (allow to) turn it off?

In D82324#2111953, @jdoerfert wrote:

I do not understand why we need the flag. As far as I can tell, it has to be on to support the standard described behavior, right? Why should we (allow to) turn it off?

It might use "slow" allocation functions, in general, since it may use malloc on the device side. Being disabled, it uses statically preallocated memory, which might be faster, if parallel target regions are not required.

Let me rephrase. Does the user needs to request the fast path or the user needs to request the slow but correct path? Only the former is acceptable IMHO.

In D82324#2112388, @jdoerfert wrote:

Let me rephrase. Does the user needs to request the fast path or the user needs to request the slow but correct path? Only the former is acceptable IMHO.

By default, the universal, but slower option is enabled. If the user is sure that there is no parallel target regions in his code, he can compile with fno-openmp-cuda-parallel-target-regions to get better performance. I.e. fopenmp-cuda-parallel-target-regions is enabled by default (slow, but reliable).

clang/lib/Driver/ToolChains/Clang.cpp
5264	The slow but reliable option is enabled by default here.

LGTM. Thanks for the explanation.

This revision is now accepted and ready to land.Jun 24 2020, 1:07 PM

Closed by commit rG32ea3397bec8: [OPENMP]Dynamic globalization for parallel target regions. (authored by ABataev). · Explain WhyJun 25 2020, 5:47 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

clang/

include/

clang/

Basic/

LangOptions.def

1 line

Driver/

Options.td

6 lines

lib/

CodeGen/

CGOpenMPRuntimeNVPTX.cpp

28 lines

Driver/

ToolChains/

Clang.cpp

7 lines

Frontend/

CompilerInvocation.cpp

6 lines

test/

OpenMP/

nvptx_data_sharing.cpp

29 lines

nvptx_distribute_parallel_generic_mode_codegen.cpp

41 lines

nvptx_parallel_codegen.cpp

49 lines

nvptx_parallel_for_codegen.cpp

35 lines

nvptx_target_teams_distribute_codegen.cpp

34 lines

nvptx_target_teams_distribute_parallel_for_codegen.cpp

56 lines

nvptx_target_teams_distribute_parallel_for_simd_codegen.cpp

45 lines

nvptx_teams_codegen.cpp

84 lines

nvptx_teams_reduction_codegen.cpp

39 lines

Diff 273315

clang/include/clang/Basic/LangOptions.def

	Show First 20 Lines • Show All 225 Lines • ▼ Show 20 Lines
	LANGOPT(OpenMPIsDevice , 1, 0, "Generate code only for OpenMP target device")			LANGOPT(OpenMPIsDevice , 1, 0, "Generate code only for OpenMP target device")
	LANGOPT(OpenMPCUDAMode , 1, 0, "Generate code for OpenMP pragmas in SIMT/SPMD mode")			LANGOPT(OpenMPCUDAMode , 1, 0, "Generate code for OpenMP pragmas in SIMT/SPMD mode")
	LANGOPT(OpenMPIRBuilder , 1, 0, "Use the experimental OpenMP-IR-Builder codegen path.")			LANGOPT(OpenMPIRBuilder , 1, 0, "Use the experimental OpenMP-IR-Builder codegen path.")
	LANGOPT(OpenMPCUDAForceFullRuntime , 1, 0, "Force to use full runtime in all constructs when offloading to CUDA devices")			LANGOPT(OpenMPCUDAForceFullRuntime , 1, 0, "Force to use full runtime in all constructs when offloading to CUDA devices")
	LANGOPT(OpenMPCUDANumSMs , 32, 0, "Number of SMs for CUDA devices.")			LANGOPT(OpenMPCUDANumSMs , 32, 0, "Number of SMs for CUDA devices.")
	LANGOPT(OpenMPCUDABlocksPerSM , 32, 0, "Number of blocks per SM for CUDA devices.")			LANGOPT(OpenMPCUDABlocksPerSM , 32, 0, "Number of blocks per SM for CUDA devices.")
	LANGOPT(OpenMPCUDAReductionBufNum , 32, 1024, "Number of the reduction records in the intermediate reduction buffer used for the teams reductions.")			LANGOPT(OpenMPCUDAReductionBufNum , 32, 1024, "Number of the reduction records in the intermediate reduction buffer used for the teams reductions.")
	LANGOPT(OpenMPOptimisticCollapse , 1, 0, "Use at most 32 bits to represent the collapsed loop nest counter.")			LANGOPT(OpenMPOptimisticCollapse , 1, 0, "Use at most 32 bits to represent the collapsed loop nest counter.")
				LANGOPT(OpenMPCUDATargetParallel, 1, 0, "Support parallel execution of target region on Cuda-based devices.")
	LANGOPT(RenderScript , 1, 0, "RenderScript")			LANGOPT(RenderScript , 1, 0, "RenderScript")

	LANGOPT(CUDAIsDevice , 1, 0, "compiling for CUDA device")			LANGOPT(CUDAIsDevice , 1, 0, "compiling for CUDA device")
	LANGOPT(CUDAAllowVariadicFunctions, 1, 0, "allowing variadic functions in CUDA device code")			LANGOPT(CUDAAllowVariadicFunctions, 1, 0, "allowing variadic functions in CUDA device code")
	LANGOPT(CUDAHostDeviceConstexpr, 1, 1, "treating unattributed constexpr functions as __host__ __device__")			LANGOPT(CUDAHostDeviceConstexpr, 1, 1, "treating unattributed constexpr functions as __host__ __device__")
	LANGOPT(CUDADeviceApproxTranscendentals, 1, 0, "using approximate transcendental functions")			LANGOPT(CUDADeviceApproxTranscendentals, 1, 0, "using approximate transcendental functions")
	LANGOPT(GPURelocatableDeviceCode, 1, 0, "generate relocatable device code")			LANGOPT(GPURelocatableDeviceCode, 1, 0, "generate relocatable device code")
	LANGOPT(GPUAllowDeviceInit, 1, 0, "allowing device side global init functions for HIP")			LANGOPT(GPUAllowDeviceInit, 1, 0, "allowing device side global init functions for HIP")
	▲ Show 20 Lines • Show All 150 Lines • Show Last 20 Lines

clang/include/clang/Driver/Options.td

	Show First 20 Lines • Show All 1,681 Lines • ▼ Show 20 Lines
	def fopenmp_cuda_blocks_per_sm_EQ : Joined<["-"], "fopenmp-cuda-blocks-per-sm=">, Group<f_Group>,			def fopenmp_cuda_blocks_per_sm_EQ : Joined<["-"], "fopenmp-cuda-blocks-per-sm=">, Group<f_Group>,
	Flags<[CC1Option, NoArgumentUnused, HelpHidden]>;			Flags<[CC1Option, NoArgumentUnused, HelpHidden]>;
	def fopenmp_cuda_teams_reduction_recs_num_EQ : Joined<["-"], "fopenmp-cuda-teams-reduction-recs-num=">, Group<f_Group>,			def fopenmp_cuda_teams_reduction_recs_num_EQ : Joined<["-"], "fopenmp-cuda-teams-reduction-recs-num=">, Group<f_Group>,
	Flags<[CC1Option, NoArgumentUnused, HelpHidden]>;			Flags<[CC1Option, NoArgumentUnused, HelpHidden]>;
	def fopenmp_optimistic_collapse : Flag<["-"], "fopenmp-optimistic-collapse">, Group<f_Group>,			def fopenmp_optimistic_collapse : Flag<["-"], "fopenmp-optimistic-collapse">, Group<f_Group>,
	Flags<[CC1Option, NoArgumentUnused, HelpHidden]>;			Flags<[CC1Option, NoArgumentUnused, HelpHidden]>;
	def fno_openmp_optimistic_collapse : Flag<["-"], "fno-openmp-optimistic-collapse">, Group<f_Group>,			def fno_openmp_optimistic_collapse : Flag<["-"], "fno-openmp-optimistic-collapse">, Group<f_Group>,
	Flags<[NoArgumentUnused, HelpHidden]>;			Flags<[NoArgumentUnused, HelpHidden]>;
				def fopenmp_cuda_parallel_target_regions : Flag<["-"], "fopenmp-cuda-parallel-target-regions">, Group<f_Group>,
				Flags<[CC1Option, NoArgumentUnused, HelpHidden]>,
				HelpText<"Support parallel execution of target regions on Cuda-based devices.">;
				def fno_openmp_cuda_parallel_target_regions : Flag<["-"], "fno-openmp-cuda-parallel-target-regions">, Group<f_Group>,
				Flags<[NoArgumentUnused, HelpHidden]>,
				HelpText<"Support only serial execution of target regions on Cuda-based devices.">;
	def static_openmp: Flag<["-"], "static-openmp">,			def static_openmp: Flag<["-"], "static-openmp">,
	HelpText<"Use the static host OpenMP runtime while linking.">;			HelpText<"Use the static host OpenMP runtime while linking.">;
	def fno_optimize_sibling_calls : Flag<["-"], "fno-optimize-sibling-calls">, Group<f_Group>;			def fno_optimize_sibling_calls : Flag<["-"], "fno-optimize-sibling-calls">, Group<f_Group>;
	def foptimize_sibling_calls : Flag<["-"], "foptimize-sibling-calls">, Group<f_Group>;			def foptimize_sibling_calls : Flag<["-"], "foptimize-sibling-calls">, Group<f_Group>;
	def fno_escaping_block_tail_calls : Flag<["-"], "fno-escaping-block-tail-calls">, Group<f_Group>, Flags<[CC1Option]>;			def fno_escaping_block_tail_calls : Flag<["-"], "fno-escaping-block-tail-calls">, Group<f_Group>, Flags<[CC1Option]>;
	def fescaping_block_tail_calls : Flag<["-"], "fescaping-block-tail-calls">, Group<f_Group>;			def fescaping_block_tail_calls : Flag<["-"], "fescaping-block-tail-calls">, Group<f_Group>;
	def force__cpusubtype__ALL : Flag<["-"], "force_cpusubtype_ALL">;			def force__cpusubtype__ALL : Flag<["-"], "force_cpusubtype_ALL">;
	def force__flat__namespace : Flag<["-"], "force_flat_namespace">;			def force__flat__namespace : Flag<["-"], "force_flat_namespace">;
	▲ Show 20 Lines • Show All 1,723 Lines • Show Last 20 Lines

clang/lib/CodeGen/CGOpenMPRuntimeNVPTX.cpp

Show First 20 Lines • Show All 79 Lines • ▼ Show 20 Lines	enum OpenMPRTLFunctionNVPTX {
OMPRTL_NVPTX__kmpc_end_reduce_nowait,		OMPRTL_NVPTX__kmpc_end_reduce_nowait,
/// Call to void __kmpc_data_sharing_init_stack();		/// Call to void __kmpc_data_sharing_init_stack();
OMPRTL_NVPTX__kmpc_data_sharing_init_stack,		OMPRTL_NVPTX__kmpc_data_sharing_init_stack,
/// Call to void __kmpc_data_sharing_init_stack_spmd();		/// Call to void __kmpc_data_sharing_init_stack_spmd();
OMPRTL_NVPTX__kmpc_data_sharing_init_stack_spmd,		OMPRTL_NVPTX__kmpc_data_sharing_init_stack_spmd,
/// Call to void* __kmpc_data_sharing_coalesced_push_stack(size_t size,		/// Call to void* __kmpc_data_sharing_coalesced_push_stack(size_t size,
/// int16_t UseSharedMemory);		/// int16_t UseSharedMemory);
OMPRTL_NVPTX__kmpc_data_sharing_coalesced_push_stack,		OMPRTL_NVPTX__kmpc_data_sharing_coalesced_push_stack,
		/// Call to void* __kmpc_data_sharing_push_stack(size_t size, int16_t
		/// UseSharedMemory);
		OMPRTL_NVPTX__kmpc_data_sharing_push_stack,
/// Call to void __kmpc_data_sharing_pop_stack(void *a);		/// Call to void __kmpc_data_sharing_pop_stack(void *a);
OMPRTL_NVPTX__kmpc_data_sharing_pop_stack,		OMPRTL_NVPTX__kmpc_data_sharing_pop_stack,
/// Call to void __kmpc_begin_sharing_variables(void ***args,		/// Call to void __kmpc_begin_sharing_variables(void ***args,
/// size_t n_args);		/// size_t n_args);
OMPRTL_NVPTX__kmpc_begin_sharing_variables,		OMPRTL_NVPTX__kmpc_begin_sharing_variables,
/// Call to void __kmpc_end_sharing_variables();		/// Call to void __kmpc_end_sharing_variables();
OMPRTL_NVPTX__kmpc_end_sharing_variables,		OMPRTL_NVPTX__kmpc_end_sharing_variables,
/// Call to void __kmpc_get_shared_variables(void ***GlobalArgs)		/// Call to void __kmpc_get_shared_variables(void ***GlobalArgs)
▲ Show 20 Lines • Show All 1,652 Lines • ▼ Show 20 Lines	case OMPRTL_NVPTX__kmpc_data_sharing_coalesced_push_stack: {
// int16_t UseSharedMemory);		// int16_t UseSharedMemory);
llvm::Type *TypeParams[] = {CGM.SizeTy, CGM.Int16Ty};		llvm::Type *TypeParams[] = {CGM.SizeTy, CGM.Int16Ty};
auto *FnTy =		auto *FnTy =
llvm::FunctionType::get(CGM.VoidPtrTy, TypeParams, /isVarArg=/false);		llvm::FunctionType::get(CGM.VoidPtrTy, TypeParams, /isVarArg=/false);
RTLFn = CGM.CreateRuntimeFunction(		RTLFn = CGM.CreateRuntimeFunction(
FnTy, /Name=/"__kmpc_data_sharing_coalesced_push_stack");		FnTy, /Name=/"__kmpc_data_sharing_coalesced_push_stack");
break;		break;
}		}
		case OMPRTL_NVPTX__kmpc_data_sharing_push_stack: {
		// Build void *__kmpc_data_sharing_push_stack(size_t size, int16_t
		// UseSharedMemory);
		llvm::Type *TypeParams[] = {CGM.SizeTy, CGM.Int16Ty};
		auto *FnTy =
		llvm::FunctionType::get(CGM.VoidPtrTy, TypeParams, /isVarArg=/false);
		RTLFn = CGM.CreateRuntimeFunction(
		FnTy, /Name=/"__kmpc_data_sharing_push_stack");
		break;
		}
case OMPRTL_NVPTX__kmpc_data_sharing_pop_stack: {		case OMPRTL_NVPTX__kmpc_data_sharing_pop_stack: {
// Build void __kmpc_data_sharing_pop_stack(void *a);		// Build void __kmpc_data_sharing_pop_stack(void *a);
llvm::Type *TypeParams[] = {CGM.VoidPtrTy};		llvm::Type *TypeParams[] = {CGM.VoidPtrTy};
auto *FnTy =		auto *FnTy =
llvm::FunctionType::get(CGM.VoidTy, TypeParams, /isVarArg=/false);		llvm::FunctionType::get(CGM.VoidTy, TypeParams, /isVarArg=/false);
RTLFn = CGM.CreateRuntimeFunction(FnTy,		RTLFn = CGM.CreateRuntimeFunction(FnTy,
/Name=/"__kmpc_data_sharing_pop_stack");		/Name=/"__kmpc_data_sharing_pop_stack");
break;		break;
▲ Show 20 Lines • Show All 441 Lines • ▼ Show 20 Lines	if (!IsInTTDRegion &&
CGF.EmitBlock(ExitBB);		CGF.EmitBlock(ExitBB);
auto *Phi = Bld.CreatePHI(GlobalRecPtrTy,		auto *Phi = Bld.CreatePHI(GlobalRecPtrTy,
/NumReservedValues=/2, "_select_stack");		/NumReservedValues=/2, "_select_stack");
Phi->addIncoming(RecPtr.getPointer(), SPMDBB);		Phi->addIncoming(RecPtr.getPointer(), SPMDBB);
Phi->addIncoming(GlobalRecCastAddr, NonSPMDBB);		Phi->addIncoming(GlobalRecCastAddr, NonSPMDBB);
GlobalRecCastAddr = Phi;		GlobalRecCastAddr = Phi;
I->getSecond().GlobalRecordAddr = Phi;		I->getSecond().GlobalRecordAddr = Phi;
I->getSecond().IsInSPMDModeFlag = IsSPMD;		I->getSecond().IsInSPMDModeFlag = IsSPMD;
} else if (IsInTTDRegion) {		} else if (!CGM.getLangOpts().OpenMPCUDATargetParallel && IsInTTDRegion) {
assert(GlobalizedRecords.back().Records.size() < 2 &&		assert(GlobalizedRecords.back().Records.size() < 2 &&
"Expected less than 2 globalized records: one for target and one "		"Expected less than 2 globalized records: one for target and one "
"for teams.");		"for teams.");
unsigned Offset = 0;		unsigned Offset = 0;
for (const RecordDecl *RD : GlobalizedRecords.back().Records) {		for (const RecordDecl *RD : GlobalizedRecords.back().Records) {
QualType RDTy = CGM.getContext().getRecordType(RD);		QualType RDTy = CGM.getContext().getRecordType(RD);
unsigned Alignment =		unsigned Alignment =
CGM.getContext().getTypeAlignInChars(RDTy).getQuantity();		CGM.getContext().getTypeAlignInChars(RDTy).getQuantity();
▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines	if (!IsInTTDRegion &&
Bld.CreateConstInBoundsGEP(FrameAddr, Offset).getPointer();		Bld.CreateConstInBoundsGEP(FrameAddr, Offset).getPointer();
I->getSecond().GlobalRecordAddr = GlobalRecValue;		I->getSecond().GlobalRecordAddr = GlobalRecValue;
I->getSecond().IsInSPMDModeFlag = nullptr;		I->getSecond().IsInSPMDModeFlag = nullptr;
GlobalRecCastAddr = Bld.CreatePointerBitCastOrAddrSpaceCast(		GlobalRecCastAddr = Bld.CreatePointerBitCastOrAddrSpaceCast(
GlobalRecValue, CGF.ConvertTypeForMem(GlobalRecTy)->getPointerTo());		GlobalRecValue, CGF.ConvertTypeForMem(GlobalRecTy)->getPointerTo());
} else {		} else {
// TODO: allow the usage of shared memory to be controlled by		// TODO: allow the usage of shared memory to be controlled by
// the user, for now, default to global.		// the user, for now, default to global.
		bool UseSharedMemory =
		IsInTTDRegion && GlobalRecordSize <= SharedMemorySize;
llvm::Value *GlobalRecordSizeArg[] = {		llvm::Value *GlobalRecordSizeArg[] = {
llvm::ConstantInt::get(CGM.SizeTy, GlobalRecordSize),		llvm::ConstantInt::get(CGM.SizeTy, GlobalRecordSize),
CGF.Builder.getInt16(/UseSharedMemory=/0)};		CGF.Builder.getInt16(UseSharedMemory ? 1 : 0)};
llvm::Value *GlobalRecValue = CGF.EmitRuntimeCall(		llvm::Value *GlobalRecValue = CGF.EmitRuntimeCall(
createNVPTXRuntimeFunction(		createNVPTXRuntimeFunction(
OMPRTL_NVPTX__kmpc_data_sharing_coalesced_push_stack),		IsInTTDRegion
		? OMPRTL_NVPTX__kmpc_data_sharing_push_stack
		: OMPRTL_NVPTX__kmpc_data_sharing_coalesced_push_stack),
GlobalRecordSizeArg);		GlobalRecordSizeArg);
GlobalRecCastAddr = Bld.CreatePointerBitCastOrAddrSpaceCast(		GlobalRecCastAddr = Bld.CreatePointerBitCastOrAddrSpaceCast(
GlobalRecValue, GlobalRecPtrTy);		GlobalRecValue, GlobalRecPtrTy);
I->getSecond().GlobalRecordAddr = GlobalRecValue;		I->getSecond().GlobalRecordAddr = GlobalRecValue;
I->getSecond().IsInSPMDModeFlag = nullptr;		I->getSecond().IsInSPMDModeFlag = nullptr;
}		}
LValue Base =		LValue Base =
CGF.MakeNaturalAlignPointeeAddrLValue(GlobalRecCastAddr, GlobalRecTy);		CGF.MakeNaturalAlignPointeeAddrLValue(GlobalRecCastAddr, GlobalRecTy);
▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines	if (I->getSecond().GlobalRecordAddr) {
// There is no need to emit line number for unconditional branch.		// There is no need to emit line number for unconditional branch.
(void)ApplyDebugLocation::CreateEmpty(CGF);		(void)ApplyDebugLocation::CreateEmpty(CGF);
CGF.EmitBlock(NonSPMDBB);		CGF.EmitBlock(NonSPMDBB);
CGF.EmitRuntimeCall(		CGF.EmitRuntimeCall(
createNVPTXRuntimeFunction(		createNVPTXRuntimeFunction(
OMPRTL_NVPTX__kmpc_data_sharing_pop_stack),		OMPRTL_NVPTX__kmpc_data_sharing_pop_stack),
CGF.EmitCastToVoidPtr(I->getSecond().GlobalRecordAddr));		CGF.EmitCastToVoidPtr(I->getSecond().GlobalRecordAddr));
CGF.EmitBlock(ExitBB);		CGF.EmitBlock(ExitBB);
} else if (IsInTTDRegion) {		} else if (!CGM.getLangOpts().OpenMPCUDATargetParallel && IsInTTDRegion) {
assert(GlobalizedRecords.back().RegionCounter > 0 &&		assert(GlobalizedRecords.back().RegionCounter > 0 &&
"region counter must be > 0.");		"region counter must be > 0.");
--GlobalizedRecords.back().RegionCounter;		--GlobalizedRecords.back().RegionCounter;
// Emit the restore function only in the target region.		// Emit the restore function only in the target region.
if (GlobalizedRecords.back().RegionCounter == 0) {		if (GlobalizedRecords.back().RegionCounter == 0) {
QualType Int16Ty = CGM.getContext().getIntTypeForBitwidth(		QualType Int16Ty = CGM.getContext().getIntTypeForBitwidth(
/DestWidth=/16, /Signed=/0);		/DestWidth=/16, /Signed=/0);
llvm::Value *IsInSharedMemory = CGF.EmitLoadOfScalar(		llvm::Value *IsInSharedMemory = CGF.EmitLoadOfScalar(
▲ Show 20 Lines • Show All 2,633 Lines • ▼ Show 20 Lines	case CudaArch::UNKNOWN:
break;		break;
case CudaArch::LAST:		case CudaArch::LAST:
llvm_unreachable("Unexpected Cuda arch.");		llvm_unreachable("Unexpected Cuda arch.");
}		}
llvm_unreachable("Unexpected NVPTX target without ptx feature.");		llvm_unreachable("Unexpected NVPTX target without ptx feature.");
}		}

void CGOpenMPRuntimeNVPTX::clear() {		void CGOpenMPRuntimeNVPTX::clear() {
if (!GlobalizedRecords.empty()) {		if (!GlobalizedRecords.empty() &&
		!CGM.getLangOpts().OpenMPCUDATargetParallel) {
ASTContext &C = CGM.getContext();		ASTContext &C = CGM.getContext();
llvm::SmallVector<const GlobalPtrSizeRecsTy *, 4> GlobalRecs;		llvm::SmallVector<const GlobalPtrSizeRecsTy *, 4> GlobalRecs;
llvm::SmallVector<const GlobalPtrSizeRecsTy *, 4> SharedRecs;		llvm::SmallVector<const GlobalPtrSizeRecsTy *, 4> SharedRecs;
RecordDecl *StaticRD = C.buildImplicitRecord(		RecordDecl *StaticRD = C.buildImplicitRecord(
"_openmp_static_memory_type_$_", RecordDecl::TagKind::TTK_Union);		"_openmp_static_memory_type_$_", RecordDecl::TagKind::TTK_Union);
StaticRD->startDefinition();		StaticRD->startDefinition();
RecordDecl *SharedStaticRD = C.buildImplicitRecord(		RecordDecl *SharedStaticRD = C.buildImplicitRecord(
"_shared_openmp_static_memory_type_$_", RecordDecl::TagKind::TTK_Union);		"_shared_openmp_static_memory_type_$_", RecordDecl::TagKind::TTK_Union);
▲ Show 20 Lines • Show All 133 Lines • Show Last 20 Lines

clang/lib/Driver/ToolChains/Clang.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 5,251 Lines • ▼ Show 20 Lines	case Driver::OMPRT_IOMP5:
CmdArgs.push_back("-fopenmp-optimistic-collapse");		CmdArgs.push_back("-fopenmp-optimistic-collapse");

// When in OpenMP offloading mode with NVPTX target, forward		// When in OpenMP offloading mode with NVPTX target, forward
// cuda-mode flag		// cuda-mode flag
if (Args.hasFlag(options::OPT_fopenmp_cuda_mode,		if (Args.hasFlag(options::OPT_fopenmp_cuda_mode,
options::OPT_fno_openmp_cuda_mode, /Default=/false))		options::OPT_fno_openmp_cuda_mode, /Default=/false))
CmdArgs.push_back("-fopenmp-cuda-mode");		CmdArgs.push_back("-fopenmp-cuda-mode");

		// When in OpenMP offloading mode with NVPTX target, forward
		// cuda-parallel-target-regions flag
		if (Args.hasFlag(options::OPT_fopenmp_cuda_parallel_target_regions,
		options::OPT_fno_openmp_cuda_parallel_target_regions,
		/Default=/true))
		ABataevAuthorUnsubmitted Done Reply Inline Actions The slow but reliable option is enabled by default here. ABataev: The slow but reliable option is enabled by default here.
		CmdArgs.push_back("-fopenmp-cuda-parallel-target-regions");

// When in OpenMP offloading mode with NVPTX target, check if full runtime		// When in OpenMP offloading mode with NVPTX target, check if full runtime
// is required.		// is required.
if (Args.hasFlag(options::OPT_fopenmp_cuda_force_full_runtime,		if (Args.hasFlag(options::OPT_fopenmp_cuda_force_full_runtime,
options::OPT_fno_openmp_cuda_force_full_runtime,		options::OPT_fno_openmp_cuda_force_full_runtime,
/Default=/false))		/Default=/false))
CmdArgs.push_back("-fopenmp-cuda-force-full-runtime");		CmdArgs.push_back("-fopenmp-cuda-force-full-runtime");
break;		break;
default:		default:
▲ Show 20 Lines • Show All 1,918 Lines • Show Last 20 Lines

clang/lib/Frontend/CompilerInvocation.cpp

Show First 20 Lines • Show All 3,189 Lines • ▼ Show 20 Lines	if (!llvm::sys::fs::exists(Opts.OMPHostIRFile))
Diags.Report(diag::err_drv_omp_host_ir_file_not_found)		Diags.Report(diag::err_drv_omp_host_ir_file_not_found)
<< Opts.OMPHostIRFile;		<< Opts.OMPHostIRFile;
}		}

// Set CUDA mode for OpenMP target NVPTX/AMDGCN if specified in options		// Set CUDA mode for OpenMP target NVPTX/AMDGCN if specified in options
Opts.OpenMPCUDAMode = Opts.OpenMPIsDevice && (T.isNVPTX() \|\| T.isAMDGCN()) &&		Opts.OpenMPCUDAMode = Opts.OpenMPIsDevice && (T.isNVPTX() \|\| T.isAMDGCN()) &&
Args.hasArg(options::OPT_fopenmp_cuda_mode);		Args.hasArg(options::OPT_fopenmp_cuda_mode);

		// Set CUDA support for parallel execution of target regions for OpenMP target
		// NVPTX/AMDGCN if specified in options.
		Opts.OpenMPCUDATargetParallel =
		Opts.OpenMPIsDevice && (T.isNVPTX() \|\| T.isAMDGCN()) &&
		Args.hasArg(options::OPT_fopenmp_cuda_parallel_target_regions);

// Set CUDA mode for OpenMP target NVPTX/AMDGCN if specified in options		// Set CUDA mode for OpenMP target NVPTX/AMDGCN if specified in options
Opts.OpenMPCUDAForceFullRuntime =		Opts.OpenMPCUDAForceFullRuntime =
Opts.OpenMPIsDevice && (T.isNVPTX() \|\| T.isAMDGCN()) &&		Opts.OpenMPIsDevice && (T.isNVPTX() \|\| T.isAMDGCN()) &&
Args.hasArg(options::OPT_fopenmp_cuda_force_full_runtime);		Args.hasArg(options::OPT_fopenmp_cuda_force_full_runtime);

// Record whether the __DEPRECATED define was requested.		// Record whether the __DEPRECATED define was requested.
Opts.Deprecated = Args.hasFlag(OPT_fdeprecated_macro,		Opts.Deprecated = Args.hasFlag(OPT_fdeprecated_macro,
OPT_fno_deprecated_macro,		OPT_fno_deprecated_macro,
▲ Show 20 Lines • Show All 785 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_data_sharing.cpp

	// Test device global memory data sharing codegen.			// Test device global memory data sharing codegen.
	///==========================================================================///			///==========================================================================///

	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CK1			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CK1 --check-prefix SEQ
				// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CK1 --check-prefix PAR

	// expected-no-diagnostics			// expected-no-diagnostics

	#ifndef HEADER			#ifndef HEADER
	#define HEADER			#define HEADER

	void test_ds(){			void test_ds(){
	#pragma omp target			#pragma omp target
	{			{
	int a = 10;			int a = 10;
	#pragma omp parallel			#pragma omp parallel
	{			{
	a = 1000;			a = 1000;
	}			}
	int b = 100;			int b = 100;
	int c = 1000;			int c = 1000;
	#pragma omp parallel private(c)			#pragma omp parallel private(c)
	{			{
	int *c1 = &c;			int *c1 = &c;
	b = a + 10000;			b = a + 10000;
	}			}
	}			}
	}			}
	// CK1: [[MEM_TY:%.+]] = type { [128 x i8] }			// SEQ: [[MEM_TY:%.+]] = type { [128 x i8] }
	// CK1-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer			// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer
	// CK1-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null			// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null
	// CK1-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i64 8			// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i64 8
	// CK1-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1			// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1

	/// ========= In the worker function ========= ///			/// ========= In the worker function ========= ///
	// CK1: {{.}}define internal void @__omp_offloading{{.}}test_ds{{.*}}_worker()			// CK1: {{.}}define internal void @__omp_offloading{{.}}test_ds{{.*}}_worker()
	// CK1: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)			// CK1: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CK1-NOT: call void @__kmpc_data_sharing_init_stack			// CK1-NOT: call void @__kmpc_data_sharing_init_stack

	/// ========= In the kernel function ========= ///			/// ========= In the kernel function ========= ///

	// CK1: {{.}}define weak void @__omp_offloading{{.}}test_ds{{.*}}()			// CK1: {{.}}define weak void @__omp_offloading{{.}}test_ds{{.*}}()
	// CK1: [[SHAREDARGS1:%.+]] = alloca i8**			// CK1: [[SHAREDARGS1:%.+]] = alloca i8**
	// CK1: [[SHAREDARGS2:%.+]] = alloca i8**			// CK1: [[SHAREDARGS2:%.+]] = alloca i8**
	// CK1: call void @__kmpc_kernel_init			// CK1: call void @__kmpc_kernel_init
	// CK1: call void @__kmpc_data_sharing_init_stack			// CK1: call void @__kmpc_data_sharing_init_stack
	// CK1: [[SHARED_MEM_FLAG:%.+]] = load i16, i16* [[KERNEL_SHARED]],			// SEQ: [[SHARED_MEM_FLAG:%.+]] = load i16, i16* [[KERNEL_SHARED]],
	// CK1: [[SIZE:%.+]] = load i64, i64* [[KERNEL_SIZE]],			// SEQ: [[SIZE:%.+]] = load i64, i64* [[KERNEL_SIZE]],
	// CK1: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i64 [[SIZE]], i16 [[SHARED_MEM_FLAG]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))			// SEQ: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i64 [[SIZE]], i16 [[SHARED_MEM_FLAG]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))
	// CK1: [[KERNEL_RD:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],			// SEQ: [[KERNEL_RD:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],
	// CK1: [[GLOBALSTACK:%.+]] = getelementptr inbounds i8, i8* [[KERNEL_RD]], i64 0			// SEQ: [[GLOBALSTACK:%.+]] = getelementptr inbounds i8, i8* [[KERNEL_RD]], i64 0
				// PAR: [[GLOBALSTACK:%.+]] = call i8* @__kmpc_data_sharing_push_stack(i{{32\|64}} 8, i16 1)
	// CK1: [[GLOBALSTACK2:%.+]] = bitcast i8* [[GLOBALSTACK]] to %struct._globalized_locals_ty*			// CK1: [[GLOBALSTACK2:%.+]] = bitcast i8* [[GLOBALSTACK]] to %struct._globalized_locals_ty*
	// CK1: [[A:%.+]] = getelementptr inbounds %struct._globalized_locals_ty, %struct._globalized_locals_ty* [[GLOBALSTACK2]], i32 0, i32 0			// CK1: [[A:%.+]] = getelementptr inbounds %struct._globalized_locals_ty, %struct._globalized_locals_ty* [[GLOBALSTACK2]], i32 0, i32 0
	// CK1: [[B:%.+]] = getelementptr inbounds %struct._globalized_locals_ty, %struct._globalized_locals_ty* [[GLOBALSTACK2]], i32 0, i32 1			// CK1: [[B:%.+]] = getelementptr inbounds %struct._globalized_locals_ty, %struct._globalized_locals_ty* [[GLOBALSTACK2]], i32 0, i32 1
	// CK1: store i32 10, i32* [[A]]			// CK1: store i32 10, i32* [[A]]
	// CK1: call void @__kmpc_kernel_prepare_parallel({{.*}}, i16 1)			// CK1: call void @__kmpc_kernel_prepare_parallel({{.*}}, i16 1)
	// CK1: call void @__kmpc_begin_sharing_variables(i8*** [[SHAREDARGS1]], i64 1)			// CK1: call void @__kmpc_begin_sharing_variables(i8*** [[SHAREDARGS1]], i64 1)
	// CK1: [[SHARGSTMP1:%.+]] = load i8, i8* [[SHAREDARGS1]]			// CK1: [[SHARGSTMP1:%.+]] = load i8, i8* [[SHAREDARGS1]]
	// CK1: [[SHARGSTMP2:%.+]] = getelementptr inbounds i8, i8* [[SHARGSTMP1]], i64 0			// CK1: [[SHARGSTMP2:%.+]] = getelementptr inbounds i8, i8* [[SHARGSTMP1]], i64 0
	Show All 10 Lines
	// CK1: [[SHAREDVAR1:%.+]] = bitcast i32* [[B]] to i8*			// CK1: [[SHAREDVAR1:%.+]] = bitcast i32* [[B]] to i8*
	// CK1: store i8* [[SHAREDVAR1]], i8** [[SHARGSTMP4]]			// CK1: store i8* [[SHAREDVAR1]], i8** [[SHARGSTMP4]]
	// CK1: [[SHARGSTMP12:%.+]] = getelementptr inbounds i8, i8* [[SHARGSTMP3]], i64 1			// CK1: [[SHARGSTMP12:%.+]] = getelementptr inbounds i8, i8* [[SHARGSTMP3]], i64 1
	// CK1: [[SHAREDVAR2:%.+]] = bitcast i32* [[A]] to i8*			// CK1: [[SHAREDVAR2:%.+]] = bitcast i32* [[A]] to i8*
	// CK1: store i8* [[SHAREDVAR2]], i8** [[SHARGSTMP12]]			// CK1: store i8* [[SHAREDVAR2]], i8** [[SHARGSTMP12]]
	// CK1: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)			// CK1: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CK1: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)			// CK1: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CK1: call void @__kmpc_end_sharing_variables()			// CK1: call void @__kmpc_end_sharing_variables()
	// CK1: [[SHARED_MEM_FLAG:%.+]] = load i16, i16* [[KERNEL_SHARED]],			// SEQ: [[SHARED_MEM_FLAG:%.+]] = load i16, i16* [[KERNEL_SHARED]],
	// CK1: call void @__kmpc_restore_team_static_memory(i16 0, i16 [[SHARED_MEM_FLAG]])			// SEQ: call void @__kmpc_restore_team_static_memory(i16 0, i16 [[SHARED_MEM_FLAG]])
				// PAR: call void @__kmpc_data_sharing_pop_stack(i8* [[GLOBALSTACK]])
	// CK1: call void @__kmpc_kernel_deinit(i16 1)			// CK1: call void @__kmpc_kernel_deinit(i16 1)

	/// ========= In the data sharing wrapper function ========= ///			/// ========= In the data sharing wrapper function ========= ///

	// CK1: {{.}}define internal void @__omp_outlined{{.}}wrapper({{.*}})			// CK1: {{.}}define internal void @__omp_outlined{{.}}wrapper({{.*}})
	// CK1: [[SHAREDARGS4:%.+]] = alloca i8**			// CK1: [[SHAREDARGS4:%.+]] = alloca i8**
	// CK1: call void @__kmpc_get_shared_variables(i8*** [[SHAREDARGS4]])			// CK1: call void @__kmpc_get_shared_variables(i8*** [[SHAREDARGS4]])
	// CK1: [[SHARGSTMP13:%.+]] = load i8, i8* [[SHAREDARGS4]]			// CK1: [[SHARGSTMP13:%.+]] = load i8, i8* [[SHAREDARGS4]]
	Show All 29 Lines

clang/test/OpenMP/nvptx_distribute_parallel_generic_mode_codegen.cpp

	// Test target codegen - host bc file has to be created first.			// Test target codegen - host bc file has to be created first.
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64 --check-prefix SEQ
				// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64 --check-prefix PAR
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix SEQ
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix SEQ
				// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix PAR
				// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix PAR
	// expected-no-diagnostics			// expected-no-diagnostics
	#ifndef HEADER			#ifndef HEADER
	#define HEADER			#define HEADER

	int a;			int a;

	int foo(int *a);			int foo(int *a);

	int main(int argc, char **argv) {			int main(int argc, char **argv) {
	int b[10], c[10], d[10];			int b[10], c[10], d[10];
	#pragma omp target teams map(tofrom:a)			#pragma omp target teams map(tofrom:a)
	#pragma omp distribute parallel for firstprivate(b) lastprivate(c) if(a)			#pragma omp distribute parallel for firstprivate(b) lastprivate(c) if(a)
	for (int i= 0; i < argc; ++i)			for (int i= 0; i < argc; ++i)
	a = foo(&i) + foo(&a) + foo(&b[i]) + foo(&c[i]) + foo(&d[i]);			a = foo(&i) + foo(&a) + foo(&b[i]) + foo(&c[i]) + foo(&d[i]);
	return 0;			return 0;
	}			}

	// CHECK: [[MEM_TY:%.+]] = type { [128 x i8] }			// SEQ: [[MEM_TY:%.+]] = type { [128 x i8] }
	// CHECK-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer			// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer
	// CHECK-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null			// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null
	// CHECK-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 40			// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 40
	// CHECK-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1			// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1
	// CHECK-DAG: @__omp_offloading_{{.*}}_main_l17_exec_mode = weak constant i8 0			// CHECK-DAG: @__omp_offloading_{{.*}}_main_l20_exec_mode = weak constant i8 0

	// CHECK: define weak void @__omp_offloading_{{.}}_main_l17([10 x i32] nonnull align 4 dereferenceable(40) %{{.+}}, [10 x i32]* nonnull align 4 dereferenceable(40) %{{.+}}, i32* nonnull align 4 dereferenceable(4) %{{.+}}, i{{64\|32}} %{{.+}}, [10 x i32]* nonnull align 4 dereferenceable(40) %{{.+}})			// CHECK: define weak void @__omp_offloading_{{.}}_main_l20([10 x i32] nonnull align 4 dereferenceable(40) %{{.+}}, [10 x i32]* nonnull align 4 dereferenceable(40) %{{.+}}, i32* nonnull align 4 dereferenceable(4) %{{.+}}, i{{64\|32}} %{{.+}}, [10 x i32]* nonnull align 4 dereferenceable(40) %{{.+}})
	// CHECK: [[SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],			// SEQ: [[SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],
	// CHECK: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE]],			// SEQ: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE]],
	// CHECK: call void @__kmpc_get_team_static_memory(i16 1, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[SHARED]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))			// SEQ: call void @__kmpc_get_team_static_memory(i16 1, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[SHARED]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))
	// CHECK: [[PTR:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],			// SEQ: [[PTR:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],
	// CHECK: [[GEP:%.+]] = getelementptr inbounds i8, i8* [[PTR]], i{{64\|32}} 0			// SEQ: [[GEP:%.+]] = getelementptr inbounds i8, i8* [[PTR]], i{{64\|32}} 0
				// PAR: [[GEP:%.+]] = call i8* @__kmpc_data_sharing_push_stack(i{{32\|64}} 40, i16 1)
	// CHECK: [[STACK:%.+]] = bitcast i8* [[GEP]] to %struct._globalized_locals_ty*			// CHECK: [[STACK:%.+]] = bitcast i8* [[GEP]] to %struct._globalized_locals_ty*
	// CHECK: getelementptr inbounds %struct._globalized_locals_ty, %struct._globalized_locals_ty* [[STACK]], i{{32\|64}} 0, i{{32\|64}} 0			// CHECK: getelementptr inbounds %struct._globalized_locals_ty, %struct._globalized_locals_ty* [[STACK]], i{{32\|64}} 0, i{{32\|64}} 0
	// CHECK-NOT: getelementptr inbounds %struct._globalized_locals_ty, %struct._globalized_locals_ty* [[STACK]],			// CHECK-NOT: getelementptr inbounds %struct._globalized_locals_ty, %struct._globalized_locals_ty* [[STACK]],
	// CHECK: call void @__kmpc_for_static_init_4(			// CHECK: call void @__kmpc_for_static_init_4(

	// CHECK: call void [[PARALLEL:@.+]](			// CHECK: call void [[PARALLEL:@.+]](

	// CHECK: call void @__kmpc_for_static_fini(%struct.ident_t* @			// CHECK: call void @__kmpc_for_static_fini(%struct.ident_t* @

	// CHECK: [[SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],			// SEQ: [[SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],
	// CHECK: call void @__kmpc_restore_team_static_memory(i16 1, i16 [[SHARED]])			// SEQ: call void @__kmpc_restore_team_static_memory(i16 1, i16 [[SHARED]])
				// PAR: call void @__kmpc_data_sharing_pop_stack(i8* [[GEP]])

	// CHECK: define internal void [[PARALLEL]](			// CHECK: define internal void [[PARALLEL]](
	// CHECK-NOT: call i8* @__kmpc_data_sharing_push_stack(			// CHECK-NOT: call i8* @__kmpc_data_sharing_push_stack(

	// CHECK-NOT: call void @__kmpc_data_sharing_pop_stack(			// CHECK-NOT: call void @__kmpc_data_sharing_pop_stack(

	#endif			#endif

clang/test/OpenMP/nvptx_parallel_codegen.cpp

	// Test target codegen - host bc file has to be created first.			// Test target codegen - host bc file has to be created first.
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64 --check-prefix SEQ
				// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64 --check-prefix PAR
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix SEQ
	// RUN: %clang_cc1 -verify -fopenmp -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix SEQ
				// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix PAR
				// RUN: %clang_cc1 -verify -fopenmp -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix PAR
	// expected-no-diagnostics			// expected-no-diagnostics
	#ifndef HEADER			#ifndef HEADER
	#define HEADER			#define HEADER

	template<typename tx>			template<typename tx>
	tx ftemplate(int n) {			tx ftemplate(int n) {
	tx a = 0;			tx a = 0;
	short aa = 0;			short aa = 0;
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	int bar(int n){			int bar(int n){
	int a = 0;			int a = 0;

	a += ftemplate<int>(n);			a += ftemplate<int>(n);

	return a;			return a;
	}			}

	// CHECK: [[MEM_TY:%.+]] = type { [128 x i8] }			// SEQ: [[MEM_TY:%.+]] = type { [128 x i8] }
	// CHECK-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer			// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer
	// CHECK-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null			// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null
	// CHECK-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 4			// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 4
	// CHECK-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1			// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1

	// CHECK-NOT: define {{.*}}void {{@__omp_offloading_.+template.+l17}}_worker()			// CHECK-NOT: define {{.*}}void {{@__omp_offloading_.+template.+l20}}_worker()

	// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l26}}_worker()			// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l29}}_worker()
	// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,			// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,
	// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,			// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,
	// CHECK: store i8* null, i8** [[OMP_WORK_FN]],			// CHECK: store i8* null, i8** [[OMP_WORK_FN]],
	// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],			// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],
	// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]			// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]
	//			//
	// CHECK: [[AWAIT_WORK]]			// CHECK: [[AWAIT_WORK]]
	// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0) #[[#CONVERGENT:]]			// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0) #[[#CONVERGENT:]]
	Show All 36 Lines
	//			//
	// CHECK: [[BAR_PARALLEL]]			// CHECK: [[BAR_PARALLEL]]
	// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)			// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CHECK: br label {{%?}}[[AWAIT_WORK]]			// CHECK: br label {{%?}}[[AWAIT_WORK]]
	//			//
	// CHECK: [[EXIT]]			// CHECK: [[EXIT]]
	// CHECK: ret void			// CHECK: ret void

	// CHECK: define {{.*}}void [[T6:@__omp_offloading_.+template.+l26]](i[[SZ:32\|64]]			// CHECK: define {{.*}}void [[T6:@__omp_offloading_.+template.+l29]](i[[SZ:32\|64]]
	// Create local storage for each capture.			// Create local storage for each capture.
	// CHECK: [[LOCAL_A:%.+]] = alloca i[[SZ]],			// CHECK: [[LOCAL_A:%.+]] = alloca i[[SZ]],
	// CHECK-DAG: store i[[SZ]] [[ARG_A:%.+]], i[[SZ]]* [[LOCAL_A]]			// CHECK-DAG: store i[[SZ]] [[ARG_A:%.+]], i[[SZ]]* [[LOCAL_A]]
	// Store captures in the context.			// Store captures in the context.
	// CHECK-64-DAG:[[REF_A:%.+]] = bitcast i[[SZ]]* [[LOCAL_A]] to i32*			// CHECK-64-DAG:[[REF_A:%.+]] = bitcast i[[SZ]]* [[LOCAL_A]] to i32*
	//			//
	// CHECK-DAG: [[TID:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK-DAG: [[TID:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
	// CHECK-DAG: [[NTH:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()			// CHECK-DAG: [[NTH:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	// CHECK: store i[[SZ]] 43, i[[SZ]]* %a,			// CHECK: store i[[SZ]] 43, i[[SZ]]* %a,
	// CHECK: ret void			// CHECK: ret void

	// CHECK-DAG: define internal void [[PARALLEL_FN2]](			// CHECK-DAG: define internal void [[PARALLEL_FN2]](
	// CHECK: [[A:%.+]] = alloca i[[SZ:32\|64]],			// CHECK: [[A:%.+]] = alloca i[[SZ:32\|64]],
	// CHECK: store i[[SZ]] 44, i[[SZ]]* %a,			// CHECK: store i[[SZ]] 44, i[[SZ]]* %a,
	// CHECK: ret void			// CHECK: ret void

	// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l43}}_worker()			// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l46}}_worker()
	// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,			// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,
	// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,			// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,
	// CHECK: store i8* null, i8** [[OMP_WORK_FN]],			// CHECK: store i8* null, i8** [[OMP_WORK_FN]],
	// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],			// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],
	// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]			// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]
	//			//
	// CHECK: [[AWAIT_WORK]]			// CHECK: [[AWAIT_WORK]]
	// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)			// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	Show All 27 Lines
	//			//
	// CHECK: [[BAR_PARALLEL]]			// CHECK: [[BAR_PARALLEL]]
	// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)			// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CHECK: br label {{%?}}[[AWAIT_WORK]]			// CHECK: br label {{%?}}[[AWAIT_WORK]]
	//			//
	// CHECK: [[EXIT]]			// CHECK: [[EXIT]]
	// CHECK: ret void			// CHECK: ret void

	// CHECK: define {{.*}}void [[T6:@__omp_offloading_.+template.+l43]](i[[SZ:32\|64]]			// CHECK: define {{.*}}void [[T6:@__omp_offloading_.+template.+l46]](i[[SZ:32\|64]]
	// Create local storage for each capture.			// Create local storage for each capture.
	// CHECK: [[LOCAL_N:%.+]] = alloca i[[SZ]],			// CHECK: [[LOCAL_N:%.+]] = alloca i[[SZ]],
	// CHECK: [[LOCAL_A:%.+]] = alloca i[[SZ]],			// CHECK: [[LOCAL_A:%.+]] = alloca i[[SZ]],
	// CHECK: [[LOCAL_AA:%.+]] = alloca i[[SZ]],			// CHECK: [[LOCAL_AA:%.+]] = alloca i[[SZ]],
	// CHECK: [[LOCAL_B:%.+]] = alloca [10 x i32]*			// CHECK: [[LOCAL_B:%.+]] = alloca [10 x i32]*
	// CHECK-DAG: store i[[SZ]] [[ARG_N:%.+]], i[[SZ]]* [[LOCAL_N]]			// CHECK-DAG: store i[[SZ]] [[ARG_N:%.+]], i[[SZ]]* [[LOCAL_N]]
	// CHECK-DAG: store i[[SZ]] [[ARG_A:%.+]], i[[SZ]]* [[LOCAL_A]]			// CHECK-DAG: store i[[SZ]] [[ARG_A:%.+]], i[[SZ]]* [[LOCAL_A]]
	// CHECK-DAG: store i[[SZ]] [[ARG_AA:%.+]], i[[SZ]]* [[LOCAL_AA]]			// CHECK-DAG: store i[[SZ]] [[ARG_AA:%.+]], i[[SZ]]* [[LOCAL_AA]]
	▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	// CHECK: define internal void [[PARALLEL_FN4]](			// CHECK: define internal void [[PARALLEL_FN4]](
	// CHECK: [[A:%.+]] = alloca i[[SZ:32\|64]],			// CHECK: [[A:%.+]] = alloca i[[SZ:32\|64]],
	// CHECK: store i[[SZ]] 45, i[[SZ]]* %a,			// CHECK: store i[[SZ]] 45, i[[SZ]]* %a,
	// CHECK: call void @__kmpc_barrier(%struct.ident_t* @{{.+}}, i32 %{{.+}}) #[[#CONVERGENT:]]			// CHECK: call void @__kmpc_barrier(%struct.ident_t* @{{.+}}, i32 %{{.+}}) #[[#CONVERGENT:]]
	// CHECK: ret void			// CHECK: ret void

	// CHECK: declare void @__kmpc_barrier(%struct.ident_t*, i32) #[[#CONVERGENT]]			// CHECK: declare void @__kmpc_barrier(%struct.ident_t*, i32) #[[#CONVERGENT]]

	// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l55}}_worker()			// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l58}}_worker()
	// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l55}}(			// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l58}}(
	// CHECK-32: [[A_ADDR:%.+]] = alloca i32,			// CHECK-32: [[A_ADDR:%.+]] = alloca i32,
	// CHECK-64: [[A_ADDR:%.+]] = alloca i64,			// CHECK-64: [[A_ADDR:%.+]] = alloca i64,
	// CHECK-64: [[CONV:%.+]] = bitcast i64* [[A_ADDR]] to i32*			// CHECK-64: [[CONV:%.+]] = bitcast i64* [[A_ADDR]] to i32*
	// CHECK: [[IS_SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],			// SEQ: [[IS_SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],
	// CHECK: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE]],			// SEQ: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE]],
	// CHECK: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[IS_SHARED]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))			// SEQ: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[IS_SHARED]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))
	// CHECK: [[KERNEL_RD:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],			// SEQ: [[KERNEL_RD:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],
	// CHECK: [[STACK:%.+]] = getelementptr inbounds i8, i8* [[KERNEL_RD]], i{{64\|32}} 0			// SEQ: [[STACK:%.+]] = getelementptr inbounds i8, i8* [[KERNEL_RD]], i{{64\|32}} 0
				// PAR: [[STACK:%.+]] = call i8* @__kmpc_data_sharing_push_stack(i{{32\|64}} 4, i16 1)
	// CHECK: [[BC:%.+]] = bitcast i8* [[STACK]] to %struct._globalized_locals_ty*			// CHECK: [[BC:%.+]] = bitcast i8* [[STACK]] to %struct._globalized_locals_ty*
	// CHECK-32: [[A:%.+]] = load i32, i32* [[A_ADDR]],			// CHECK-32: [[A:%.+]] = load i32, i32* [[A_ADDR]],
	// CHECK-64: [[A:%.+]] = load i32, i32* [[CONV]],			// CHECK-64: [[A:%.+]] = load i32, i32* [[CONV]],
	// CHECK: [[GLOBAL_A_ADDR:%.+]] = getelementptr inbounds %struct._globalized_locals_ty, %struct._globalized_locals_ty* [[BC]], i{{[0-9]+}} 0, i{{[0-9]+}} 0			// CHECK: [[GLOBAL_A_ADDR:%.+]] = getelementptr inbounds %struct._globalized_locals_ty, %struct._globalized_locals_ty* [[BC]], i{{[0-9]+}} 0, i{{[0-9]+}} 0
	// CHECK: store i32 [[A]], i32* [[GLOBAL_A_ADDR]],			// CHECK: store i32 [[A]], i32* [[GLOBAL_A_ADDR]],
	// CHECK: [[IS_SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],			// SEQ: [[IS_SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],
	// CHECK: call void @__kmpc_restore_team_static_memory(i16 0, i16 [[IS_SHARED]])			// SEQ: call void @__kmpc_restore_team_static_memory(i16 0, i16 [[IS_SHARED]])
				// PAR: call void @__kmpc_data_sharing_pop_stack(i8* [[STACK]])

	// CHECK-LABEL: define internal void @{{.+}}(i32* noalias %{{.+}}, i32* noalias %{{.+}}, i32* nonnull align {{[0-9]+}} dereferenceable{{.*}})			// CHECK-LABEL: define internal void @{{.+}}(i32* noalias %{{.+}}, i32* noalias %{{.+}}, i32* nonnull align {{[0-9]+}} dereferenceable{{.*}})
	// CHECK: [[CC:%.+]] = alloca i32,			// CHECK: [[CC:%.+]] = alloca i32,
	// CHECK: [[MASK:%.+]] = call i32 @__kmpc_warp_active_thread_mask(){{$}}			// CHECK: [[MASK:%.+]] = call i32 @__kmpc_warp_active_thread_mask(){{$}}
	// CHECK: [[TID:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK: [[TID:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
	// CHECK: [[NUM_THREADS:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()			// CHECK: [[NUM_THREADS:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
	// CHECK: store i32 0, i32* [[CC]],			// CHECK: store i32 0, i32* [[CC]],
	// CHECK: br label			// CHECK: br label
	Show All 27 Lines

clang/test/OpenMP/nvptx_parallel_for_codegen.cpp

	// Test target codegen - host bc file has to be created first.			// Test target codegen - host bc file has to be created first.
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64 --check-prefix SEQ
				// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64 --check-prefix PAR
	// expected-no-diagnostics			// expected-no-diagnostics
	#ifndef HEADER			#ifndef HEADER
	#define HEADER			#define HEADER

	template<typename tx>			template<typename tx>
	tx ftemplate(int n) {			tx ftemplate(int n) {
	tx b[10];			tx b[10];

	Show All 13 Lines
	int bar(int n){			int bar(int n){
	int a = 0;			int a = 0;

	a += ftemplate<int>(n);			a += ftemplate<int>(n);

	return a;			return a;
	}			}

	// CHECK: [[MEM_TY:%.+]] = type { [128 x i8] }			// SEQ: [[MEM_TY:%.+]] = type { [128 x i8] }
	// CHECK-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer			// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer
	// CHECK-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null			// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null
	// CHECK-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 4			// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 4
	// CHECK-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1			// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1

	// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l12}}_worker()			// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l13}}_worker()
	// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)			// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CHECK: call i1 @__kmpc_kernel_parallel(			// CHECK: call i1 @__kmpc_kernel_parallel(
	// CHECK: call void @__omp_outlined___wrapper(			// CHECK: call void @__omp_outlined___wrapper(

	// CHECK: define weak void @__omp_offloading_{{.*}}l12(			// CHECK: define weak void @__omp_offloading_{{.*}}l13(
	// CHECK: call void @__omp_offloading_{{.*}}l12_worker()			// CHECK: call void @__omp_offloading_{{.*}}l13_worker()
	// CHECK: call void @__kmpc_kernel_init(			// CHECK: call void @__kmpc_kernel_init(
	// CHECK: call void @__kmpc_data_sharing_init_stack()			// CHECK: call void @__kmpc_data_sharing_init_stack()
	// CHECK: [[IS_SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],			// SEQ: [[IS_SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],
	// CHECK: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE]],			// SEQ: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE]],
	// CHECK: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i64 %7, i16 %6, i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))			// SEQ: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i64 %7, i16 %6, i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))
	// CHECK: [[KERNEL_RD:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],			// SEQ: [[KERNEL_RD:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],
	// CHECK: [[STACK:%.+]] = getelementptr inbounds i8, i8* [[KERNEL_RD]], i{{64\|32}} 0			// SEQ: [[STACK:%.+]] = getelementptr inbounds i8, i8* [[KERNEL_RD]], i{{64\|32}} 0
				// PAR: [[STACK:%.+]] = call i8* @__kmpc_data_sharing_push_stack(i{{32\|64}} 4, i16 1)
	// CHECK: call void @__kmpc_kernel_prepare_parallel(			// CHECK: call void @__kmpc_kernel_prepare_parallel(
	// CHECK: call void @__kmpc_begin_sharing_variables({{.*}}, i64 2)			// CHECK: call void @__kmpc_begin_sharing_variables({{.*}}, i64 2)
	// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)			// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)			// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CHECK: call void @__kmpc_end_sharing_variables()			// CHECK: call void @__kmpc_end_sharing_variables()
	// CHECK: [[IS_SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],			// SEQ: [[IS_SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],
	// CHECK: call void @__kmpc_restore_team_static_memory(i16 0, i16 [[IS_SHARED]])			// SEQ: call void @__kmpc_restore_team_static_memory(i16 0, i16 [[IS_SHARED]])
				// PAR: call void @__kmpc_data_sharing_pop_stack(i8* [[STACK]])
	// CHECK: call void @__kmpc_kernel_deinit(i16 1)			// CHECK: call void @__kmpc_kernel_deinit(i16 1)

	// CHECK: define internal void @__omp_outlined__(			// CHECK: define internal void @__omp_outlined__(
	// CHECK: alloca			// CHECK: alloca
	// CHECK: alloca			// CHECK: alloca
	// CHECK: alloca			// CHECK: alloca
	// CHECK: alloca			// CHECK: alloca
	// CHECK: [[OMP_IV:%.*]] = alloca i32			// CHECK: [[OMP_IV:%.*]] = alloca i32
	▲ Show 20 Lines • Show All 67 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_target_teams_distribute_codegen.cpp

// Test target codegen - host bc file has to be created first.		// Test target codegen - host bc file has to be created first.
// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc		// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64		// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64 --check-prefix SEQ
		// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64 --check-prefix PAR
// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc		// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc
// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32		// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix SEQ
// RUN: %clang_cc1 -verify -fopenmp -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32		// RUN: %clang_cc1 -verify -fopenmp -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix SEQ
		// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix PAR
		// RUN: %clang_cc1 -verify -fopenmp -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix PAR
// expected-no-diagnostics		// expected-no-diagnostics
#ifndef HEADER		#ifndef HEADER
#define HEADER		#define HEADER

// CHECK: [[MEM_TY:%.+]] = type { [128 x i8] }		// SEQ: [[MEM_TY:%.+]] = type { [128 x i8] }
// CHECK-DAG: {{@__omp_offloading_.+}}_l20_exec_mode = weak constant i8 1		// SEQ-DAG: {{@__omp_offloading_.+}}_l23_exec_mode = weak constant i8 1
// CHECK-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 4		// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 4
// CHECK-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1		// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1

template<typename tx>		template<typename tx>
tx ftemplate(int n) {		tx ftemplate(int n) {
int i;		int i;

#pragma omp target teams distribute		#pragma omp target teams distribute
for (i = 0; i < 10; ++i)		for (i = 0; i < 10; ++i)
{		{
#pragma omp parallel		#pragma omp parallel
++i;		++i;
}		}

return i;		return i;
}		}

int bar(int n){		int bar(int n){
int a = 0;		int a = 0;

a += ftemplate<char>(n);		a += ftemplate<char>(n);

return a;		return a;
}		}

// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l20}}_worker()		// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l23}}_worker()
// CHECK: ret void		// CHECK: ret void

// CHECK: define {{.*}}void {{@__omp_offloading_.+template.+l20}}()		// CHECK: define {{.*}}void {{@__omp_offloading_.+template.+l23}}()

// CHECK-DAG: [[TID:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()		// CHECK-DAG: [[TID:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
// CHECK-DAG: [[NTH:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()		// CHECK-DAG: [[NTH:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
// CHECK-DAG: [[WS:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()		// CHECK-DAG: [[WS:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
// CHECK-DAG: [[TH_LIMIT:%.+]] = sub nuw i32 [[NTH]], [[WS]]		// CHECK-DAG: [[TH_LIMIT:%.+]] = sub nuw i32 [[NTH]], [[WS]]
// CHECK: [[IS_WORKER:%.+]] = icmp ult i32 [[TID]], [[TH_LIMIT]]		// CHECK: [[IS_WORKER:%.+]] = icmp ult i32 [[TID]], [[TH_LIMIT]]
// CHECK: br i1 [[IS_WORKER]], label {{%?}}[[WORKER:.+]], label {{%?}}[[CHECK_MASTER:.+]]		// CHECK: br i1 [[IS_WORKER]], label {{%?}}[[WORKER:.+]], label {{%?}}[[CHECK_MASTER:.+]]
//		//
// CHECK: [[WORKER]]		// CHECK: [[WORKER]]
// CHECK: {{call\|invoke}} void {{@__omp_offloading_.+template.+l20}}_worker()		// CHECK: {{call\|invoke}} void {{@__omp_offloading_.+template.+l23}}_worker()
// CHECK: br label {{%?}}[[EXIT:.+]]		// CHECK: br label {{%?}}[[EXIT:.+]]
//		//
// CHECK: [[CHECK_MASTER]]		// CHECK: [[CHECK_MASTER]]
// CHECK-DAG: [[CMTID:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()		// CHECK-DAG: [[CMTID:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
// CHECK-DAG: [[CMNTH:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()		// CHECK-DAG: [[CMNTH:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
// CHECK-DAG: [[CMWS:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()		// CHECK-DAG: [[CMWS:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
// CHECK: [[IS_MASTER:%.+]] = icmp eq i32 [[CMTID]],		// CHECK: [[IS_MASTER:%.+]] = icmp eq i32 [[CMTID]],
// CHECK: br i1 [[IS_MASTER]], label {{%?}}[[MASTER:.+]], label {{%?}}[[EXIT]]		// CHECK: br i1 [[IS_MASTER]], label {{%?}}[[MASTER:.+]], label {{%?}}[[EXIT]]
Show All 10 Lines	int bar(int n){
// CHECK: call void @__kmpc_kernel_deinit(		// CHECK: call void @__kmpc_kernel_deinit(
// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)		// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
// CHECK: br label {{%?}}[[EXIT]]		// CHECK: br label {{%?}}[[EXIT]]
//		//
// CHECK: [[EXIT]]		// CHECK: [[EXIT]]
// CHECK: ret void		// CHECK: ret void

// CHECK: define internal void [[PARALLEL]](i32* noalias %{{.+}}, i32* noalias %{{.+}})		// CHECK: define internal void [[PARALLEL]](i32* noalias %{{.+}}, i32* noalias %{{.+}})
// CHECK: [[SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],		// SEQ: [[SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],
// CHECK: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE]],		// SEQ: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE]],
// CHECK: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* @{{.+}}, i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[SHARED]], i8* addrspacecast (i8* addrspace(3)* [[BUF:@.+]] to i8**))		// SEQ: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* @{{.+}}, i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[SHARED]], i8* addrspacecast (i8* addrspace(3)* [[BUF:@.+]] to i8**))
// CHECK: [[PTR:%.+]] = load i8, i8 addrspace(3)* [[BUF]],		// SEQ: [[PTR:%.+]] = load i8, i8 addrspace(3)* [[BUF]],
// CHECK: [[ADDR:%.+]] = getelementptr inbounds i8, i8* [[PTR]], i{{64\|32}} 0		// SEQ: [[ADDR:%.+]] = getelementptr inbounds i8, i8* [[PTR]], i{{64\|32}} 0
		// PAR: [[ADDR:%.+]] = call i8* @__kmpc_data_sharing_push_stack(i{{32\|64}} 4, i16 1)
// CHECK: [[RD:%.+]] = bitcast i8* [[ADDR]] to [[GLOB_TY:%.+]]*		// CHECK: [[RD:%.+]] = bitcast i8* [[ADDR]] to [[GLOB_TY:%.+]]*
// CHECK: [[I_ADDR:%.+]] = getelementptr inbounds [[GLOB_TY]], [[GLOB_TY]]* [[RD]], i32 0, i32 0		// CHECK: [[I_ADDR:%.+]] = getelementptr inbounds [[GLOB_TY]], [[GLOB_TY]]* [[RD]], i32 0, i32 0
//		//
// CHECK: call void @__kmpc_for_static_init_4(		// CHECK: call void @__kmpc_for_static_init_4(
// CHECK: call void @__kmpc_kernel_prepare_parallel(i8* bitcast (void (i16, i32)* @{{.+}} to i8*), i16 1)		// CHECK: call void @__kmpc_kernel_prepare_parallel(i8* bitcast (void (i16, i32)* @{{.+}} to i8*), i16 1)
// CHECK: call void @__kmpc_begin_sharing_variables(i8*** [[SHARED_VARS_PTR:%.+]], i{{64\|32}} 1)		// CHECK: call void @__kmpc_begin_sharing_variables(i8*** [[SHARED_VARS_PTR:%.+]], i{{64\|32}} 1)
// CHECK: [[SHARED_VARS_BUF:%.+]] = load i8, i8* [[SHARED_VARS_PTR]],		// CHECK: [[SHARED_VARS_BUF:%.+]] = load i8, i8* [[SHARED_VARS_PTR]],
// CHECK: [[VARS_BUF:%.+]] = getelementptr inbounds i8, i8* [[SHARED_VARS_BUF]], i{{64\|32}} 0		// CHECK: [[VARS_BUF:%.+]] = getelementptr inbounds i8, i8* [[SHARED_VARS_BUF]], i{{64\|32}} 0
// CHECK: [[I_ADDR_BC:%.+]] = bitcast i32* [[I_ADDR]] to i8*		// CHECK: [[I_ADDR_BC:%.+]] = bitcast i32* [[I_ADDR]] to i8*
// CHECK: store i8* [[I_ADDR_BC]], i8** [[VARS_BUF]],		// CHECK: store i8* [[I_ADDR_BC]], i8** [[VARS_BUF]],
// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)		// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)		// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
// CHECK: call void @__kmpc_end_sharing_variables()		// CHECK: call void @__kmpc_end_sharing_variables()
// CHECK: call void @__kmpc_for_static_fini(		// CHECK: call void @__kmpc_for_static_fini(
#endif		#endif

clang/test/OpenMP/nvptx_target_teams_distribute_parallel_for_codegen.cpp

	// Test target codegen - host bc file has to be created first.			// Test target codegen - host bc file has to be created first.
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64 --check-prefix CHECK-DIV64			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64 --check-prefix CHECK-DIV64 --check-prefix SEQ
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -fopenmp-optimistic-collapse -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-DIV32			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64 --check-prefix CHECK-DIV64 --check-prefix PAR
				// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -fopenmp-optimistic-collapse -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-DIV32 --check-prefix SEQ
				// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -fopenmp-optimistic-collapse -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-DIV32 --check-prefix PAR
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix SEQ
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix SEQ
				// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix PAR
				// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix PAR
	// expected-no-diagnostics			// expected-no-diagnostics
	#ifndef HEADER			#ifndef HEADER
	#define HEADER			#define HEADER

	// Check that the execution mode of all 5 target regions on the gpu is set to SPMD Mode.			// Check that the execution mode of all 5 target regions on the gpu is set to SPMD Mode.
	// CHECK-DAG: {{@__omp_offloading_.+l34}}_exec_mode = weak constant i8 0			// CHECK-DAG: {{@__omp_offloading_.+l38}}_exec_mode = weak constant i8 0
	// CHECK-DAG: {{@__omp_offloading_.+l40}}_exec_mode = weak constant i8 0			// CHECK-DAG: {{@__omp_offloading_.+l44}}_exec_mode = weak constant i8 0
	// CHECK-DAG: {{@__omp_offloading_.+l45}}_exec_mode = weak constant i8 0			// CHECK-DAG: {{@__omp_offloading_.+l49}}_exec_mode = weak constant i8 0
	// CHECK-DAG: {{@__omp_offloading_.+l50}}_exec_mode = weak constant i8 0			// CHECK-DAG: {{@__omp_offloading_.+l54}}_exec_mode = weak constant i8 0
	// CHECK-DAG: {{@__omp_offloading_.+l58}}_exec_mode = weak constant i8 0			// CHECK-DAG: {{@__omp_offloading_.+l62}}_exec_mode = weak constant i8 0
	// CHECK-DAG: {{@__omp_offloading_.+l65}}_exec_mode = weak constant i8 0			// CHECK-DAG: {{@__omp_offloading_.+l69}}_exec_mode = weak constant i8 0

	#define N 1000			#define N 1000
	#define M 10			#define M 10

	template<typename tx>			template<typename tx>
	tx ftemplate(int n) {			tx ftemplate(int n) {
	tx a[N];			tx a[N];
	short aa[N];			short aa[N];
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	int bar(int n){			int bar(int n){
	int a = 0;			int a = 0;

	a += ftemplate<int>(n);			a += ftemplate<int>(n);

	return a;			return a;
	}			}

	// CHECK-DAG: [[MEM_TY:%.+]] = type { [128 x i8] }			// SEQ-DAG: [[MEM_TY:%.+]] = type { [128 x i8] }
	// CHECK-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer			// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer
	// CHECK-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null			// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null
	// CHECK-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 4			// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 4
	// CHECK-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1			// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1

	// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+}}_l34(			// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+}}_l38(
	// CHECK-DAG: [[THREAD_LIMIT:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()			// CHECK-DAG: [[THREAD_LIMIT:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
	// CHECK: call void @__kmpc_spmd_kernel_init(i32 [[THREAD_LIMIT]], i16 0, i16 0)			// CHECK: call void @__kmpc_spmd_kernel_init(i32 [[THREAD_LIMIT]], i16 0, i16 0)
	// CHECK: call void [[PARALLEL:@.+]](			// CHECK: call void [[PARALLEL:@.+]](
	// CHECK: call void @__kmpc_spmd_kernel_deinit_v2(i16 0)			// CHECK: call void @__kmpc_spmd_kernel_deinit_v2(i16 0)

	// CHECK: define internal void [[PARALLEL]](			// CHECK: define internal void [[PARALLEL]](
	// CHECK: [[SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],			// SEQ: [[SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],
	// CHECK: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE]],			// SEQ: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE]],
	// CHECK: call void @__kmpc_get_team_static_memory(i16 1, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[SHARED]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))			// SEQ: call void @__kmpc_get_team_static_memory(i16 1, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[SHARED]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))
	// CHECK: [[TEAM_ALLOC:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],			// SEQ: [[TEAM_ALLOC:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],
	// CHECK: [[ADDR:%.+]] = getelementptr inbounds i8, i8* [[TEAM_ALLOC]], i{{64\|32}} 0			// SEQ: [[ADDR:%.+]] = getelementptr inbounds i8, i8* [[TEAM_ALLOC]], i{{64\|32}} 0
				// PAR: [[ADDR:%.+]] = call i8* @__kmpc_data_sharing_push_stack(i{{32\|64}} 4, i16 1)
	// CHECK: [[BC:%.+]] = bitcast i8* [[ADDR]] to [[REC:%.+]]*			// CHECK: [[BC:%.+]] = bitcast i8* [[ADDR]] to [[REC:%.+]]*
	// CHECK: getelementptr inbounds [[REC]], [[REC]]* [[BC]], i{{[0-9]+}} 0, i{{[0-9]+}} 0			// CHECK: getelementptr inbounds [[REC]], [[REC]]* [[BC]], i{{[0-9]+}} 0, i{{[0-9]+}} 0
	// CHECK: call void @__kmpc_for_static_init_4({{.+}}, {{.+}}, {{.+}} 91,			// CHECK: call void @__kmpc_for_static_init_4({{.+}}, {{.+}}, {{.+}} 91,
	// CHECK: {{call\|invoke}} void [[OUTL1:@.+]](			// CHECK: {{call\|invoke}} void [[OUTL1:@.+]](
	// CHECK: call void @__kmpc_for_static_fini(			// CHECK: call void @__kmpc_for_static_fini(
	// CHECK: [[SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],			// SEQ: [[SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],
	// CHECK: call void @__kmpc_restore_team_static_memory(i16 1, i16 [[SHARED]])			// SEQ: call void @__kmpc_restore_team_static_memory(i16 1, i16 [[SHARED]])
				// PAR: call void @__kmpc_data_sharing_pop_stack(i8* [[ADDR]])
	// CHECK: ret void			// CHECK: ret void

	// CHECK: define internal void [[OUTL1]](			// CHECK: define internal void [[OUTL1]](
	// CHECK: call void @__kmpc_for_static_init_4({{.+}}, {{.+}}, {{.+}} 33,			// CHECK: call void @__kmpc_for_static_init_4({{.+}}, {{.+}}, {{.+}} 33,
	// CHECK: call void @__kmpc_for_static_fini(			// CHECK: call void @__kmpc_for_static_fini(
	// CHECK: ret void			// CHECK: ret void

	// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+}}(			// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+}}(
	▲ Show 20 Lines • Show All 116 Lines • ▼ Show 20 Lines


	// CHECK-32: define internal void [[OUTL4]](			// CHECK-32: define internal void [[OUTL4]](
	// CHECK-64: define internal void [[OUTL4]](			// CHECK-64: define internal void [[OUTL4]](
	// CHECK: call void @__kmpc_for_static_init_4({{.+}}, {{.+}}, {{.+}} 33,			// CHECK: call void @__kmpc_for_static_init_4({{.+}}, {{.+}}, {{.+}} 33,
	// CHECK: call void @__kmpc_for_static_fini(			// CHECK: call void @__kmpc_for_static_fini(
	// CHECK: ret void			// CHECK: ret void

	// CHECK: define weak void @__omp_offloading_{{.}}_l58(i[[SZ:64\|32]] %{{[^,]+}}, [10 x [10 x i32]] nonnull align {{[0-9]+}} dereferenceable{{.*}})			// CHECK: define weak void @__omp_offloading_{{.}}_l62(i[[SZ:64\|32]] %{{[^,]+}}, [10 x [10 x i32]] nonnull align {{[0-9]+}} dereferenceable{{.*}})
	// CHECK: call void [[OUTLINED:@__omp_outlined.]](i32 %{{.+}}, i32* %{{.+}}, i[[SZ]] %{{.}}, i[[SZ]] %{{.}}, i[[SZ]] %{{.}}, [10 x [10 x i32]] %{{.*}})			// CHECK: call void [[OUTLINED:@__omp_outlined.]](i32 %{{.+}}, i32* %{{.+}}, i[[SZ]] %{{.}}, i[[SZ]] %{{.}}, i[[SZ]] %{{.}}, [10 x [10 x i32]] %{{.*}})
	// CHECK: define internal void [[OUTLINED]](i32* noalias %{{.}}, i32 noalias %{{.}} i[[SZ]] %{{.+}}, i[[SZ]] %{{.+}}, i[[SZ]] %{{.+}}, [10 x [10 x i32]] nonnull align {{[0-9]+}} dereferenceable{{.*}})			// CHECK: define internal void [[OUTLINED]](i32* noalias %{{.}}, i32 noalias %{{.}} i[[SZ]] %{{.+}}, i[[SZ]] %{{.+}}, i[[SZ]] %{{.+}}, [10 x [10 x i32]] nonnull align {{[0-9]+}} dereferenceable{{.*}})
	// CHECK-DIV64: div i64			// CHECK-DIV64: div i64
	// CHECK-DIV32-NO: div i64			// CHECK-DIV32-NO: div i64

	// CHECK: define weak void @__omp_offloading_{{.}}_l65(i[[SZ:64\|32]] %{{[^,]+}}, [1000 x i32] nonnull align {{[0-9]+}} dereferenceable{{.}}, i32 %{{[^)]+}})			// CHECK: define weak void @__omp_offloading_{{.}}_l69(i[[SZ:64\|32]] %{{[^,]+}}, [1000 x i32] nonnull align {{[0-9]+}} dereferenceable{{.}}, i32 %{{[^)]+}})
	// CHECK: call void [[OUTLINED:@__omp_outlined.]](i32 %{{.+}}, i32* %{{.+}}, i[[SZ]] %{{.}}, i[[SZ]] %{{.}}, i[[SZ]] %{{.}}, [1000 x i32] %{{.}}, i32 %{{.*}})			// CHECK: call void [[OUTLINED:@__omp_outlined.]](i32 %{{.+}}, i32* %{{.+}}, i[[SZ]] %{{.}}, i[[SZ]] %{{.}}, i[[SZ]] %{{.}}, [1000 x i32] %{{.}}, i32 %{{.*}})
	// CHECK: define internal void [[OUTLINED]](i32* noalias %{{.}}, i32 noalias %{{.}} i[[SZ]] %{{.+}}, i[[SZ]] %{{.+}}, i[[SZ]] %{{.+}}, [1000 x i32] nonnull align {{[0-9]+}} dereferenceable{{.}}, i32 %{{.*}})			// CHECK: define internal void [[OUTLINED]](i32* noalias %{{.}}, i32 noalias %{{.}} i[[SZ]] %{{.+}}, i[[SZ]] %{{.+}}, i[[SZ]] %{{.+}}, [1000 x i32] nonnull align {{[0-9]+}} dereferenceable{{.}}, i32 %{{.*}})

	#endif			#endif

clang/test/OpenMP/nvptx_target_teams_distribute_parallel_for_simd_codegen.cpp

	// Test target codegen - host bc file has to be created first.			// Test target codegen - host bc file has to be created first.
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64 --check-prefix SEQ
				// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64 --check-prefix PAR
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix SEQ
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix SEQ
				// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix PAR
				// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix PAR
	// expected-no-diagnostics			// expected-no-diagnostics
	#ifndef HEADER			#ifndef HEADER
	#define HEADER			#define HEADER

	// Check that the execution mode of all 4 target regions on the gpu is set to SPMD Mode.			// Check that the execution mode of all 4 target regions on the gpu is set to SPMD Mode.
	// CHECK-DAG: {{@__omp_offloading_.+l30}}_exec_mode = weak constant i8 0			// CHECK-DAG: {{@__omp_offloading_.+l33}}_exec_mode = weak constant i8 0
	// CHECK-DAG: {{@__omp_offloading_.+l36}}_exec_mode = weak constant i8 0			// CHECK-DAG: {{@__omp_offloading_.+l39}}_exec_mode = weak constant i8 0
	// CHECK-DAG: {{@__omp_offloading_.+l41}}_exec_mode = weak constant i8 0			// CHECK-DAG: {{@__omp_offloading_.+l44}}_exec_mode = weak constant i8 0
	// CHECK-DAG: {{@__omp_offloading_.+l46}}_exec_mode = weak constant i8 0			// CHECK-DAG: {{@__omp_offloading_.+l49}}_exec_mode = weak constant i8 0

	#define N 1000			#define N 1000
	#define M 10			#define M 10

	template<typename tx>			template<typename tx>
	tx ftemplate(int n) {			tx ftemplate(int n) {
	tx a[N];			tx a[N];
	short aa[N];			short aa[N];
	Show All 33 Lines
	int bar(int n){			int bar(int n){
	int a = 0;			int a = 0;

	a += ftemplate<int>(n);			a += ftemplate<int>(n);

	return a;			return a;
	}			}

	// CHECK-DAG: [[MEM_TY:%.+]] = type { [128 x i8] }			// SEQ-DAG: [[MEM_TY:%.+]] = type { [128 x i8] }
	// CHECK-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer			// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer
	// CHECK-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null			// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null
	// CHECK-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 4			// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 4
	// CHECK-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1			// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1

	// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+}}_l30(			// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+}}_l33(
	// CHECK-DAG: [[THREAD_LIMIT:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()			// CHECK-DAG: [[THREAD_LIMIT:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
	// CHECK: call void @__kmpc_spmd_kernel_init(i32 [[THREAD_LIMIT]], i16 0, i16 0)			// CHECK: call void @__kmpc_spmd_kernel_init(i32 [[THREAD_LIMIT]], i16 0, i16 0)
	// CHECK: call void @__kmpc_spmd_kernel_deinit_v2(i16 0)			// CHECK: call void @__kmpc_spmd_kernel_deinit_v2(i16 0)

	// CHECK: [[SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],			// SEQ: [[SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],
	// CHECK: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE]],			// SEQ: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE]],
	// CHECK: call void @__kmpc_get_team_static_memory(i16 1, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[SHARED]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))			// SEQ: call void @__kmpc_get_team_static_memory(i16 1, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[SHARED]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))
	// CHECK: [[TEAM_ALLOC:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],			// SEQ: [[TEAM_ALLOC:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],
	// CHECK: [[PTR:%.+]] = getelementptr inbounds i8, i8* [[TEAM_ALLOC]], i{{64\|32}} 0			// SEQ: [[PTR:%.+]] = getelementptr inbounds i8, i8* [[TEAM_ALLOC]], i{{64\|32}} 0
				// PAR: [[PTR:%.+]] = call i8* @__kmpc_data_sharing_push_stack(i{{32\|64}} 4, i16 1)
	// CHECK: [[BC:%.+]] = bitcast i8* [[PTR]] to [[REC:%.+]]*			// CHECK: [[BC:%.+]] = bitcast i8* [[PTR]] to [[REC:%.+]]*
	// CHECK: getelementptr inbounds [[REC]], [[REC]]* [[BC]], i{{[0-9]+}} 0, i{{[0-9]+}} 0			// CHECK: getelementptr inbounds [[REC]], [[REC]]* [[BC]], i{{[0-9]+}} 0, i{{[0-9]+}} 0
	// CHECK: call void @__kmpc_for_static_init_4({{.+}}, {{.+}}, {{.+}} 91,			// CHECK: call void @__kmpc_for_static_init_4({{.+}}, {{.+}}, {{.+}} 91,
	// CHECK: {{call\|invoke}} void [[OUTL1:@.+]](			// CHECK: {{call\|invoke}} void [[OUTL1:@.+]](
	// CHECK: call void @__kmpc_for_static_fini(			// CHECK: call void @__kmpc_for_static_fini(
	// CHECK: [[SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],			// SEQ: [[SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],
	// CHECK: call void @__kmpc_restore_team_static_memory(i16 1, i16 [[SHARED]])			// SEQ: call void @__kmpc_restore_team_static_memory(i16 1, i16 [[SHARED]])
				// PAR: call void @__kmpc_data_sharing_pop_stack(i8* [[PTR]])
	// CHECK: ret void			// CHECK: ret void

	// CHECK: define internal void [[OUTL1]](			// CHECK: define internal void [[OUTL1]](
	// CHECK: call void @__kmpc_for_static_init_4({{.+}}, {{.+}}, {{.+}} 33,			// CHECK: call void @__kmpc_for_static_init_4({{.+}}, {{.+}}, {{.+}} 33,
	// CHECK: call void @__kmpc_for_static_fini(			// CHECK: call void @__kmpc_for_static_fini(
	// CHECK: ret void			// CHECK: ret void

	// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+}}(			// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+}}(
	▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_teams_codegen.cpp

	// Test target codegen - host bc file has to be created first.			// Test target codegen - host bc file has to be created first.
	// RUN: %clang_cc1 -DCK1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -DCK1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -DCK1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CK1 --check-prefix CK1-64			// RUN: %clang_cc1 -DCK1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CK1 --check-prefix CK1-64 --check-prefix SEQ
				// RUN: %clang_cc1 -DCK1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CK1 --check-prefix CK1-64 --check-prefix PAR
	// RUN: %clang_cc1 -DCK1 -verify -fopenmp -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc			// RUN: %clang_cc1 -DCK1 -verify -fopenmp -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc
	// RUN: %clang_cc1 -DCK1 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CK1 --check-prefix CK1-32			// RUN: %clang_cc1 -DCK1 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CK1 --check-prefix CK1-32 --check-prefix SEQ
				// RUN: %clang_cc1 -DCK1 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CK1 --check-prefix CK1-32 --check-prefix PAR
	// expected-no-diagnostics			// expected-no-diagnostics
	#ifndef HEADER			#ifndef HEADER
	#define HEADER			#define HEADER

	#ifdef CK1			#ifdef CK1

	template <typename T>			template <typename T>
	int tmain(T argc) {			int tmain(T argc) {
	#pragma omp target			#pragma omp target
	#pragma omp teams			#pragma omp teams
	argc = 0;			argc = 0;
	return 0;			return 0;
	}			}


	int main (int argc, char **argv) {			int main (int argc, char **argv) {
	#pragma omp target			#pragma omp target
	#pragma omp teams			#pragma omp teams
	{			{
	argc = 0;			argc = 0;
	}			}
	return tmain(argv);			return tmain(argv);
	}			}

	// CK1: [[MEM_TY:%.+]] = type { [128 x i8] }			// SEQ: [[MEM_TY:%.+]] = type { [128 x i8] }
	// CK1-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer			// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer
	// CK1-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null			// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null
	// CK1-DAG: [[KERNEL_SIZE1:@.+]] = internal unnamed_addr constant i{{64\|32}} 4			// SEQ-DAG: [[KERNEL_SIZE1:@.+]] = internal unnamed_addr constant i{{64\|32}} 4
	// CK1-DAG: [[KERNEL_SIZE2:@.+]] = internal unnamed_addr constant i{{64\|32}} {{8\|4}}			// SEQ-DAG: [[KERNEL_SIZE2:@.+]] = internal unnamed_addr constant i{{64\|32}} {{8\|4}}
	// CK1-DAG: [[KERNEL_SHARED1:@.+]] = internal unnamed_addr constant i16 1			// SEQ-DAG: [[KERNEL_SHARED1:@.+]] = internal unnamed_addr constant i16 1
	// CK1-DAG: [[KERNEL_SHARED2:@.+]] = internal unnamed_addr constant i16 1			// SEQ-DAG: [[KERNEL_SHARED2:@.+]] = internal unnamed_addr constant i16 1

	// only nvptx side: do not outline teams region and do not call fork_teams			// only nvptx side: do not outline teams region and do not call fork_teams
	// CK1: define {{.*}}void @{{[^,]+}}(i{{[0-9]+}} [[ARGC:%.+]])			// CK1: define {{.*}}void @{{[^,]+}}(i{{[0-9]+}} [[ARGC:%.+]])
	// CK1: [[ARGCADDR:%.+]] = alloca i{{[0-9]+}},			// CK1: [[ARGCADDR:%.+]] = alloca i{{[0-9]+}},
	// CK1: store {{.+}} 0, {{.+}},			// CK1: store {{.+}} 0, {{.+}},
	// CK1: store i{{[0-9]+}} [[ARGC]], i{{[0-9]+}}* [[ARGCADDR]],			// CK1: store i{{[0-9]+}} [[ARGC]], i{{[0-9]+}}* [[ARGCADDR]],
	// CK1-64: [[CONV:%.+]] = bitcast i{{[0-9]+}}* [[ARGCADDR]] to i{{[0-9]+}}*			// CK1-64: [[CONV:%.+]] = bitcast i{{[0-9]+}}* [[ARGCADDR]] to i{{[0-9]+}}*
	// CK1: [[IS_SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED1]],			// SEQ: [[IS_SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED1]],
	// CK1: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE1]],			// SEQ: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE1]],
	// CK1: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[IS_SHARED]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))			// SEQ: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[IS_SHARED]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))
	// CK1: [[KERNEL_RD:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],			// SEQ: [[KERNEL_RD:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],
	// CK1: [[GLOBALSTACK:%.+]] = getelementptr inbounds i8, i8* [[KERNEL_RD]], i{{64\|32}} 0			// SEQ: [[GLOBALSTACK:%.+]] = getelementptr inbounds i8, i8* [[KERNEL_RD]], i{{64\|32}} 0
				// PAR: [[GLOBALSTACK:%.+]] = call i8* @__kmpc_data_sharing_push_stack(i{{32\|64}} 4, i16 1)
	// CK1-64: [[ARG:%.+]] = load i{{[0-9]+}}, i{{[0-9]+}}* [[CONV]]			// CK1-64: [[ARG:%.+]] = load i{{[0-9]+}}, i{{[0-9]+}}* [[CONV]]
	// CK1-32: [[ARG:%.+]] = load i{{[0-9]+}}, i{{[0-9]+}}* [[ARGCADDR]]			// CK1-32: [[ARG:%.+]] = load i{{[0-9]+}}, i{{[0-9]+}}* [[ARGCADDR]]
	// CK1: [[ARGCADDR:%.+]] = getelementptr inbounds %struct.{{.}}, %struct.{{.}}* %{{.*}}, i{{[0-9]+}} 0, i{{[0-9]+}} 0			// CK1: [[ARGCADDR:%.+]] = getelementptr inbounds %struct.{{.}}, %struct.{{.}}* %{{.*}}, i{{[0-9]+}} 0, i{{[0-9]+}} 0
	// CK1: store i{{[0-9]+}} [[ARG]], i{{[0-9]+}}* [[ARGCADDR]],			// CK1: store i{{[0-9]+}} [[ARG]], i{{[0-9]+}}* [[ARGCADDR]],
	// CK1: call void [[OUTLINED:@.+]](i32* %{{.+}}, i32* %{{.+}}, i32* [[ARGCADDR]])			// CK1: call void [[OUTLINED:@.+]](i32* %{{.+}}, i32* %{{.+}}, i32* [[ARGCADDR]])
	// CK1: ret void			// CK1: ret void
	// CK1-NEXT: }			// CK1-NEXT: }

	// CK1: define internal void [[OUTLINED]](			// CK1: define internal void [[OUTLINED]](
	// CK1: store i{{[0-9]+}} 0, i{{[0-9]+}}* %			// CK1: store i{{[0-9]+}} 0, i{{[0-9]+}}* %
	// CK1-NOT: call {{.}}void (%struct.ident_t, i32, void (i32, i32, ...)*, ...) @__kmpc_fork_teams(			// CK1-NOT: call {{.}}void (%struct.ident_t, i32, void (i32, i32, ...)*, ...) @__kmpc_fork_teams(

	// target region in template			// target region in template
	// CK1: define {{.}}void @{{[^,]+}}(i{{.+}}* [[ARGC:%.+]])			// CK1: define {{.}}void @{{[^,]+}}(i{{.+}}* [[ARGC:%.+]])
	// CK1: [[ARGCADDR:%.+]] = alloca i{{.+}}**,			// CK1: [[ARGCADDR:%.+]] = alloca i{{.+}}**,
	// CK1: store i{{.+}} [[ARGC]], i{{.+}}* [[ARGCADDR]]			// CK1: store i{{.+}} [[ARGC]], i{{.+}}* [[ARGCADDR]]
	// CK1: [[IS_SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED2]],			// SEQ: [[IS_SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED2]],
	// CK1: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE2]],			// SEQ: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE2]],
	// CK1: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[IS_SHARED]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))			// SEQ: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[IS_SHARED]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))
	// CK1: [[KERNEL_RD:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],			// SEQ: [[KERNEL_RD:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],
	// CK1: [[GLOBALSTACK:%.+]] = getelementptr inbounds i8, i8* [[KERNEL_RD]], i{{64\|32}} 0			// SEQ: [[GLOBALSTACK:%.+]] = getelementptr inbounds i8, i8* [[KERNEL_RD]], i{{64\|32}} 0
				// PAR: [[GLOBALSTACK:%.+]] = call i8* @__kmpc_data_sharing_push_stack(i{{32\|64}} {{4\|8}}, i16 1)
	// CK1: [[ARG:%.+]] = load i{{[0-9]+}}, i{{[0-9]+}}* [[ARGCADDR]]			// CK1: [[ARG:%.+]] = load i{{[0-9]+}}, i{{[0-9]+}}* [[ARGCADDR]]
	// CK1: [[ARGCADDR:%.+]] = getelementptr inbounds %struct.{{.}}, %struct.{{.}}* %{{.*}}, i{{[0-9]+}} 0, i{{[0-9]+}} 0			// CK1: [[ARGCADDR:%.+]] = getelementptr inbounds %struct.{{.}}, %struct.{{.}}* %{{.*}}, i{{[0-9]+}} 0, i{{[0-9]+}} 0
	// CK1: store i{{[0-9]+}} [[ARG]], i{{[0-9]+}}* [[ARGCADDR]],			// CK1: store i{{[0-9]+}} [[ARG]], i{{[0-9]+}}* [[ARGCADDR]],
	// CK1: call void [[OUTLINED:@.+]](i32* %{{.+}}, i32* %{{.+}}, i8*** [[ARGCADDR]])			// CK1: call void [[OUTLINED:@.+]](i32* %{{.+}}, i32* %{{.+}}, i8*** [[ARGCADDR]])
	// CK1: ret void			// CK1: ret void
	// CK1-NEXT: }			// CK1-NEXT: }

	// CK1: define internal void [[OUTLINED]](			// CK1: define internal void [[OUTLINED]](
	// CK1: store i{{[0-9]+}} null, i{{[0-9]+}}* %			// CK1: store i{{[0-9]+}} null, i{{[0-9]+}}* %
	// CK1-NOT: call {{.}}void (%struct.ident_t, i32, void (i32, i32, ...)*, ...) @__kmpc_fork_teams(			// CK1-NOT: call {{.}}void (%struct.ident_t, i32, void (i32, i32, ...)*, ...) @__kmpc_fork_teams(


	#endif // CK1			#endif // CK1

	// Test target codegen - host bc file has to be created first.			// Test target codegen - host bc file has to be created first.
	// RUN: %clang_cc1 -DCK2 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -DCK2 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -DCK2 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CK2 --check-prefix CK2-64			// RUN: %clang_cc1 -DCK2 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CK2 --check-prefix CK2-64 --check-prefix SEQ2
				// RUN: %clang_cc1 -DCK2 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CK2 --check-prefix CK2-64 --check-prefix PAR2
	// RUN: %clang_cc1 -DCK2 -verify -fopenmp -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc			// RUN: %clang_cc1 -DCK2 -verify -fopenmp -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc
	// RUN: %clang_cc1 -DCK2 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CK2 --check-prefix CK2-32			// RUN: %clang_cc1 -DCK2 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CK2 --check-prefix CK2-32 --check-prefix SEQ2
				// RUN: %clang_cc1 -DCK2 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CK2 --check-prefix CK2-32 --check-prefix PAR2
	// expected-no-diagnostics			// expected-no-diagnostics
	#ifdef CK2			#ifdef CK2

	template <typename T>			template <typename T>
	int tmain(T argc) {			int tmain(T argc) {
	int a = 10;			int a = 10;
	int b = 5;			int b = 5;
	#pragma omp target			#pragma omp target
	Show All 10 Lines
	#pragma omp target			#pragma omp target
	#pragma omp teams num_teams(a) thread_limit(b)			#pragma omp teams num_teams(a) thread_limit(b)
	{			{
	argc = 0;			argc = 0;
	}			}
	return tmain(argv);			return tmain(argv);
	}			}

	// CK2: [[MEM_TY:%.+]] = type { [128 x i8] }			// SEQ2: [[MEM_TY:%.+]] = type { [128 x i8] }
	// CK2-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer			// SEQ2-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer
	// CK2-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null			// SEQ2-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null
	// CK2-DAG: [[KERNEL_SIZE1:@.+]] = internal unnamed_addr constant i{{64\|32}} 4			// SEQ2-DAG: [[KERNEL_SIZE1:@.+]] = internal unnamed_addr constant i{{64\|32}} 4
	// CK2-DAG: [[KERNEL_SIZE2:@.+]] = internal unnamed_addr constant i{{64\|32}} {{8\|4}}			// SEQ2-DAG: [[KERNEL_SIZE2:@.+]] = internal unnamed_addr constant i{{64\|32}} {{8\|4}}
	// CK2-DAG: [[KERNEL_SHARED1:@.+]] = internal unnamed_addr constant i16 1			// SEQ2-DAG: [[KERNEL_SHARED1:@.+]] = internal unnamed_addr constant i16 1
	// CK2-DAG: [[KERNEL_SHARED2:@.+]] = internal unnamed_addr constant i16 1			// SEQ2-DAG: [[KERNEL_SHARED2:@.+]] = internal unnamed_addr constant i16 1

	// CK2: define {{.*}}void @{{[^,]+}}(i{{[0-9]+}} [[A_IN:%.+]], i{{[0-9]+}} [[B_IN:%.+]], i{{[0-9]+}} [[ARGC_IN:.+]])			// CK2: define {{.*}}void @{{[^,]+}}(i{{[0-9]+}} [[A_IN:%.+]], i{{[0-9]+}} [[B_IN:%.+]], i{{[0-9]+}} [[ARGC_IN:.+]])
	// CK2: [[AADDR:%.+]] = alloca i{{[0-9]+}},			// CK2: [[AADDR:%.+]] = alloca i{{[0-9]+}},
	// CK2: [[BADDR:%.+]] = alloca i{{[0-9]+}},			// CK2: [[BADDR:%.+]] = alloca i{{[0-9]+}},
	// CK2: [[ARGCADDR:%.+]] = alloca i{{[0-9]+}},			// CK2: [[ARGCADDR:%.+]] = alloca i{{[0-9]+}},
	// CK2: store i{{[0-9]+}} [[A_IN]], i{{[0-9]+}}* [[AADDR]],			// CK2: store i{{[0-9]+}} [[A_IN]], i{{[0-9]+}}* [[AADDR]],
	// CK2: store i{{[0-9]+}} [[B_IN]], i{{[0-9]+}}* [[BADDR]],			// CK2: store i{{[0-9]+}} [[B_IN]], i{{[0-9]+}}* [[BADDR]],
	// CK2: store i{{[0-9]+}} [[ARGC_IN]], i{{[0-9]+}}* [[ARGCADDR]],			// CK2: store i{{[0-9]+}} [[ARGC_IN]], i{{[0-9]+}}* [[ARGCADDR]],
	// CK2-64: [[ACONV:%.+]] = bitcast i64* [[AADDR]] to i32*			// CK2-64: [[ACONV:%.+]] = bitcast i64* [[AADDR]] to i32*
	// CK2-64: [[BCONV:%.+]] = bitcast i64* [[BADDR]] to i32*			// CK2-64: [[BCONV:%.+]] = bitcast i64* [[BADDR]] to i32*
	// CK2-64: [[CONV:%.+]] = bitcast i64* [[ARGCADDR]] to i32*			// CK2-64: [[CONV:%.+]] = bitcast i64* [[ARGCADDR]] to i32*
	// CK2: [[IS_SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED1]],			// SEQ2: [[IS_SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED1]],
	// CK2: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE1]],			// SEQ2: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE1]],
	// CK2: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[IS_SHARED]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))			// SEQ2: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[IS_SHARED]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))
	// CK2: [[KERNEL_RD:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],			// SEQ2: [[KERNEL_RD:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],
	// CK2: [[GLOBALSTACK:%.+]] = getelementptr inbounds i8, i8* [[KERNEL_RD]], i{{64\|32}} 0			// SEQ2: [[GLOBALSTACK:%.+]] = getelementptr inbounds i8, i8* [[KERNEL_RD]], i{{64\|32}} 0
				// PAR2: [[GLOBALSTACK:%.+]] = call i8* @__kmpc_data_sharing_push_stack(i{{32\|64}} 4, i16 1)
	// CK2-64: [[ARG:%.+]] = load i{{[0-9]+}}, i{{[0-9]+}}* [[CONV]]			// CK2-64: [[ARG:%.+]] = load i{{[0-9]+}}, i{{[0-9]+}}* [[CONV]]
	// CK2-32: [[ARG:%.+]] = load i{{[0-9]+}}, i{{[0-9]+}}* [[ARGCADDR]]			// CK2-32: [[ARG:%.+]] = load i{{[0-9]+}}, i{{[0-9]+}}* [[ARGCADDR]]
	// CK2: [[ARGCADDR:%.+]] = getelementptr inbounds %struct.{{.}}, %struct.{{.}}* %{{.*}}, i{{[0-9]+}} 0, i{{[0-9]+}} 0			// CK2: [[ARGCADDR:%.+]] = getelementptr inbounds %struct.{{.}}, %struct.{{.}}* %{{.*}}, i{{[0-9]+}} 0, i{{[0-9]+}} 0
	// CK2: store i{{[0-9]+}} [[ARG]], i{{[0-9]+}}* [[ARGCADDR]],			// CK2: store i{{[0-9]+}} [[ARG]], i{{[0-9]+}}* [[ARGCADDR]],
	// CK2: {{%.+}} = call i32 @__kmpc_global_thread_num(			// CK2: {{%.+}} = call i32 @__kmpc_global_thread_num(
	// CK2: call void [[OUTLINED:@.+]](i32* %{{.+}}, i32* %{{.+}}, i32* [[ARGCADDR]])			// CK2: call void [[OUTLINED:@.+]](i32* %{{.+}}, i32* %{{.+}}, i32* [[ARGCADDR]])
	// CK2: ret			// CK2: ret

	// CK2: define internal void [[OUTLINED]](			// CK2: define internal void [[OUTLINED]](
	// CK2: store i{{[0-9]+}} 0, i{{[0-9]+}}* %			// CK2: store i{{[0-9]+}} 0, i{{[0-9]+}}* %
	// CK2-NOT: {{.+}} = call void @__kmpc_push_num_teams(			// CK2-NOT: {{.+}} = call void @__kmpc_push_num_teams(
	// CK2-NOT: call {{.}}void (%struct.ident_t, i32, void (i32, i32, ...)*, ...) @__kmpc_fork_teams(			// CK2-NOT: call {{.}}void (%struct.ident_t, i32, void (i32, i32, ...)*, ...) @__kmpc_fork_teams(

	// CK2: define {{.}}void @{{[^,]+}}(i{{[0-9]+}} [[A_IN:%.+]], i{{[0-9]+}} [[BP:%.+]], i{{[0-9]+}}* [[ARGC:%.+]])			// CK2: define {{.}}void @{{[^,]+}}(i{{[0-9]+}} [[A_IN:%.+]], i{{[0-9]+}} [[BP:%.+]], i{{[0-9]+}}* [[ARGC:%.+]])
	// CK2: [[AADDR:%.+]] = alloca i{{[0-9]+}},			// CK2: [[AADDR:%.+]] = alloca i{{[0-9]+}},
	// CK2: [[BADDR:%.+]] = alloca i{{[0-9]+}},			// CK2: [[BADDR:%.+]] = alloca i{{[0-9]+}},
	// CK2: [[ARGCADDR:%.+]] = alloca i{{[0-9]+}}**,			// CK2: [[ARGCADDR:%.+]] = alloca i{{[0-9]+}}**,
	// CK2: store i{{[0-9]+}} [[A_IN]], i{{[0-9]+}}* [[AADDR]],			// CK2: store i{{[0-9]+}} [[A_IN]], i{{[0-9]+}}* [[AADDR]],
	// CK2: store i{{[0-9]+}} [[B_IN]], i{{[0-9]+}}* [[BADDR]],			// CK2: store i{{[0-9]+}} [[B_IN]], i{{[0-9]+}}* [[BADDR]],
	// CK2: store i{{[0-9]+}} [[ARGC]], i{{[0-9]+}}* [[ARGCADDR]],			// CK2: store i{{[0-9]+}} [[ARGC]], i{{[0-9]+}}* [[ARGCADDR]],
	// CK2: [[IS_SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED2]],			// SEQ2: [[IS_SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED2]],
	// CK2: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE2]],			// SEQ2: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE2]],
	// CK2: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[IS_SHARED]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))			// SEQ2: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[IS_SHARED]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))
	// CK2: [[KERNEL_RD:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],			// SEQ2: [[KERNEL_RD:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],
	// CK2: [[GLOBALSTACK:%.+]] = getelementptr inbounds i8, i8* [[KERNEL_RD]], i{{64\|32}} 0			// SEQ2: [[GLOBALSTACK:%.+]] = getelementptr inbounds i8, i8* [[KERNEL_RD]], i{{64\|32}} 0
				// PAR2: [[GLOBALSTACK:%.+]] = call i8* @__kmpc_data_sharing_push_stack(i{{32\|64}} {{4\|8}}, i16 1)
	// CK2: [[ARG:%.+]] = load i{{[0-9]+}}, i{{[0-9]+}}* [[ARGCADDR]]			// CK2: [[ARG:%.+]] = load i{{[0-9]+}}, i{{[0-9]+}}* [[ARGCADDR]]
	// CK2: [[ARGCADDR:%.+]] = getelementptr inbounds %struct.{{.}}, %struct.{{.}}* %{{.*}}, i{{[0-9]+}} 0, i{{[0-9]+}} 0			// CK2: [[ARGCADDR:%.+]] = getelementptr inbounds %struct.{{.}}, %struct.{{.}}* %{{.*}}, i{{[0-9]+}} 0, i{{[0-9]+}} 0
	// CK2: store i{{[0-9]+}} [[ARG]], i{{[0-9]+}}* [[ARGCADDR]],			// CK2: store i{{[0-9]+}} [[ARG]], i{{[0-9]+}}* [[ARGCADDR]],
	// CK2: {{%.+}} = call i32 @__kmpc_global_thread_num(			// CK2: {{%.+}} = call i32 @__kmpc_global_thread_num(
	// CK2: call void [[OUTLINED:@.+]](i32* %{{.+}}, i32* %{{.+}}, i8*** [[ARGCADDR]])			// CK2: call void [[OUTLINED:@.+]](i32* %{{.+}}, i32* %{{.+}}, i8*** [[ARGCADDR]])
	// CK2: ret void			// CK2: ret void

	// CK2: define internal void [[OUTLINED]](			// CK2: define internal void [[OUTLINED]](
	// CK2: store i{{[0-9]+}} null, i{{[0-9]+}}* %			// CK2: store i{{[0-9]+}} null, i{{[0-9]+}}* %
	// CK2-NOT: {{.+}} = call void @__kmpc_push_num_teams(			// CK2-NOT: {{.+}} = call void @__kmpc_push_num_teams(
	// CK2-NOT: call {{.}}void (%struct.ident_t, i32, void (i32, i32, ...)*, ...) @__kmpc_fork_teams(			// CK2-NOT: call {{.}}void (%struct.ident_t, i32, void (i32, i32, ...)*, ...) @__kmpc_fork_teams(

	#endif // CK2			#endif // CK2
	#endif			#endif

clang/test/OpenMP/nvptx_teams_reduction_codegen.cpp

// Test target codegen - host bc file has to be created first.		// Test target codegen - host bc file has to be created first.
// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc		// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64		// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64 --check-prefix SEQ
		// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64 --check-prefix PAR
// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc		// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc
// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32		// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix SEQ
// RUN: %clang_cc1 -verify -fopenmp -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -fopenmp-cuda-teams-reduction-recs-num=2048 -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32		// RUN: %clang_cc1 -verify -fopenmp -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -fopenmp-cuda-teams-reduction-recs-num=2048 -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix SEQ
		// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix PAR
		// RUN: %clang_cc1 -verify -fopenmp -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -fopenmp-cuda-teams-reduction-recs-num=2048 -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix PAR
// expected-no-diagnostics		// expected-no-diagnostics
#ifndef HEADER		#ifndef HEADER
#define HEADER		#define HEADER

// CHECK-DAG: [[TEAM1_REDUCE_TY:%.+]] = type { [{{1024\|2048}} x double] }		// CHECK-DAG: [[TEAM1_REDUCE_TY:%.+]] = type { [{{1024\|2048}} x double] }
// CHECK-DAG: [[TEAM2_REDUCE_TY:%.+]] = type { [{{1024\|2048}} x i8], [{{1024\|2048}} x float] }		// CHECK-DAG: [[TEAM2_REDUCE_TY:%.+]] = type { [{{1024\|2048}} x i8], [{{1024\|2048}} x float] }
// CHECK-DAG: [[TEAM3_REDUCE_TY:%.+]] = type { [{{1024\|2048}} x i32], [{{1024\|2048}} x i16] }		// CHECK-DAG: [[TEAM3_REDUCE_TY:%.+]] = type { [{{1024\|2048}} x i32], [{{1024\|2048}} x i16] }
// CHECK-DAG: [[TEAMS_REDUCE_UNION_TY:%.+]] = type { [[TEAM1_REDUCE_TY]] }		// CHECK-DAG: [[TEAMS_REDUCE_UNION_TY:%.+]] = type { [[TEAM1_REDUCE_TY]] }
// CHECK-DAG: [[MAP_TY:%.+]] = type { [128 x i8] }		// SEQ-DAG: [[MAP_TY:%.+]] = type { [128 x i8] }

// CHECK-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null		// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null
// CHECK-DAG: [[KERNEL_SHARED1:@.+]] = internal unnamed_addr constant i16 1		// SEQ-DAG: [[KERNEL_SHARED1:@.+]] = internal unnamed_addr constant i16 1
// CHECK-DAG: [[KERNEL_SHARED2:@.+]] = internal unnamed_addr constant i16 1		// SEQ-DAG: [[KERNEL_SHARED2:@.+]] = internal unnamed_addr constant i16 1
// CHECK-DAG: [[KERNEL_SIZE1:@.+]] = internal unnamed_addr constant i{{64\|32}} {{16\|8}}		// SEQ-DAG: [[KERNEL_SIZE1:@.+]] = internal unnamed_addr constant i{{64\|32}} {{16\|8}}
// CHECK-DAG: [[KERNEL_SIZE2:@.+]] = internal unnamed_addr constant i{{64\|32}} 16		// SEQ-DAG: [[KERNEL_SIZE2:@.+]] = internal unnamed_addr constant i{{64\|32}} 16

// Check for the data transfer medium in shared memory to transfer the reduction list to the first warp.		// Check for the data transfer medium in shared memory to transfer the reduction list to the first warp.
// CHECK-DAG: [[TRANSFER_STORAGE:@.+]] = common addrspace([[SHARED_ADDRSPACE:[0-9]+]]) global [32 x i32]		// CHECK-DAG: [[TRANSFER_STORAGE:@.+]] = common addrspace([[SHARED_ADDRSPACE:[0-9]+]]) global [32 x i32]

// Check that the execution mode of 2 target regions is set to Non-SPMD and the 3rd is in SPMD.		// Check that the execution mode of 2 target regions is set to Non-SPMD and the 3rd is in SPMD.
// CHECK-DAG: {{@__omp_offloading_.+l41}}_exec_mode = weak constant i8 1		// CHECK-DAG: {{@__omp_offloading_.+l44}}_exec_mode = weak constant i8 1
// CHECK-DAG: {{@__omp_offloading_.+l47}}_exec_mode = weak constant i8 1		// CHECK-DAG: {{@__omp_offloading_.+l50}}_exec_mode = weak constant i8 1
// CHECK-DAG: {{@__omp_offloading_.+l54}}_exec_mode = weak constant i8 0		// CHECK-DAG: {{@__omp_offloading_.+l57}}_exec_mode = weak constant i8 0

// CHECK-DAG: [[TEAMS_RED_BUFFER:@.+]] = internal global [[TEAMS_REDUCE_UNION_TY]] zeroinitializer		// CHECK-DAG: [[TEAMS_RED_BUFFER:@.+]] = internal global [[TEAMS_REDUCE_UNION_TY]] zeroinitializer

template<typename tx>		template<typename tx>
tx ftemplate(int n) {		tx ftemplate(int n) {
int a;		int a;
short b;		short b;
tx c;		tx c;
Show All 27 Lines
int bar(int n){		int bar(int n){
int a = 0;		int a = 0;

a += ftemplate<char>(n);		a += ftemplate<char>(n);

return a;		return a;
}		}

// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l41}}_worker()		// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l44}}_worker()

// CHECK: define {{.*}}void [[T1:@__omp_offloading_.+template.+l41]](		// CHECK: define {{.*}}void [[T1:@__omp_offloading_.+template.+l44]](
//		//
// CHECK: {{call\|invoke}} void [[T1]]_worker()		// CHECK: {{call\|invoke}} void [[T1]]_worker()
//		//
// CHECK: call void @__kmpc_kernel_init(		// CHECK: call void @__kmpc_kernel_init(
// CHECK: call void @__kmpc_kernel_deinit(		// CHECK: call void @__kmpc_kernel_deinit(
//		//
// CHECK: store double {{[0\.e\+]+}}, double* [[E:%.+]], align		// CHECK: store double {{[0\.e\+]+}}, double* [[E:%.+]], align
// CHECK: [[EV:%.+]] = load double, double* [[E]], align		// CHECK: [[EV:%.+]] = load double, double* [[E]], align
▲ Show 20 Lines • Show All 248 Lines • ▼ Show 20 Lines	int bar(int n){
// CHECK: [[GLOBAL_RED1_IDX_PTR:%.+]] = getelementptr inbounds [{{1024\|2048}} x double], [{{1024\|2048}} x double]* [[GLOBAL_RED1_PTR]], i{{[0-9]+}} 0, i32 [[IDX]]		// CHECK: [[GLOBAL_RED1_IDX_PTR:%.+]] = getelementptr inbounds [{{1024\|2048}} x double], [{{1024\|2048}} x double]* [[GLOBAL_RED1_PTR]], i{{[0-9]+}} 0, i32 [[IDX]]
// CHECK: [[GLOBAL_RED1_IDX_PTR_BC:%.+]] = bitcast double* [[GLOBAL_RED1_IDX_PTR]] to i8*		// CHECK: [[GLOBAL_RED1_IDX_PTR_BC:%.+]] = bitcast double* [[GLOBAL_RED1_IDX_PTR]] to i8*
// CHECK: store i8* [[GLOBAL_RED1_IDX_PTR_BC]], i8** [[LOCAL_RL_RED1_PTR]]		// CHECK: store i8* [[GLOBAL_RED1_IDX_PTR_BC]], i8** [[LOCAL_RL_RED1_PTR]]
// CHECK: [[LOCAL_RL_BC:%.+]] = bitcast [1 x i8] [[LOCAL_RL]] to i8*		// CHECK: [[LOCAL_RL_BC:%.+]] = bitcast [1 x i8] [[LOCAL_RL]] to i8*
// CHECK: [[RL_BC:%.+]] = load i8, i8* [[RL_PTR]],		// CHECK: [[RL_BC:%.+]] = load i8, i8* [[RL_PTR]],
// CHECK: call void [[REDUCTION_FUNC]](i8* [[RL_BC]], i8* [[LOCAL_RL_BC]])		// CHECK: call void [[REDUCTION_FUNC]](i8* [[RL_BC]], i8* [[LOCAL_RL_BC]])
// CHECK: ret void		// CHECK: ret void

// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l47}}_worker()		// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l50}}_worker()

// CHECK: define {{.*}}void [[T2:@__omp_offloading_.+template.+l47]](		// CHECK: define {{.*}}void [[T2:@__omp_offloading_.+template.+l50]](
//		//
// CHECK: {{call\|invoke}} void [[T2]]_worker()		// CHECK: {{call\|invoke}} void [[T2]]_worker()

//		//
// CHECK: call void @__kmpc_kernel_init(		// CHECK: call void @__kmpc_kernel_init(
// CHECK: call void @__kmpc_kernel_deinit(		// CHECK: call void @__kmpc_kernel_deinit(
//		//
// CHECK: store float {{1\.[0e\+]+}}, float* [[D:%.+]], align		// CHECK: store float {{1\.[0e\+]+}}, float* [[D:%.+]], align
▲ Show 20 Lines • Show All 348 Lines • ▼ Show 20 Lines	int bar(int n){
// CHECK: [[GLOBAL_RED1_IDX_PTR:%.+]] = getelementptr inbounds [{{1024\|2048}} x float], [{{1024\|2048}} x float]* [[GLOBAL_RED1_PTR]], i{{[0-9]+}} 0, i32 [[IDX]]		// CHECK: [[GLOBAL_RED1_IDX_PTR:%.+]] = getelementptr inbounds [{{1024\|2048}} x float], [{{1024\|2048}} x float]* [[GLOBAL_RED1_PTR]], i{{[0-9]+}} 0, i32 [[IDX]]
// CHECK: [[GLOBAL_RED1_IDX_PTR_BC:%.+]] = bitcast float* [[GLOBAL_RED1_IDX_PTR]] to i8*		// CHECK: [[GLOBAL_RED1_IDX_PTR_BC:%.+]] = bitcast float* [[GLOBAL_RED1_IDX_PTR]] to i8*
// CHECK: store i8* [[GLOBAL_RED1_IDX_PTR_BC]], i8** [[LOCAL_RL_RED1_PTR]]		// CHECK: store i8* [[GLOBAL_RED1_IDX_PTR_BC]], i8** [[LOCAL_RL_RED1_PTR]]
// CHECK: [[LOCAL_RL_BC:%.+]] = bitcast [2 x i8] [[LOCAL_RL]] to i8*		// CHECK: [[LOCAL_RL_BC:%.+]] = bitcast [2 x i8] [[LOCAL_RL]] to i8*
// CHECK: [[RL_BC:%.+]] = load i8, i8* [[RL_PTR]],		// CHECK: [[RL_BC:%.+]] = load i8, i8* [[RL_PTR]],
// CHECK: call void [[REDUCTION_FUNC]](i8* [[RL_BC]], i8* [[LOCAL_RL_BC]])		// CHECK: call void [[REDUCTION_FUNC]](i8* [[RL_BC]], i8* [[LOCAL_RL_BC]])
// CHECK: ret void		// CHECK: ret void

// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l54}}(		// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l57}}(
//		//
// CHECK: call void @__kmpc_spmd_kernel_init(		// CHECK: call void @__kmpc_spmd_kernel_init(
// CHECK: call void @__kmpc_data_sharing_init_stack_spmd()		// CHECK: call void @__kmpc_data_sharing_init_stack_spmd()
// CHECK: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)		// CHECK: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)

// CHECK-NOT: call void @__kmpc_get_team_static_memory		// CHECK-NOT: call void @{{__kmpc_get_team_static_memory\|__kmpc_data_sharing_push_stack}}
// CHECK: store i32 0,		// CHECK: store i32 0,
// CHECK: store i32 0,		// CHECK: store i32 0,
// CHECK: store i32 0, i32* [[A_ADDR:%.+]], align		// CHECK: store i32 0, i32* [[A_ADDR:%.+]], align
// CHECK: store i16 -32768, i16* [[B_ADDR:%.+]], align		// CHECK: store i16 -32768, i16* [[B_ADDR:%.+]], align
// CHECK: call void [[OUTLINED:@.+]](i32* {{.+}}, i32* {{.+}}, i32* [[A_ADDR]], i16* [[B_ADDR]])		// CHECK: call void [[OUTLINED:@.+]](i32* {{.+}}, i32* {{.+}}, i32* [[A_ADDR]], i16* [[B_ADDR]])
// CHECK: [[GEP1:%.+]] = getelementptr inbounds [2 x i8], [2 x i8]* [[RED_LIST:%.+]], i{{[0-9]+}} 0, i{{[0-9]+}} 0		// CHECK: [[GEP1:%.+]] = getelementptr inbounds [2 x i8], [2 x i8]* [[RED_LIST:%.+]], i{{[0-9]+}} 0, i{{[0-9]+}} 0
// CHECK: [[BC:%.+]] = bitcast i32* [[A_ADDR]] to i8*		// CHECK: [[BC:%.+]] = bitcast i32* [[A_ADDR]] to i8*
// CHECK: store i8* [[BC]], i8** [[GEP1]],		// CHECK: store i8* [[BC]], i8** [[GEP1]],
▲ Show 20 Lines • Show All 676 Lines • Show Last 20 Lines