This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
clang/
-
lib/CodeGen/
-
CodeGen/
6/8
CGOpenMPRuntimeGPU.cpp
-
test/OpenMP/
-
OpenMP/
-
nvptx_allocate_codegen.cpp
-
nvptx_data_sharing.cpp
-
nvptx_distribute_parallel_generic_mode_codegen.cpp
-
nvptx_lambda_capturing.cpp
-
nvptx_multi_target_parallel_codegen.cpp
-
nvptx_nested_parallel_codegen.cpp
-
nvptx_parallel_codegen.cpp
-
nvptx_parallel_for_codegen.cpp
-
nvptx_target_codegen.cpp
-
nvptx_target_parallel_codegen.cpp
-
nvptx_target_parallel_num_threads_codegen.cpp
-
nvptx_target_teams_codegen.cpp
-
nvptx_target_teams_distribute_codegen.cpp
-
nvptx_target_teams_distribute_parallel_for_codegen.cpp
-
nvptx_target_teams_distribute_parallel_for_generic_mode_codegen.cpp
-
nvptx_target_teams_distribute_parallel_for_simd_codegen.cpp
-
nvptx_teams_reduction_codegen.cpp
-
remarks_parallel_in_multiple_target_state_machines.c
-
remarks_parallel_in_target_state_machine.c
-
target_parallel_debug_codegen.cpp
-
target_parallel_for_debug_codegen.cpp
-
llvm/
-
include/llvm/Frontend/OpenMP/
-
llvm/
-
Frontend/
-
OpenMP/
-
OMPKinds.def
-
lib/Transforms/IPO/
-
Transforms/
-
IPO/
-
OpenMPOpt.cpp
-
test/Transforms/OpenMP/
-
Transforms/
-
OpenMP/
-
gpu_state_machine_function_ptr_replacement.ll
-
openmp/libomptarget/
-
libomptarget/
-
deviceRTLs/
-
common/
2
generated_microtask_cases.gen
-
src/
-
omptarget.cu
5/5
parallel.cu
1/1
support.cu
-
support.h
-
interface.h
-
test/offloading/
-
offloading/
2
bug49779.cpp
-
utils/
1
generate_microtask_cases.py

Differential D95976

[OpenMP] Simplify offloading parallel call codegen
ClosedPublic

Authored by ggeorgakoudis on Feb 3 2021, 1:51 PM.

Download Raw Diff

Details

Reviewers

jdoerfert
Meinersbur

Commits

rGa2dbfb6b72db: [OpenMP] Simplify offloading parallel call codegen

Summary

This revision simplifies Clang codegen for parallel regions in OpenMP GPU target offloading and corresponding changes in libomptarget: SPMD/non-SPMD parallel calls are unified under a single kmpc_parallel_51 runtime entry point for parallel regions (which will be commonized between target, host-side parallel regions), data sharing is internalized to the runtime. Tests have been auto-generated using update_cc_test_checks.py. Also, the revision contains changes to OpenMPOpt for remark creation on target offloading regions.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

ggeorgakoudis created this revision.Feb 3 2021, 1:51 PM

Herald added subscribers: jfb, guansong, yaxunl. · View Herald TranscriptFeb 3 2021, 1:51 PM

ggeorgakoudis requested review of this revision.Feb 3 2021, 1:51 PM

Herald added a reviewer: jdoerfert. · View Herald TranscriptFeb 3 2021, 1:51 PM

Herald added projects: Restricted Project, Restricted Project, Restricted Project. · View Herald Transcript

Herald added subscribers: llvm-commits, openmp-commits, cfe-commits, sstefan1. · View Herald Transcript

ggeorgakoudis edited the summary of this revision. (Show Details)Feb 3 2021, 1:58 PM

Harbormaster completed remote builds in B87775: Diff 321219.Feb 3 2021, 3:37 PM

Fix type for IfCond, formatting

Harbormaster completed remote builds in B87869: Diff 321375.Feb 4 2021, 5:08 AM

Add tests, update OpenMPOpt, rebase to main

Herald added a subscriber: hiraditya. · View Herald TranscriptApr 13 2021, 7:15 AM

ggeorgakoudis edited the summary of this revision. (Show Details)Apr 13 2021, 7:27 AM

Harbormaster completed remote builds in B98481: Diff 337141.Apr 13 2021, 8:02 AM

Add aux-triple to one test, check unit test builder on windows

Harbormaster completed remote builds in B98504: Diff 337183.Apr 13 2021, 11:33 AM

Fix llvm test

Harbormaster completed remote builds in B98763: Diff 337556.Apr 14 2021, 3:32 PM

ggeorgakoudis added a reviewer: Meinersbur.Apr 15 2021, 7:30 AM

Hi @Meinersbur (got word you are a windows user), @jdoerfert, could I ask your help in detecting why the clang tests on windows are failing? There are two failures I'm spotting, one is that calls to llvm.nvvm intrinsics seem transposed (https://reviews.llvm.org/harbormaster/unit/view/552591/) and another that attribute regexes are not recognized (https://reviews.llvm.org/harbormaster/unit/view/552593/ at nvptx_target_codegen.cpp:723:17). Maybe there is something else I'm missing and I'd appreciate the extra eyeballing on the problem.

I have only minor remarks but I'd like you to check if my hunch is correct and the proposed modifications will fix fix PR49777 *and* fix PR49779.
Also, the number of arguments need to be increased, let's go big and automatic here.

Other than that I think this looks good.

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp
2155–2156	Can we remove SeqGen while we are here please. We need to check in the runtime anyway. That check is later folded, no need to make things more complicated here.
openmp/libomptarget/deviceRTLs/common/src/parallel.cu
294	This should allow us to remove the `SeqGen` in the Clang CodeGen and fix PR49777 and fix PR49779, a win-win-win situation.
368	FWIW, The implementation here is a stopgap until we move to the new runtime. The codegen and interface are the important parts.
openmp/libomptarget/deviceRTLs/common/src/support.cu
370	Not a return but a `__builtin_trap()`, please. We also need this for more than 16 unfortunately, I've seen 20 in miniqmc. We might want to create a script to print the cases, and then generate 128 or something like that in a file we include. The script can be in the utils folder too.

The transposition problem arises from:

static llvm::Value *getThreadLimit(CodeGenFunction &CGF,
                                   bool IsInSPMDExecutionMode = false) {
  CGBuilderTy &Bld = CGF.Builder;
  auto &RT = static_cast<CGOpenMPRuntimeGPU &>(CGF.CGM.getOpenMPRuntime());
  return IsInSPMDExecutionMode
             ? RT.getGPUNumThreads(CGF)
             : Bld.CreateNUWSub(RT.getGPUNumThreads(CGF),
                                RT.getGPUWarpSize(CGF), "thread_limit");
}

The order in which getGPUNumThreads(), getGPUNumThreads(), getGPUWarpSize() is called is undefined, only has to have happened at a sequence point. The idea is that it would depend on the order in which the function arguments are put on the stack.

Turns out, clang/gcc evaluate the left argument first, msvc starts with the right one.

Fix for getThreadLimit

Harbormaster completed remote builds in B99167: Diff 338102.Apr 16 2021, 8:15 AM

Meinersbur requested changes to this revision.Apr 16 2021, 11:35 AM

Meinersbur added inline comments.

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp
569–570	getGPUNumThreads and getGPUWarpSize still have undefined call order.

This revision now requires changes to proceed.Apr 16 2021, 11:35 AM

Update for comments, fix for windows fix

ggeorgakoudis marked 4 inline comments as done.Apr 16 2021, 2:45 PM

ggeorgakoudis added inline comments.

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp
2155–2156	Done
openmp/libomptarget/deviceRTLs/common/src/parallel.cu
294	Please check

With the nit to add the two reproducers, LGTM. (please make sure to run FAROS or some benchmarks we have before commiting).

openmp/libomptarget/deviceRTLs/common/src/parallel.cu
294	Check? Can we add the two reproducers as tests, please. One should be a clang test, the other maybe a runtime test, though clang test might suffice.
openmp/libomptarget/utils/generate_microtask_cases.py
32	Great. The output is not pretty but that was not the objective ;)

I have not looked at the other mentioned problem yet:

another that attribute regexes are not recognized (https://reviews.llvm.org/harbormaster/unit/view/552593/ at nvptx_target_codegen.cpp:723:17)

Which might still be there.

I would like to wait for Harbormaster to complete the pre-merge check.

Harbormaster completed remote builds in B99272: Diff 338246.Apr 16 2021, 6:00 PM

Meinersbur added inline comments.Apr 16 2021, 7:41 PM

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp
1140–1142	There seem to be more unordered codegen calls, such as this one.
1150–1152	There seem to be more unordered codegen calls, such as this one.

Update for comments, fixes

ggeorgakoudis marked 4 inline comments as done.Apr 19 2021, 12:55 AM

ggeorgakoudis added inline comments.

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp
1150–1152	Some previous emitted values can be re-used, e.g., GPUThreadID in line 1150 can re-use the value from line 1140 , instead of re-emitted. I've kept emitting them as it was previously done. What is the preferred way to handle those?
openmp/libomptarget/deviceRTLs/common/src/parallel.cu
294	Ack, will do

Harbormaster completed remote builds in B99430: Diff 338441.Apr 19 2021, 1:51 AM

Meinersbur added inline comments.Apr 19 2021, 8:58 AM

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp
590–592	This is another undefined codegen call order which causes the current pre-merge checks to fail.

Fix

Harbormaster completed remote builds in B99508: Diff 338554.Apr 19 2021, 11:31 AM

Add tests, reduce microtask cases to avoid stack problems

ggeorgakoudis marked an inline comment as done.Apr 21 2021, 9:07 AM

Harbormaster completed remote builds in B100008: Diff 339265.Apr 21 2021, 10:31 AM

This test seem to pass on Windows now. Please still fix the clang-format remarks, such as going over 80 characters on a line.

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp
1150–1152	`getGPUThreadID`/`getMasterThreadID` could cache the value if used multiple times., but it would also require to put them into the entry block to be available anywhere in the function. Otherwise, use a best-effort to minimize overhead even if the optimizer cannot unify them or in debug builds.

This revision is now accepted and ready to land.Apr 21 2021, 10:54 AM

Fix clang-format

Harbormaster completed remote builds in B100061: Diff 339334.Apr 21 2021, 1:50 PM

This revision was landed with ongoing or failed builds.Apr 21 2021, 6:46 PM

Closed by commit rGa2dbfb6b72db: [OpenMP] Simplify offloading parallel call codegen (authored by ggeorgakoudis). · Explain Why

This revision was automatically updated to reflect the committed changes.

ggeorgakoudis added a commit: rGa2dbfb6b72db: [OpenMP] Simplify offloading parallel call codegen.

JonChesterfield mentioned this in D101123: [OpenMP] Avoid reading uninitialized parallel level values.Apr 22 2021, 6:55 PM

jdoerfert mentioned this in D99762: [OPENMP]Fix PR49777: Clang should not try to specialize orphaned directives in device codegen..Apr 27 2021, 9:42 PM

Please update the test with a NFC commit.

openmp/libomptarget/test/offloading/bug49779.cpp
1–5	See D101326
29–36	Since the output goes to Filecheck anyways, I think we should avoid asserts, but let Filecheck test for expected results. The output for failing tests has more information with this approach.

In D95976#2725027, @protze.joachim wrote:

Please update the test with a NFC commit.

Thanks, @protze.joachim. The changes look good. I'll get that NFC commit in soon-ish, unless you would like to take over.

JonChesterfield added a subscriber: JonChesterfield.May 12 2021, 6:48 AM

JonChesterfield added inline comments.May 12 2021, 6:55 AM

openmp/libomptarget/deviceRTLs/common/generated_microtask_cases.gen
1	This is not very pretty. Why do we need runtime dispatch to a function pointer?

jdoerfert added inline comments.May 12 2021, 8:06 AM

openmp/libomptarget/deviceRTLs/common/generated_microtask_cases.gen
1	because we have variadic functions right now. A patch to remove this is already underway: https://reviews.llvm.org/D102107

JonChesterfield mentioned this in D105697: [libomptarget][nfc] Drop dead code in parallel_51.Jul 9 2021, 6:01 AM

JonChesterfield mentioned this in D102107: [OpenMP] Codegen aggregate for outlined function captures.Jun 6 2023, 6:24 AM

Revision Contents

Path

Size

clang/

lib/

CodeGen/

CGOpenMPRuntimeGPU.cpp

288 lines

test/

OpenMP/

nvptx_allocate_codegen.cpp

87 lines

nvptx_data_sharing.cpp

472 lines

nvptx_distribute_parallel_generic_mode_codegen.cpp

4042 lines

nvptx_lambda_capturing.cpp

2292 lines

nvptx_multi_target_parallel_codegen.cpp

401 lines

nvptx_nested_parallel_codegen.cpp

652 lines

nvptx_parallel_codegen.cpp

2761 lines

nvptx_parallel_for_codegen.cpp

546 lines

nvptx_target_codegen.cpp

3079 lines

nvptx_target_parallel_codegen.cpp

774 lines

nvptx_target_parallel_num_threads_codegen.cpp

777 lines

nvptx_target_teams_codegen.cpp

1073 lines

nvptx_target_teams_distribute_codegen.cpp

1226 lines

nvptx_target_teams_distribute_parallel_for_codegen.cpp

25469 lines

nvptx_target_teams_distribute_parallel_for_generic_mode_codegen.cpp

1865 lines

nvptx_target_teams_distribute_parallel_for_simd_codegen.cpp

12891 lines

nvptx_teams_reduction_codegen.cpp

10036 lines

remarks_parallel_in_multiple_target_state_machines.c

20 lines

remarks_parallel_in_target_state_machine.c

8 lines

target_parallel_debug_codegen.cpp

734 lines

target_parallel_for_debug_codegen.cpp

951 lines

llvm/

include/

llvm/

Frontend/

OpenMP/

OMPKinds.def

2 lines

lib/

Transforms/

IPO/

OpenMPOpt.cpp

39 lines

test/

Transforms/

OpenMP/

gpu_state_machine_function_ptr_replacement.ll

193 lines

openmp/

libomptarget/

deviceRTLs/

common/

generated_microtask_cases.gen

405 lines

src/

5 lines

107 lines

12 lines

5 lines

17 lines

test/

offloading/

bug49779.cpp

36 lines

utils/

generate_microtask_cases.py

31 lines

Diff 339441

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp

Show First 20 Lines • Show All 556 Lines • ▼ Show 20 Lines
/// For the 'generic' execution mode, the runtime encodes thread_limit in		/// For the 'generic' execution mode, the runtime encodes thread_limit in
/// the launch parameters, always starting thread_limit+warpSize threads per		/// the launch parameters, always starting thread_limit+warpSize threads per
/// CTA. The threads in the last warp are reserved for master execution.		/// CTA. The threads in the last warp are reserved for master execution.
/// For the 'spmd' execution mode, all threads in a CTA are part of the team.		/// For the 'spmd' execution mode, all threads in a CTA are part of the team.
static llvm::Value *getThreadLimit(CodeGenFunction &CGF,		static llvm::Value *getThreadLimit(CodeGenFunction &CGF,
bool IsInSPMDExecutionMode = false) {		bool IsInSPMDExecutionMode = false) {
CGBuilderTy &Bld = CGF.Builder;		CGBuilderTy &Bld = CGF.Builder;
auto &RT = static_cast<CGOpenMPRuntimeGPU &>(CGF.CGM.getOpenMPRuntime());		auto &RT = static_cast<CGOpenMPRuntimeGPU &>(CGF.CGM.getOpenMPRuntime());
return IsInSPMDExecutionMode		llvm::Value *ThreadLimit = nullptr;
? RT.getGPUNumThreads(CGF)		if (IsInSPMDExecutionMode)
: Bld.CreateNUWSub(RT.getGPUNumThreads(CGF),		ThreadLimit = RT.getGPUNumThreads(CGF);
RT.getGPUWarpSize(CGF), "thread_limit");		else {
		llvm::Value *GPUNumThreads = RT.getGPUNumThreads(CGF);
		llvm::Value *GPUWarpSize = RT.getGPUWarpSize(CGF);
		MeinersburUnsubmitted Done Reply Inline Actions getGPUNumThreads and getGPUWarpSize still have undefined call order. Meinersbur: getGPUNumThreads and getGPUWarpSize still have undefined call order.
		ThreadLimit = Bld.CreateNUWSub(GPUNumThreads, GPUWarpSize, "thread_limit");
		}
		assert(ThreadLimit != nullptr && "Expected non-null ThreadLimit");
		return ThreadLimit;
}		}

/// Get the thread id of the OMP master thread.		/// Get the thread id of the OMP master thread.
/// The master thread id is the first thread (lane) of the last warp in the		/// The master thread id is the first thread (lane) of the last warp in the
/// GPU block. Warp size is assumed to be some power of 2.		/// GPU block. Warp size is assumed to be some power of 2.
/// Thread id is 0 indexed.		/// Thread id is 0 indexed.
/// E.g: If NumThreads is 33, master id is 32.		/// E.g: If NumThreads is 33, master id is 32.
/// If NumThreads is 64, master id is 32.		/// If NumThreads is 64, master id is 32.
/// If NumThreads is 1024, master id is 992.		/// If NumThreads is 1024, master id is 992.
static llvm::Value *getMasterThreadID(CodeGenFunction &CGF) {		static llvm::Value *getMasterThreadID(CodeGenFunction &CGF) {
CGBuilderTy &Bld = CGF.Builder;		CGBuilderTy &Bld = CGF.Builder;
auto &RT = static_cast<CGOpenMPRuntimeGPU &>(CGF.CGM.getOpenMPRuntime());		auto &RT = static_cast<CGOpenMPRuntimeGPU &>(CGF.CGM.getOpenMPRuntime());
llvm::Value *NumThreads = RT.getGPUNumThreads(CGF);		llvm::Value *NumThreads = RT.getGPUNumThreads(CGF);
// We assume that the warp size is a power of 2.		// We assume that the warp size is a power of 2.
llvm::Value *Mask = Bld.CreateNUWSub(RT.getGPUWarpSize(CGF), Bld.getInt32(1));		llvm::Value *Mask = Bld.CreateNUWSub(RT.getGPUWarpSize(CGF), Bld.getInt32(1));

return Bld.CreateAnd(Bld.CreateNUWSub(NumThreads, Bld.getInt32(1)),		llvm::Value *NumThreadsSubOne = Bld.CreateNUWSub(NumThreads, Bld.getInt32(1));
Bld.CreateNot(Mask), "master_tid");		return Bld.CreateAnd(NumThreadsSubOne, Bld.CreateNot(Mask), "master_tid");
		MeinersburUnsubmitted Done Reply Inline Actions This is another undefined codegen call order which causes the current pre-merge checks to fail. Meinersbur: This is another undefined codegen call order which causes the current pre-merge checks to fail.
}		}

CGOpenMPRuntimeGPU::WorkerFunctionState::WorkerFunctionState(		CGOpenMPRuntimeGPU::WorkerFunctionState::WorkerFunctionState(
CodeGenModule &CGM, SourceLocation Loc)		CodeGenModule &CGM, SourceLocation Loc)
: WorkerFn(nullptr), CGFI(CGM.getTypes().arrangeNullaryFunction()),		: WorkerFn(nullptr), CGFI(CGM.getTypes().arrangeNullaryFunction()),
Loc(Loc) {		Loc(Loc) {
createWorkerFunction(CGM);		createWorkerFunction(CGM);
}		}
▲ Show 20 Lines • Show All 531 Lines • ▼ Show 20 Lines	void CGOpenMPRuntimeGPU::emitNonSPMDEntryHeader(CodeGenFunction &CGF,
CGBuilderTy &Bld = CGF.Builder;		CGBuilderTy &Bld = CGF.Builder;

llvm::BasicBlock *WorkerBB = CGF.createBasicBlock(".worker");		llvm::BasicBlock *WorkerBB = CGF.createBasicBlock(".worker");
llvm::BasicBlock *MasterCheckBB = CGF.createBasicBlock(".mastercheck");		llvm::BasicBlock *MasterCheckBB = CGF.createBasicBlock(".mastercheck");
llvm::BasicBlock *MasterBB = CGF.createBasicBlock(".master");		llvm::BasicBlock *MasterBB = CGF.createBasicBlock(".master");
EST.ExitBB = CGF.createBasicBlock(".exit");		EST.ExitBB = CGF.createBasicBlock(".exit");

auto &RT = static_cast<CGOpenMPRuntimeGPU &>(CGF.CGM.getOpenMPRuntime());		auto &RT = static_cast<CGOpenMPRuntimeGPU &>(CGF.CGM.getOpenMPRuntime());
llvm::Value *IsWorker =		llvm::Value *GPUThreadID = RT.getGPUThreadID(CGF);
Bld.CreateICmpULT(RT.getGPUThreadID(CGF), getThreadLimit(CGF));		llvm::Value *ThreadLimit = getThreadLimit(CGF);
		llvm::Value *IsWorker = Bld.CreateICmpULT(GPUThreadID, ThreadLimit);
		MeinersburUnsubmitted Done Reply Inline Actions There seem to be more unordered codegen calls, such as this one. Meinersbur: There seem to be more unordered codegen calls, such as this one.
Bld.CreateCondBr(IsWorker, WorkerBB, MasterCheckBB);		Bld.CreateCondBr(IsWorker, WorkerBB, MasterCheckBB);

CGF.EmitBlock(WorkerBB);		CGF.EmitBlock(WorkerBB);
emitCall(CGF, WST.Loc, WST.WorkerFn);		emitCall(CGF, WST.Loc, WST.WorkerFn);
CGF.EmitBranch(EST.ExitBB);		CGF.EmitBranch(EST.ExitBB);

CGF.EmitBlock(MasterCheckBB);		CGF.EmitBlock(MasterCheckBB);
llvm::Value *IsMaster =		GPUThreadID = RT.getGPUThreadID(CGF);
Bld.CreateICmpEQ(RT.getGPUThreadID(CGF), getMasterThreadID(CGF));		llvm::Value *MasterThreadID = getMasterThreadID(CGF);
		llvm::Value *IsMaster = Bld.CreateICmpEQ(GPUThreadID, MasterThreadID);
		MeinersburUnsubmitted Done Reply Inline Actions There seem to be more unordered codegen calls, such as this one. Meinersbur: There seem to be more unordered codegen calls, such as this one.
		ggeorgakoudisAuthorUnsubmitted Not Done Reply Inline Actions Some previous emitted values can be re-used, e.g., GPUThreadID in line 1150 can re-use the value from line 1140 , instead of re-emitted. I've kept emitting them as it was previously done. What is the preferred way to handle those? ggeorgakoudis: Some previous emitted values can be re-used, e.g., GPUThreadID in line 1150 can re-use the…
		MeinersburUnsubmitted Not Done Reply Inline Actions `getGPUThreadID`/`getMasterThreadID` could cache the value if used multiple times., but it would also require to put them into the entry block to be available anywhere in the function. Otherwise, use a best-effort to minimize overhead even if the optimizer cannot unify them or in debug builds. Meinersbur: `getGPUThreadID`/`getMasterThreadID` could cache the value if used multiple times., but it…
Bld.CreateCondBr(IsMaster, MasterBB, EST.ExitBB);		Bld.CreateCondBr(IsMaster, MasterBB, EST.ExitBB);

CGF.EmitBlock(MasterBB);		CGF.EmitBlock(MasterBB);
IsInTargetMasterThreadRegion = true;		IsInTargetMasterThreadRegion = true;
// SEQUENTIAL (MASTER) REGION START		// SEQUENTIAL (MASTER) REGION START
// First action in sequential region:		// First action in sequential region:
// Initialize the state of the OpenMP runtime library on the GPU.		// Initialize the state of the OpenMP runtime library on the GPU.
// TODO: Optimize runtime initialization and pass in correct value.		// TODO: Optimize runtime initialization and pass in correct value.
▲ Show 20 Lines • Show All 915 Lines • ▼ Show 20 Lines	void CGOpenMPRuntimeGPU::emitTeamsCall(CodeGenFunction &CGF,
CGF.InitTempAlloca(ZeroAddr, CGF.Builder.getInt32(/C/ 0));		CGF.InitTempAlloca(ZeroAddr, CGF.Builder.getInt32(/C/ 0));
llvm::SmallVector<llvm::Value *, 16> OutlinedFnArgs;		llvm::SmallVector<llvm::Value *, 16> OutlinedFnArgs;
OutlinedFnArgs.push_back(emitThreadIDAddress(CGF, Loc).getPointer());		OutlinedFnArgs.push_back(emitThreadIDAddress(CGF, Loc).getPointer());
OutlinedFnArgs.push_back(ZeroAddr.getPointer());		OutlinedFnArgs.push_back(ZeroAddr.getPointer());
OutlinedFnArgs.append(CapturedVars.begin(), CapturedVars.end());		OutlinedFnArgs.append(CapturedVars.begin(), CapturedVars.end());
emitOutlinedFunctionCall(CGF, Loc, OutlinedFn, OutlinedFnArgs);		emitOutlinedFunctionCall(CGF, Loc, OutlinedFn, OutlinedFnArgs);
}		}

void CGOpenMPRuntimeGPU::emitParallelCall(		void CGOpenMPRuntimeGPU::emitParallelCall(CodeGenFunction &CGF,
CodeGenFunction &CGF, SourceLocation Loc, llvm::Function *OutlinedFn,		SourceLocation Loc,
ArrayRef<llvm::Value > CapturedVars, const Expr IfCond) {		llvm::Function *OutlinedFn,
		ArrayRef<llvm::Value *> CapturedVars,
		const Expr *IfCond) {
if (!CGF.HaveInsertPoint())		if (!CGF.HaveInsertPoint())
return;		return;

if (getExecutionMode() == CGOpenMPRuntimeGPU::EM_SPMD)		auto &&ParallelGen = [this, Loc, OutlinedFn, CapturedVars,
emitSPMDParallelCall(CGF, Loc, OutlinedFn, CapturedVars, IfCond);		IfCond](CodeGenFunction &CGF, PrePostActionTy &Action) {
else
emitNonSPMDParallelCall(CGF, Loc, OutlinedFn, CapturedVars, IfCond);
}

void CGOpenMPRuntimeGPU::emitNonSPMDParallelCall(
CodeGenFunction &CGF, SourceLocation Loc, llvm::Value *OutlinedFn,
ArrayRef<llvm::Value > CapturedVars, const Expr IfCond) {
llvm::Function *Fn = cast<llvm::Function>(OutlinedFn);

// Force inline this outlined function at its call site.
Fn->setLinkage(llvm::GlobalValue::InternalLinkage);

Address ZeroAddr = CGF.CreateDefaultAlignTempAlloca(CGF.Int32Ty,
/Name=/".zero.addr");
CGF.InitTempAlloca(ZeroAddr, CGF.Builder.getInt32(/C/ 0));
// ThreadId for serialized parallels is 0.
Address ThreadIDAddr = ZeroAddr;
auto &&CodeGen = [this, Fn, CapturedVars, Loc, &ThreadIDAddr](
CodeGenFunction &CGF, PrePostActionTy &Action) {
Action.Enter(CGF);

Address ZeroAddr =
CGF.CreateDefaultAlignTempAlloca(CGF.Int32Ty,
/Name=/".bound.zero.addr");
CGF.InitTempAlloca(ZeroAddr, CGF.Builder.getInt32(/C/ 0));
llvm::SmallVector<llvm::Value *, 16> OutlinedFnArgs;
OutlinedFnArgs.push_back(ThreadIDAddr.getPointer());
OutlinedFnArgs.push_back(ZeroAddr.getPointer());
OutlinedFnArgs.append(CapturedVars.begin(), CapturedVars.end());
emitOutlinedFunctionCall(CGF, Loc, Fn, OutlinedFnArgs);
};
auto &&SeqGen = [this, &CodeGen, Loc](CodeGenFunction &CGF,
PrePostActionTy &) {

RegionCodeGenTy RCG(CodeGen);
llvm::Value *RTLoc = emitUpdateLocation(CGF, Loc);
llvm::Value *ThreadID = getThreadID(CGF, Loc);
llvm::Value *Args[] = {RTLoc, ThreadID};

NVPTXActionTy Action(
OMPBuilder.getOrCreateRuntimeFunction(
CGM.getModule(), OMPRTL___kmpc_serialized_parallel),
Args,
OMPBuilder.getOrCreateRuntimeFunction(
CGM.getModule(), OMPRTL___kmpc_end_serialized_parallel),
Args);
RCG.setAction(Action);
RCG(CGF);
};

auto &&L0ParallelGen = [this, CapturedVars, Fn](CodeGenFunction &CGF,
PrePostActionTy &Action) {
CGBuilderTy &Bld = CGF.Builder;		CGBuilderTy &Bld = CGF.Builder;
llvm::Function *WFn = WrapperFunctionsMap[Fn];		llvm::Function *WFn = WrapperFunctionsMap[OutlinedFn];
assert(WFn && "Wrapper function does not exist!");		llvm::Value *ID = llvm::ConstantPointerNull::get(CGM.Int8PtrTy);
llvm::Value *ID = Bld.CreateBitOrPointerCast(WFn, CGM.Int8PtrTy);		if (WFn) {
		ID = Bld.CreateBitOrPointerCast(WFn, CGM.Int8PtrTy);
// Prepare for parallel region. Indicate the outlined function.		// Remember for post-processing in worker loop.
llvm::Value *Args[] = {ID};		Work.emplace_back(WFn);
CGF.EmitRuntimeCall(		}
OMPBuilder.getOrCreateRuntimeFunction(		llvm::Value *FnPtr = Bld.CreateBitOrPointerCast(OutlinedFn, CGM.Int8PtrTy);
CGM.getModule(), OMPRTL___kmpc_kernel_prepare_parallel),
Args);

// Create a private scope that will globalize the arguments		// Create a private scope that will globalize the arguments
// passed from the outside of the target region.		// passed from the outside of the target region.
		// TODO: Is that needed?
CodeGenFunction::OMPPrivateScope PrivateArgScope(CGF);		CodeGenFunction::OMPPrivateScope PrivateArgScope(CGF);

		Address CapturedVarsAddrs = CGF.CreateDefaultAlignTempAlloca(
		llvm::ArrayType::get(CGM.VoidPtrTy, CapturedVars.size()),
		"captured_vars_addrs");
// There's something to share.		// There's something to share.
if (!CapturedVars.empty()) {		if (!CapturedVars.empty()) {
// Prepare for parallel region. Indicate the outlined function.		// Prepare for parallel region. Indicate the outlined function.
Address SharedArgs =
CGF.CreateDefaultAlignTempAlloca(CGF.VoidPtrPtrTy, "shared_arg_refs");
llvm::Value *SharedArgsPtr = SharedArgs.getPointer();

llvm::Value *DataSharingArgs[] = {
SharedArgsPtr,
llvm::ConstantInt::get(CGM.SizeTy, CapturedVars.size())};
CGF.EmitRuntimeCall(
OMPBuilder.getOrCreateRuntimeFunction(
CGM.getModule(), OMPRTL___kmpc_begin_sharing_variables),
DataSharingArgs);

// Store variable address in a list of references to pass to workers.
unsigned Idx = 0;
ASTContext &Ctx = CGF.getContext();		ASTContext &Ctx = CGF.getContext();
Address SharedArgListAddress = CGF.EmitLoadOfPointer(		unsigned Idx = 0;
SharedArgs, Ctx.getPointerType(Ctx.getPointerType(Ctx.VoidPtrTy))
.castAs<PointerType>());
for (llvm::Value *V : CapturedVars) {		for (llvm::Value *V : CapturedVars) {
Address Dst = Bld.CreateConstInBoundsGEP(SharedArgListAddress, Idx);		Address Dst = Bld.CreateConstArrayGEP(CapturedVarsAddrs, Idx);
llvm::Value *PtrV;		llvm::Value *PtrV;
if (V->getType()->isIntegerTy())		if (V->getType()->isIntegerTy())
PtrV = Bld.CreateIntToPtr(V, CGF.VoidPtrTy);		PtrV = Bld.CreateIntToPtr(V, CGF.VoidPtrTy);
else		else
PtrV = Bld.CreatePointerBitCastOrAddrSpaceCast(V, CGF.VoidPtrTy);		PtrV = Bld.CreatePointerBitCastOrAddrSpaceCast(V, CGF.VoidPtrTy);
CGF.EmitStoreOfScalar(PtrV, Dst, /Volatile=/false,		CGF.EmitStoreOfScalar(PtrV, Dst, /Volatile=/false,
Ctx.getPointerType(Ctx.VoidPtrTy));		Ctx.getPointerType(Ctx.VoidPtrTy));
++Idx;		++Idx;
}		}
}		}

// Activate workers. This barrier is used by the master to signal		llvm::Value *IfCondVal = nullptr;
// work for the workers.		if (IfCond)
syncCTAThreads(CGF);		IfCondVal = Bld.CreateIntCast(CGF.EvaluateExprAsBool(IfCond), CGF.Int32Ty,
		/* isSigned */ false);
// OpenMP [2.5, Parallel Construct, p.49]		else
// There is an implied barrier at the end of a parallel region. After the		IfCondVal = llvm::ConstantInt::get(CGF.Int32Ty, 1);
// end of a parallel region, only the master thread of the team resumes
// execution of the enclosing task region.
//
// The master waits at this barrier until all workers are done.
syncCTAThreads(CGF);

if (!CapturedVars.empty())
CGF.EmitRuntimeCall(OMPBuilder.getOrCreateRuntimeFunction(
CGM.getModule(), OMPRTL___kmpc_end_sharing_variables));

// Remember for post-processing in worker loop.
Work.emplace_back(WFn);
};

auto &&LNParallelGen = [this, Loc, &SeqGen, &L0ParallelGen](
CodeGenFunction &CGF, PrePostActionTy &Action) {
if (IsInParallelRegion) {
SeqGen(CGF, Action);
} else if (IsInTargetMasterThreadRegion) {
L0ParallelGen(CGF, Action);
} else {
// Check for master and then parallelism:
// if (__kmpc_is_spmd_exec_mode() \|\| __kmpc_parallel_level(loc, gtid)) {
// Serialized execution.
// } else {
// Worker call.
// }
CGBuilderTy &Bld = CGF.Builder;
llvm::BasicBlock *ExitBB = CGF.createBasicBlock(".exit");
llvm::BasicBlock *SeqBB = CGF.createBasicBlock(".sequential");
llvm::BasicBlock *ParallelCheckBB = CGF.createBasicBlock(".parcheck");
llvm::BasicBlock *MasterBB = CGF.createBasicBlock(".master");
llvm::Value *IsSPMD = Bld.CreateIsNotNull(
CGF.EmitNounwindRuntimeCall(OMPBuilder.getOrCreateRuntimeFunction(
CGM.getModule(), OMPRTL___kmpc_is_spmd_exec_mode)));
Bld.CreateCondBr(IsSPMD, SeqBB, ParallelCheckBB);
// There is no need to emit line number for unconditional branch.
(void)ApplyDebugLocation::CreateEmpty(CGF);
CGF.EmitBlock(ParallelCheckBB);
llvm::Value *RTLoc = emitUpdateLocation(CGF, Loc);
llvm::Value *ThreadID = getThreadID(CGF, Loc);
llvm::Value *PL = CGF.EmitRuntimeCall(
OMPBuilder.getOrCreateRuntimeFunction(CGM.getModule(),
OMPRTL___kmpc_parallel_level),
{RTLoc, ThreadID});
llvm::Value *Res = Bld.CreateIsNotNull(PL);
Bld.CreateCondBr(Res, SeqBB, MasterBB);
CGF.EmitBlock(SeqBB);
SeqGen(CGF, Action);
CGF.EmitBranch(ExitBB);
// There is no need to emit line number for unconditional branch.
(void)ApplyDebugLocation::CreateEmpty(CGF);
CGF.EmitBlock(MasterBB);
L0ParallelGen(CGF, Action);
CGF.EmitBranch(ExitBB);
// There is no need to emit line number for unconditional branch.
(void)ApplyDebugLocation::CreateEmpty(CGF);
// Emit the continuation block for code after the if.
CGF.EmitBlock(ExitBB, /IsFinished=/true);
}
};

if (IfCond) {
emitIfClause(CGF, IfCond, LNParallelGen, SeqGen);
} else {
CodeGenFunction::RunCleanupsScope Scope(CGF);
RegionCodeGenTy ThenRCG(LNParallelGen);
ThenRCG(CGF);
}
}

void CGOpenMPRuntimeGPU::emitSPMDParallelCall(
CodeGenFunction &CGF, SourceLocation Loc, llvm::Function *OutlinedFn,
ArrayRef<llvm::Value > CapturedVars, const Expr IfCond) {
// Just call the outlined function to execute the parallel region.
// OutlinedFn(&GTid, &zero, CapturedStruct);
//
llvm::SmallVector<llvm::Value *, 16> OutlinedFnArgs;

Address ZeroAddr = CGF.CreateDefaultAlignTempAlloca(CGF.Int32Ty,
/Name=/".zero.addr");
CGF.InitTempAlloca(ZeroAddr, CGF.Builder.getInt32(/C/ 0));
// ThreadId for serialized parallels is 0.
Address ThreadIDAddr = ZeroAddr;
auto &&CodeGen = [this, OutlinedFn, CapturedVars, Loc, &ThreadIDAddr](
CodeGenFunction &CGF, PrePostActionTy &Action) {
Action.Enter(CGF);

Address ZeroAddr =
CGF.CreateDefaultAlignTempAlloca(CGF.Int32Ty,
/Name=/".bound.zero.addr");
CGF.InitTempAlloca(ZeroAddr, CGF.Builder.getInt32(/C/ 0));
llvm::SmallVector<llvm::Value *, 16> OutlinedFnArgs;
OutlinedFnArgs.push_back(ThreadIDAddr.getPointer());
OutlinedFnArgs.push_back(ZeroAddr.getPointer());
OutlinedFnArgs.append(CapturedVars.begin(), CapturedVars.end());
emitOutlinedFunctionCall(CGF, Loc, OutlinedFn, OutlinedFnArgs);
};
auto &&SeqGen = [this, &CodeGen, Loc](CodeGenFunction &CGF,
PrePostActionTy &) {

RegionCodeGenTy RCG(CodeGen);		assert(IfCondVal && "Expected a value");
llvm::Value *RTLoc = emitUpdateLocation(CGF, Loc);		llvm::Value *RTLoc = emitUpdateLocation(CGF, Loc);
llvm::Value *ThreadID = getThreadID(CGF, Loc);		llvm::Value *Args[] = {
llvm::Value *Args[] = {RTLoc, ThreadID};		RTLoc,
		getThreadID(CGF, Loc),
NVPTXActionTy Action(		IfCondVal,
OMPBuilder.getOrCreateRuntimeFunction(		llvm::ConstantInt::get(CGF.Int32Ty, -1),
CGM.getModule(), OMPRTL___kmpc_serialized_parallel),		llvm::ConstantInt::get(CGF.Int32Ty, -1),
Args,		FnPtr,
OMPBuilder.getOrCreateRuntimeFunction(		ID,
CGM.getModule(), OMPRTL___kmpc_end_serialized_parallel),		Bld.CreateBitOrPointerCast(CapturedVarsAddrs.getPointer(),
		CGF.VoidPtrPtrTy),
		llvm::ConstantInt::get(CGM.SizeTy, CapturedVars.size())};
		CGF.EmitRuntimeCall(OMPBuilder.getOrCreateRuntimeFunction(
		CGM.getModule(), OMPRTL___kmpc_parallel_51),
Args);		Args);
RCG.setAction(Action);
RCG(CGF);
};		};

if (IsInTargetMasterThreadRegion) {		RegionCodeGenTy RCG(ParallelGen);
// In the worker need to use the real thread id.
ThreadIDAddr = emitThreadIDAddress(CGF, Loc);
RegionCodeGenTy RCG(CodeGen);
RCG(CGF);		RCG(CGF);
		jdoerfertUnsubmitted Done Reply Inline Actions Can we remove SeqGen while we are here please. We need to check in the runtime anyway. That check is later folded, no need to make things more complicated here. jdoerfert: Can we remove SeqGen while we are here please. We need to check in the runtime anyway. That…
		ggeorgakoudisAuthorUnsubmitted Done Reply Inline Actions Done ggeorgakoudis: Done
} else {
// If we are not in the target region, it is definitely L2 parallelism or
// more, because for SPMD mode we always has L1 parallel level, sowe don't
// need to check for orphaned directives.
RegionCodeGenTy RCG(SeqGen);
RCG(CGF);
}
}		}

void CGOpenMPRuntimeGPU::syncCTAThreads(CodeGenFunction &CGF) {		void CGOpenMPRuntimeGPU::syncCTAThreads(CodeGenFunction &CGF) {
// Always emit simple barriers!		// Always emit simple barriers!
if (!CGF.HaveInsertPoint())		if (!CGF.HaveInsertPoint())
return;		return;
// Build call __kmpc_barrier_simple_spmd(nullptr, 0);		// Build call __kmpc_barrier_simple_spmd(nullptr, 0);
// This function does not use parameters, so we can emit just default values.		// This function does not use parameters, so we can emit just default values.
▲ Show 20 Lines • Show All 2,547 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_allocate_codegen.cpp

		// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py UTC_ARGS: --function-signature --include-generated-funcs --replace-function-regex "__omp_offloading_[0-9a-z]+_[0-9a-z]+"
// RUN: %clang_cc1 -verify -fopenmp -triple x86_64-apple-darwin10.6.0 -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc -o %t-host.bc %s		// RUN: %clang_cc1 -verify -fopenmp -triple x86_64-apple-darwin10.6.0 -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc -o %t-host.bc %s
// RUN: %clang_cc1 -verify -fopenmp -triple nvptx64-nvidia-cuda -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-host.bc -o - -disable-llvm-optzns \| FileCheck %s		// RUN: %clang_cc1 -verify -fopenmp -triple nvptx64-nvidia-cuda -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-host.bc -o - -disable-llvm-optzns \| FileCheck %s
// expected-no-diagnostics		// expected-no-diagnostics

#ifndef HEADER		#ifndef HEADER
#define HEADER		#define HEADER

#pragma omp declare target		#pragma omp declare target
typedef void **omp_allocator_handle_t;		typedef void **omp_allocator_handle_t;
extern const omp_allocator_handle_t omp_null_allocator;		extern const omp_allocator_handle_t omp_null_allocator;
extern const omp_allocator_handle_t omp_default_mem_alloc;		extern const omp_allocator_handle_t omp_default_mem_alloc;
extern const omp_allocator_handle_t omp_large_cap_mem_alloc;		extern const omp_allocator_handle_t omp_large_cap_mem_alloc;
extern const omp_allocator_handle_t omp_const_mem_alloc;		extern const omp_allocator_handle_t omp_const_mem_alloc;
extern const omp_allocator_handle_t omp_high_bw_mem_alloc;		extern const omp_allocator_handle_t omp_high_bw_mem_alloc;
extern const omp_allocator_handle_t omp_low_lat_mem_alloc;		extern const omp_allocator_handle_t omp_low_lat_mem_alloc;
extern const omp_allocator_handle_t omp_cgroup_mem_alloc;		extern const omp_allocator_handle_t omp_cgroup_mem_alloc;
extern const omp_allocator_handle_t omp_pteam_mem_alloc;		extern const omp_allocator_handle_t omp_pteam_mem_alloc;
extern const omp_allocator_handle_t omp_thread_mem_alloc;		extern const omp_allocator_handle_t omp_thread_mem_alloc;

// CHECK-DAG: @{{.+}}St1{{.+}}b{{.+}} = external global i32,
// CHECK-DAG: @a ={{ hidden \| }}global i32 0,
// CHECK-DAG: @b ={{ hidden \| }}addrspace(4) global i32 0,
// CHECK-DAG: @c ={{ hidden \| }}global i32 0,
// CHECK-DAG: @d ={{ hidden \| }}global %struct.St1 zeroinitializer,
// CHECK-DAG: @{{.+}}ns{{.+}}a{{.+}} ={{ hidden \| }}addrspace(3) global i32 0,
// CHECK-DAG: @{{.+}}main{{.+}}a{{.*}} = internal global i32 0,
// CHECK-DAG: @{{.+}}ST{{.+}}m{{.+}} = external global i32,
// CHECK-DAG: @bar_c = internal global i32 0,
// CHECK-DAG: @bar_b = internal addrspace(3) global double 0.000000e+00,
struct St{		struct St{
int a;		int a;
};		};

struct St1{		struct St1{
int a;		int a;
static int b;		static int b;
#pragma omp allocate(b) allocator(omp_default_mem_alloc)		#pragma omp allocate(b) allocator(omp_default_mem_alloc)
Show All 17 Lines	template <class T> T foo() {
return v;		return v;
}		}

namespace ns{		namespace ns{
int a;		int a;
}		}
#pragma omp allocate(ns::a) allocator(omp_pteam_mem_alloc)		#pragma omp allocate(ns::a) allocator(omp_pteam_mem_alloc)

// CHECK-LABEL: @main
int main () {		int main () {
// CHECK: alloca double,
static int a;		static int a;
#pragma omp allocate(a) allocator(omp_thread_mem_alloc)		#pragma omp allocate(a) allocator(omp_thread_mem_alloc)
a=2;		a=2;
double b = 3;		double b = 3;
float c;		float c;
#pragma omp allocate(b) allocator(omp_default_mem_alloc)		#pragma omp allocate(b) allocator(omp_default_mem_alloc)
#pragma omp allocate(c) allocator(omp_cgroup_mem_alloc)		#pragma omp allocate(c) allocator(omp_cgroup_mem_alloc)
return (foo<int>());		return (foo<int>());
}		}

// CHECK: define {{.*}}i32 @{{.+}}foo{{.+}}()
// CHECK-NOT: alloca i32,

extern template int ST<int>::m;		extern template int ST<int>::m;

void baz(float &);		void baz(float &);

// CHECK: define{{ hidden \| }}void @{{.+}}bar{{.+}}()
void bar() {		void bar() {
// CHECK: alloca float,
float bar_a;		float bar_a;
// CHECK: alloca double,
double bar_b;		double bar_b;
int bar_c;		int bar_c;
#pragma omp allocate(bar_c) allocator(omp_cgroup_mem_alloc)		#pragma omp allocate(bar_c) allocator(omp_cgroup_mem_alloc)
// CHECK: call void [[OUTLINED:@.+]](i32* %{{.+}}, i32* %{{.+}})
#pragma omp parallel private(bar_a, bar_b) allocate(omp_thread_mem_alloc \		#pragma omp parallel private(bar_a, bar_b) allocate(omp_thread_mem_alloc \
: bar_a) allocate(omp_pteam_mem_alloc \		: bar_a) allocate(omp_pteam_mem_alloc \
: bar_b)		: bar_b)
{		{
bar_b = bar_a;		bar_b = bar_a;
baz(bar_a);		baz(bar_a);
}		}
// CHECK: define internal void [[OUTLINED]](i32* noalias %{{.+}}, i32* noalias %{{.+}})
// CHECK-NOT: alloca double,
// CHECK: alloca float,
// CHECK-NOT: alloca double,
// CHECK: load float, float* %
// CHECK: store double {{.+}}, double* addrspacecast (double addrspace(3)* @bar_b to double*),
}		}

#pragma omp end declare target		#pragma omp end declare target
#endif		#endif
		// CHECK-LABEL: define {{[^@]+}}@main
		// CHECK-SAME: () #[[ATTR0:[0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[RETVAL:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[B:%.*]] = alloca double, align 8
		// CHECK-NEXT: store i32 0, i32* [[RETVAL]], align 4
		// CHECK-NEXT: store i32 2, i32* @_ZZ4mainE1a, align 4
		// CHECK-NEXT: store double 3.000000e+00, double* [[B]], align 8
		// CHECK-NEXT: [[CALL:%.*]] = call i32 @_Z3fooIiET_v() #[[ATTR6:[0-9]+]]
		// CHECK-NEXT: ret i32 [[CALL]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@_Z3fooIiET_v
		// CHECK-SAME: () #[[ATTR1:[0-9]+]] comdat {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[TMP0:%.]] = load i32, i32 @_ZN2STIiE1mE, align 4
		// CHECK-NEXT: store i32 [[TMP0]], i32* @v, align 4
		// CHECK-NEXT: [[TMP1:%.]] = load i32, i32 @v, align 4
		// CHECK-NEXT: ret i32 [[TMP1]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@_Z3barv
		// CHECK-SAME: () #[[ATTR1]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[BAR_A:%.*]] = alloca float, align 4
		// CHECK-NEXT: [[BAR_B:%.*]] = alloca double, align 8
		// CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
		// CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
		// CHECK-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
		// CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__ to i8), i8 bitcast (void (i16, i32)* @__omp_outlined___wrapper to i8), i8* [[TMP1]], i64 0)
		// CHECK-NEXT: ret void
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@__omp_outlined__
		// CHECK-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.*]]) #[[ATTR2:[0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[BAR_A:%.*]] = alloca float, align 4
		// CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		// CHECK-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
		// CHECK-NEXT: [[TMP0:%.]] = load float, float [[BAR_A]], align 4
		// CHECK-NEXT: [[CONV:%.*]] = fpext float [[TMP0]] to double
		// CHECK-NEXT: store double [[CONV]], double* addrspacecast (double addrspace(3)* @bar_b to double*), align 8
		// CHECK-NEXT: call void @_Z3bazRf(float* nonnull align 4 dereferenceable(4) [[BAR_A]]) #[[ATTR6]]
		// CHECK-NEXT: ret void
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@__omp_outlined___wrapper
		// CHECK-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR4:[0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
		// CHECK-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
		// CHECK-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
		// CHECK-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
		// CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
		// CHECK-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
		// CHECK-NEXT: call void @__omp_outlined__(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR5:[0-9]+]]
		// CHECK-NEXT: ret void
		//

clang/test/OpenMP/nvptx_data_sharing.cpp

				// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py UTC_ARGS: --function-signature --include-generated-funcs --replace-function-regex "__omp_offloading_[0-9a-z]+_[0-9a-z]+"
	// Test device global memory data sharing codegen.			// Test device global memory data sharing codegen.
	///==========================================================================///			///==========================================================================///

	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CK1 --check-prefix SEQ			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK1
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CK1 --check-prefix PAR			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK2

	// expected-no-diagnostics			// expected-no-diagnostics

	#ifndef HEADER			#ifndef HEADER
	#define HEADER			#define HEADER

	void test_ds(){			void test_ds(){
	#pragma omp target			#pragma omp target
	{			{
	int a = 10;			int a = 10;
	#pragma omp parallel			#pragma omp parallel
	{			{
	a = 1000;			a = 1000;
	}			}
	int b = 100;			int b = 100;
	int c = 1000;			int c = 1000;
	#pragma omp parallel private(c)			#pragma omp parallel private(c)
	{			{
	int *c1 = &c;			int *c1 = &c;
	b = a + 10000;			b = a + 10000;
	}			}
	}			}
	}			}
	// SEQ: [[MEM_TY:%.+]] = type { [128 x i8] }
	// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = weak addrspace(3) global [[MEM_TY]] undef
	// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* undef
	// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i64 8
	// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1

	/// ========= In the worker function ========= ///
	// CK1: {{.}}define internal void @__omp_offloading{{.}}test_ds{{.*}}_worker()
	// CK1: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CK1-NOT: call void @__kmpc_data_sharing_init_stack

	/// ========= In the kernel function ========= ///

	// CK1: {{.}}define weak void @__omp_offloading{{.}}test_ds{{.*}}()
	// CK1: [[SHAREDARGS1:%.+]] = alloca i8**
	// CK1: [[SHAREDARGS2:%.+]] = alloca i8**
	// CK1: call void @__kmpc_kernel_init
	// CK1: call void @__kmpc_data_sharing_init_stack
	// SEQ: [[SHARED_MEM_FLAG:%.+]] = load i16, i16* [[KERNEL_SHARED]],
	// SEQ: [[SIZE:%.+]] = load i64, i64* [[KERNEL_SIZE]],
	// SEQ: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i64 [[SIZE]], i16 [[SHARED_MEM_FLAG]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))
	// SEQ: [[KERNEL_RD:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],
	// SEQ: [[GLOBALSTACK:%.+]] = getelementptr inbounds i8, i8* [[KERNEL_RD]], i64 0
	// PAR: [[GLOBALSTACK:%.+]] = call i8* @__kmpc_data_sharing_push_stack(i{{32\|64}} 8, i16 1)
	// CK1: [[GLOBALSTACK2:%.+]] = bitcast i8* [[GLOBALSTACK]] to %struct._globalized_locals_ty*
	// CK1: [[A:%.+]] = getelementptr inbounds %struct._globalized_locals_ty, %struct._globalized_locals_ty* [[GLOBALSTACK2]], i32 0, i32 0
	// CK1: [[B:%.+]] = getelementptr inbounds %struct._globalized_locals_ty, %struct._globalized_locals_ty* [[GLOBALSTACK2]], i32 0, i32 1
	// CK1: store i32 10, i32* [[A]]
	// CK1: call void @__kmpc_kernel_prepare_parallel({{.*}})
	// CK1: call void @__kmpc_begin_sharing_variables(i8*** [[SHAREDARGS1]], i64 1)
	// CK1: [[SHARGSTMP1:%.+]] = load i8, i8* [[SHAREDARGS1]]
	// CK1: [[SHARGSTMP2:%.+]] = getelementptr inbounds i8, i8* [[SHARGSTMP1]], i64 0
	// CK1: [[SHAREDVAR:%.+]] = bitcast i32* [[A]] to i8*
	// CK1: store i8* [[SHAREDVAR]], i8** [[SHARGSTMP2]]
	// CK1: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CK1: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CK1: call void @__kmpc_end_sharing_variables()
	// CK1: store i32 100, i32* [[B]]
	// CK1: call void @__kmpc_kernel_prepare_parallel({{.*}})
	// CK1: call void @__kmpc_begin_sharing_variables(i8*** [[SHAREDARGS2]], i64 2)
	// CK1: [[SHARGSTMP3:%.+]] = load i8, i8* [[SHAREDARGS2]]
	// CK1: [[SHARGSTMP4:%.+]] = getelementptr inbounds i8, i8* [[SHARGSTMP3]], i64 0
	// CK1: [[SHAREDVAR1:%.+]] = bitcast i32* [[B]] to i8*
	// CK1: store i8* [[SHAREDVAR1]], i8** [[SHARGSTMP4]]
	// CK1: [[SHARGSTMP12:%.+]] = getelementptr inbounds i8, i8* [[SHARGSTMP3]], i64 1
	// CK1: [[SHAREDVAR2:%.+]] = bitcast i32* [[A]] to i8*
	// CK1: store i8* [[SHAREDVAR2]], i8** [[SHARGSTMP12]]
	// CK1: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CK1: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CK1: call void @__kmpc_end_sharing_variables()
	// SEQ: [[SHARED_MEM_FLAG:%.+]] = load i16, i16* [[KERNEL_SHARED]],
	// SEQ: call void @__kmpc_restore_team_static_memory(i16 0, i16 [[SHARED_MEM_FLAG]])
	// PAR: call void @__kmpc_data_sharing_pop_stack(i8* [[GLOBALSTACK]])
	// CK1: call void @__kmpc_kernel_deinit(i16 1)

	/// ========= In the data sharing wrapper function ========= ///

	// CK1: {{.}}define internal void @__omp_outlined{{.}}wrapper({{.*}})
	// CK1: [[SHAREDARGS4:%.+]] = alloca i8**
	// CK1: call void @__kmpc_get_shared_variables(i8*** [[SHAREDARGS4]])
	// CK1: [[SHARGSTMP13:%.+]] = load i8, i8* [[SHAREDARGS4]]
	// CK1: [[SHARGSTMP14:%.+]] = getelementptr inbounds i8, i8* [[SHARGSTMP13]], i64 0
	// CK1: [[SHARGSTMP15:%.+]] = bitcast i8 [[SHARGSTMP14]] to i32
	// CK1: [[SHARGSTMP16:%.+]] = load i32, i32* [[SHARGSTMP15]]
	// CK1: call void @__omp_outlined__{{.}}({{.}}, i32* [[SHARGSTMP16]])

	/// outlined function for the second parallel region ///

	// CK1: define internal void @{{.+}}(i32* noalias %{{.+}}, i32* noalias %{{.+}}, i32* nonnull align {{[0-9]+}} dereferenceable{{.+}}, i32* nonnull align {{[0-9]+}} dereferenceable{{.+}})
	// CK1-NOT: call i8* @__kmpc_data_sharing_push_stack(
	// CK1: [[C_ADDR:%.+]] = alloca i32,
	// CK1: store i32* [[C_ADDR]], i32** %
	// CK1i-NOT: call void @__kmpc_data_sharing_pop_stack(

	/// ========= In the data sharing wrapper function ========= ///

	// CK1: {{.}}define internal void @__omp_outlined{{.}}wrapper({{.*}})
	// CK1: [[SHAREDARGS3:%.+]] = alloca i8**
	// CK1: call void @__kmpc_get_shared_variables(i8*** [[SHAREDARGS3]])
	// CK1: [[SHARGSTMP5:%.+]] = load i8, i8* [[SHAREDARGS3]]
	// CK1: [[SHARGSTMP6:%.+]] = getelementptr inbounds i8, i8* [[SHARGSTMP5]], i64 0
	// CK1: [[SHARGSTMP7:%.+]] = bitcast i8 [[SHARGSTMP6]] to i32
	// CK1: [[SHARGSTMP8:%.+]] = load i32, i32* [[SHARGSTMP7]]
	// CK1: [[SHARGSTMP9:%.+]] = getelementptr inbounds i8, i8* [[SHARGSTMP5]], i64 1
	// CK1: [[SHARGSTMP10:%.+]] = bitcast i8 [[SHARGSTMP9]] to i32
	// CK1: [[SHARGSTMP11:%.+]] = load i32, i32* [[SHARGSTMP10]]
	// CK1: call void @__omp_outlined__{{.}}({{.}}, i32* [[SHARGSTMP8]], i32* [[SHARGSTMP11]])

	#endif			#endif

				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z7test_dsv_l15_worker
				// CHECK1-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[WORK_FN:%.]] = alloca i8, align 8
				// CHECK1-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK1-NEXT: store i8* null, i8** [[WORK_FN]], align 8
				// CHECK1-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK1: .await.work:
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK1-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK1-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK1-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK1-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK1: .select.workers:
				// CHECK1-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK1-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK1: .execute.parallel:
				// CHECK1-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK1-NEXT: [[TMP5:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK1-NEXT: [[WORK_MATCH:%.]] = icmp eq i8 [[TMP5]], bitcast (void (i16, i32)* @__omp_outlined___wrapper to i8*)
				// CHECK1-NEXT: br i1 [[WORK_MATCH]], label [[DOTEXECUTE_FN:%.]], label [[DOTCHECK_NEXT:%.]]
				// CHECK1: .execute.fn:
				// CHECK1-NEXT: call void @__omp_outlined___wrapper(i16 0, i32 [[TMP4]]) #[[ATTR3:[0-9]+]]
				// CHECK1-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK1: .check.next:
				// CHECK1-NEXT: [[TMP6:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK1-NEXT: [[WORK_MATCH1:%.]] = icmp eq i8 [[TMP6]], bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8*)
				// CHECK1-NEXT: br i1 [[WORK_MATCH1]], label [[DOTEXECUTE_FN2:%.]], label [[DOTCHECK_NEXT3:%.]]
				// CHECK1: .execute.fn2:
				// CHECK1-NEXT: call void @__omp_outlined__1_wrapper(i16 0, i32 [[TMP4]]) #[[ATTR3]]
				// CHECK1-NEXT: br label [[DOTTERMINATE_PARALLEL]]
				// CHECK1: .check.next3:
				// CHECK1-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK1-NEXT: call void [[TMP7]](i16 0, i32 [[TMP4]])
				// CHECK1-NEXT: br label [[DOTTERMINATE_PARALLEL]]
				// CHECK1: .terminate.parallel:
				// CHECK1-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK1-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK1: .barrier.parallel:
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z7test_dsv_l15
				// CHECK1-SAME: () #[[ATTR1:[0-9]+]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
				// CHECK1-NEXT: [[C:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS7:%.]] = alloca [2 x i8], align 8
				// CHECK1-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK1-NEXT: [[TMP0:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK1-NEXT: br i1 [[TMP0]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK1: .worker:
				// CHECK1-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z7test_dsv_l15_worker() #[[ATTR3]]
				// CHECK1-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK1: .mastercheck:
				// CHECK1-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[TMP1:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK1-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK1-NEXT: [[TMP3:%.*]] = xor i32 [[TMP1]], -1
				// CHECK1-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP2]], [[TMP3]]
				// CHECK1-NEXT: [[TMP4:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK1-NEXT: br i1 [[TMP4]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK1: .master:
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK1-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK1-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK1-NEXT: [[TMP5:%.]] = load i16, i16 @"_openmp_static_kernel$is_shared", align 2
				// CHECK1-NEXT: [[TMP6:%.]] = load i64, i64 @"_openmp_static_kernel$size", align 8
				// CHECK1-NEXT: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds (%"union._shared_openmp_static_memory_type_$_", %"union._shared_openmp_static_memory_type_$_" addrspace(3)* @"_openmp_shared_static_glob_rd_$_", i32 0, i32 0, i32 0) to i8), i64 [[TMP6]], i16 [[TMP5]], i8* addrspacecast (i8* addrspace(3)* @"_openmp_kernel_static_glob_rd$ptr" to i8**))
				// CHECK1-NEXT: [[TMP7:%.]] = load i8, i8* addrspace(3)* @"_openmp_kernel_static_glob_rd$ptr", align 8
				// CHECK1-NEXT: [[TMP8:%.]] = getelementptr inbounds i8, i8 [[TMP7]], i64 0
				// CHECK1-NEXT: [[TMP9:%.]] = bitcast i8 [[TMP8]] to %struct._globalized_locals_ty*
				// CHECK1-NEXT: [[A:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP9]], i32 0, i32 0
				// CHECK1-NEXT: [[B:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY]], %struct._globalized_locals_ty [[TMP9]], i32 0, i32 1
				// CHECK1-NEXT: [[TMP10:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK1-NEXT: store i32 10, i32* [[A]], align 4
				// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK1-NEXT: [[TMP12:%.]] = bitcast i32 [[A]] to i8*
				// CHECK1-NEXT: store i8* [[TMP12]], i8** [[TMP11]], align 8
				// CHECK1-NEXT: [[TMP13:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK1-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP10]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32) @__omp_outlined__ to i8), i8 bitcast (void (i16, i32)* @__omp_outlined___wrapper to i8), i8* [[TMP13]], i64 1)
				// CHECK1-NEXT: store i32 100, i32* [[B]], align 4
				// CHECK1-NEXT: store i32 1000, i32* [[C]], align 4
				// CHECK1-NEXT: [[TMP14:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS7]], i64 0, i64 0
				// CHECK1-NEXT: [[TMP15:%.]] = bitcast i32 [[B]] to i8*
				// CHECK1-NEXT: store i8* [[TMP15]], i8** [[TMP14]], align 8
				// CHECK1-NEXT: [[TMP16:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS7]], i64 0, i64 1
				// CHECK1-NEXT: [[TMP17:%.]] = bitcast i32 [[A]] to i8*
				// CHECK1-NEXT: store i8* [[TMP17]], i8** [[TMP16]], align 8
				// CHECK1-NEXT: [[TMP18:%.]] = bitcast [2 x i8]* [[CAPTURED_VARS_ADDRS7]] to i8**
				// CHECK1-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP10]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i32)* @__omp_outlined__1 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8), i8* [[TMP18]], i64 2)
				// CHECK1-NEXT: [[TMP19:%.]] = load i16, i16 @"_openmp_static_kernel$is_shared", align 2
				// CHECK1-NEXT: call void @__kmpc_restore_team_static_memory(i16 0, i16 [[TMP19]])
				// CHECK1-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK1: .termination.notifier:
				// CHECK1-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: br label [[DOTEXIT]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.*]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: store i32 1000, i32* [[TMP0]], align 4
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined___wrapper
				// CHECK1-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK1-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				// CHECK1-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				// CHECK1-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8
				// CHECK1-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0
				// CHECK1-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
				// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 8
				// CHECK1-NEXT: call void @__omp_outlined__(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR3]]
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[B:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.*]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[B_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[C:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[C1:%.]] = alloca i32, align 8
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[B]], i32** [[B_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[B_ADDR]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[C]], i32** [[C1]], align 8
				// CHECK1-NEXT: [[TMP2:%.]] = load i32, i32 [[TMP1]], align 4
				// CHECK1-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP2]], 10000
				// CHECK1-NEXT: store i32 [[ADD]], i32* [[TMP0]], align 4
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
				// CHECK1-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK1-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				// CHECK1-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				// CHECK1-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8
				// CHECK1-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0
				// CHECK1-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
				// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 8
				// CHECK1-NEXT: [[TMP6:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 1
				// CHECK1-NEXT: [[TMP7:%.]] = bitcast i8* [[TMP6]] to i32**
				// CHECK1-NEXT: [[TMP8:%.]] = load i32, i32** [[TMP7]], align 8
				// CHECK1-NEXT: call void @__omp_outlined__1(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]], i32* [[TMP8]]) #[[ATTR3]]
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z7test_dsv_l15_worker
				// CHECK2-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[WORK_FN:%.]] = alloca i8, align 8
				// CHECK2-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK2-NEXT: store i8* null, i8** [[WORK_FN]], align 8
				// CHECK2-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK2: .await.work:
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK2-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK2-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK2-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK2-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK2: .select.workers:
				// CHECK2-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK2-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK2: .execute.parallel:
				// CHECK2-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK2-NEXT: [[TMP5:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK2-NEXT: [[WORK_MATCH:%.]] = icmp eq i8 [[TMP5]], bitcast (void (i16, i32)* @__omp_outlined___wrapper to i8*)
				// CHECK2-NEXT: br i1 [[WORK_MATCH]], label [[DOTEXECUTE_FN:%.]], label [[DOTCHECK_NEXT:%.]]
				// CHECK2: .execute.fn:
				// CHECK2-NEXT: call void @__omp_outlined___wrapper(i16 0, i32 [[TMP4]]) #[[ATTR3:[0-9]+]]
				// CHECK2-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK2: .check.next:
				// CHECK2-NEXT: [[TMP6:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK2-NEXT: [[WORK_MATCH1:%.]] = icmp eq i8 [[TMP6]], bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8*)
				// CHECK2-NEXT: br i1 [[WORK_MATCH1]], label [[DOTEXECUTE_FN2:%.]], label [[DOTCHECK_NEXT3:%.]]
				// CHECK2: .execute.fn2:
				// CHECK2-NEXT: call void @__omp_outlined__1_wrapper(i16 0, i32 [[TMP4]]) #[[ATTR3]]
				// CHECK2-NEXT: br label [[DOTTERMINATE_PARALLEL]]
				// CHECK2: .check.next3:
				// CHECK2-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK2-NEXT: call void [[TMP7]](i16 0, i32 [[TMP4]])
				// CHECK2-NEXT: br label [[DOTTERMINATE_PARALLEL]]
				// CHECK2: .terminate.parallel:
				// CHECK2-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK2-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK2: .barrier.parallel:
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z7test_dsv_l15
				// CHECK2-SAME: () #[[ATTR1:[0-9]+]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
				// CHECK2-NEXT: [[C:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS7:%.]] = alloca [2 x i8], align 8
				// CHECK2-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK2-NEXT: [[TMP0:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK2-NEXT: br i1 [[TMP0]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK2: .worker:
				// CHECK2-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z7test_dsv_l15_worker() #[[ATTR3]]
				// CHECK2-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK2: .mastercheck:
				// CHECK2-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[TMP1:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK2-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK2-NEXT: [[TMP3:%.*]] = xor i32 [[TMP1]], -1
				// CHECK2-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP2]], [[TMP3]]
				// CHECK2-NEXT: [[TMP4:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK2-NEXT: br i1 [[TMP4]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK2: .master:
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK2-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK2-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK2-NEXT: [[TMP5:%.]] = call i8 @__kmpc_data_sharing_push_stack(i64 8, i16 1)
				// CHECK2-NEXT: [[TMP6:%.]] = bitcast i8 [[TMP5]] to %struct._globalized_locals_ty*
				// CHECK2-NEXT: [[A:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP6]], i32 0, i32 0
				// CHECK2-NEXT: [[B:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY]], %struct._globalized_locals_ty [[TMP6]], i32 0, i32 1
				// CHECK2-NEXT: [[TMP7:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK2-NEXT: store i32 10, i32* [[A]], align 4
				// CHECK2-NEXT: [[TMP8:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK2-NEXT: [[TMP9:%.]] = bitcast i32 [[A]] to i8*
				// CHECK2-NEXT: store i8* [[TMP9]], i8** [[TMP8]], align 8
				// CHECK2-NEXT: [[TMP10:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK2-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP7]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32) @__omp_outlined__ to i8), i8 bitcast (void (i16, i32)* @__omp_outlined___wrapper to i8), i8* [[TMP10]], i64 1)
				// CHECK2-NEXT: store i32 100, i32* [[B]], align 4
				// CHECK2-NEXT: store i32 1000, i32* [[C]], align 4
				// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS7]], i64 0, i64 0
				// CHECK2-NEXT: [[TMP12:%.]] = bitcast i32 [[B]] to i8*
				// CHECK2-NEXT: store i8* [[TMP12]], i8** [[TMP11]], align 8
				// CHECK2-NEXT: [[TMP13:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS7]], i64 0, i64 1
				// CHECK2-NEXT: [[TMP14:%.]] = bitcast i32 [[A]] to i8*
				// CHECK2-NEXT: store i8* [[TMP14]], i8** [[TMP13]], align 8
				// CHECK2-NEXT: [[TMP15:%.]] = bitcast [2 x i8]* [[CAPTURED_VARS_ADDRS7]] to i8**
				// CHECK2-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP7]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i32)* @__omp_outlined__1 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8), i8* [[TMP15]], i64 2)
				// CHECK2-NEXT: call void @__kmpc_data_sharing_pop_stack(i8* [[TMP5]])
				// CHECK2-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK2: .termination.notifier:
				// CHECK2-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: br label [[DOTEXIT]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.*]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK2-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK2-NEXT: store i32 1000, i32* [[TMP0]], align 4
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined___wrapper
				// CHECK2-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK2-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				// CHECK2-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				// CHECK2-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8
				// CHECK2-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0
				// CHECK2-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
				// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 8
				// CHECK2-NEXT: call void @__omp_outlined__(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR3]]
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[B:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.*]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[B_ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[C:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[C1:%.]] = alloca i32, align 8
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK2-NEXT: store i32* [[B]], i32** [[B_ADDR]], align 8
				// CHECK2-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[B_ADDR]], align 8
				// CHECK2-NEXT: [[TMP1:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK2-NEXT: store i32* [[C]], i32** [[C1]], align 8
				// CHECK2-NEXT: [[TMP2:%.]] = load i32, i32 [[TMP1]], align 4
				// CHECK2-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP2]], 10000
				// CHECK2-NEXT: store i32 [[ADD]], i32* [[TMP0]], align 4
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
				// CHECK2-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK2-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				// CHECK2-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				// CHECK2-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8
				// CHECK2-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0
				// CHECK2-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
				// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 8
				// CHECK2-NEXT: [[TMP6:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 1
				// CHECK2-NEXT: [[TMP7:%.]] = bitcast i8* [[TMP6]] to i32**
				// CHECK2-NEXT: [[TMP8:%.]] = load i32, i32** [[TMP7]], align 8
				// CHECK2-NEXT: call void @__omp_outlined__1(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]], i32* [[TMP8]]) #[[ATTR3]]
				// CHECK2-NEXT: ret void
				//

clang/test/OpenMP/nvptx_distribute_parallel_generic_mode_codegen.cpp

This file has a very large number of changes (4,042 lines). Show File Contents

clang/test/OpenMP/nvptx_lambda_capturing.cpp

				// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py UTC_ARGS: --function-signature --include-generated-funcs --replace-function-regex "__omp_offloading_[0-9a-z]+_[0-9a-z]+" --prefix-filecheck-ir-name _
	// REQUIRES: powerpc-registered-target			// REQUIRES: powerpc-registered-target
	// REQUIRES: nvptx-registered-target			// REQUIRES: nvptx-registered-target

	// RUN: %clang_cc1 -fopenmp -x c++ -std=c++11 -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -o - \| FileCheck %s --check-prefix HOST			// RUN: %clang_cc1 -fopenmp -x c++ -std=c++11 -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -o - \| FileCheck %s --check-prefix CHECK1
	// RUN: %clang_cc1 -fopenmp -x c++ -std=c++11 -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -fopenmp -x c++ -std=c++11 -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -fopenmp -x c++ -std=c++11 -triple nvptx64-nvidia-cuda -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefixes=CLASS,FUN,CHECK			// RUN: %clang_cc1 -fopenmp -x c++ -std=c++11 -triple nvptx64-nvidia-cuda -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CHECK2
	// RUN: %clang_cc1 -fopenmp -x c++ -std=c++11 -triple nvptx64-nvidia-cuda -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -emit-pch -o %t			// RUN: %clang_cc1 -fopenmp -x c++ -std=c++11 -triple nvptx64-nvidia-cuda -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -emit-pch -o %t
	// RUN: %clang_cc1 -fopenmp -x c++ -std=c++11 -triple nvptx64-nvidia-cuda -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -include-pch %t -o - \| FileCheck %s --check-prefixes=CLASS,CHECK			// RUN: %clang_cc1 -fopenmp -x c++ -std=c++11 -triple nvptx64-nvidia-cuda -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -include-pch %t -o - \| FileCheck %s --check-prefix CHECK3
	// RUN: %clang_cc1 -fopenmp -x c++ -std=c++11 -triple nvptx64-nvidia-cuda -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -include-pch %t -o - \| FileCheck %s --check-prefixes=FUN,CHECK			// RUN: %clang_cc1 -fopenmp -x c++ -std=c++11 -triple nvptx64-nvidia-cuda -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -include-pch %t -o - \| FileCheck %s --check-prefix CHECK4

	// expected-no-diagnostics			// expected-no-diagnostics
	#ifndef HEADER			#ifndef HEADER
	#define HEADER			#define HEADER

	// HOST-DAG: = private unnamed_addr constant [11 x i64] [i64 4, i64 4, i64 4, i64 0, i64 4, i64 40, i64 4, i64 4, i64 4, i64 8, i64 4]
	// HOST-DAG: = private unnamed_addr constant [11 x i64] [i64 288, i64 673, i64 673, i64 544, i64 33, i64 673, i64 1688849860264720, i64 1688849860264720, i64 1688849860264720, i64 1688849860264720, i64 1688849860264720]
	// HOST-DAG: = private unnamed_addr constant [11 x i64] [i64 4, i64 4, i64 4, i64 0, i64 4, i64 40, i64 4, i64 4, i64 4, i64 8, i64 4]
	// HOST-DAG: = private unnamed_addr constant [11 x i64] [i64 673, i64 673, i64 673, i64 544, i64 673, i64 673, i64 1688849860264720, i64 1688849860264720, i64 1688849860264720, i64 1688849860264720, i64 1688849860264720]
	// HOST-DAG: = private unnamed_addr constant [3 x i64] [i64 4, i64 8, i64 8]
	// HOST-DAG: = private unnamed_addr constant [3 x i64] [i64 547, i64 673, i64 562949953422096]
	// HOST-DAG: = private unnamed_addr constant [3 x i64] [i64 4, i64 8, i64 8]
	// HOST-DAG: = private unnamed_addr constant [3 x i64] [i64 547, i64 673, i64 562949953422096]
	// HOST-DAG: = private unnamed_addr constant [2 x i64] [i64 8, i64 8]
	// HOST-DAG: = private unnamed_addr constant [2 x i64] [i64 673, i64 281474976711440]
	// CHECK-DAG: [[S:%.+]] = type { i32 }
	// CHECK-DAG: [[CAP1:%.+]] = type { [[S]]* }
	// CHECK-DAG: [[CAP2:%.+]] = type { i32, i32, i32, i32, i32 }

	// CLASS: define internal void @__omp_offloading_{{.}}_{{.}}foo{{.*}}_l67_worker()
	// CLASS: define weak void @__omp_offloading_{{.}}_{{.}}foo{{.}}_l67([[S]] {{%.+}}, [[CAP1]]* nonnull align 8 dereferenceable(8) {{%.+}})
	// CLASS-NOT: getelementptr
	// CLASS: br i1 %
	// CLASS: call void @__omp_offloading_{{.}}_{{.}}foo{{.*}}_l67_worker()
	// CLASS: br label %
	// CLASS: br i1 %
	// CLASS: call void @__kmpc_kernel_init(
	// CLASS: call void @__kmpc_data_sharing_init_stack()
	// CLASS: call void @llvm.memcpy.
	// CLASS: [[L:%.+]] = load [[CAP1]], [[CAP1]]* [[L_ADDR:%.+]],
	// CLASS: [[THIS_REF:%.+]] = getelementptr inbounds [[CAP1]], [[CAP1]]* [[L]], i32 0, i32 0
	// CLASS: store [[S]]* [[S_:%.+]], [[S]]** [[THIS_REF]],
	// CLASS: [[L:%.+]] = load [[CAP1]], [[CAP1]]* [[L_ADDR]],
	// CLASS: call i32 [[LAMBDA1:@.+foo.+]]([[CAP1]]* {{[^,]*}} [[L]])
	// CLASS: ret void

	// CLASS: define weak void @__omp_offloading_{{.+}}foo{{.+}}_l69([[S]]* %{{.+}}, [[CAP1]]* nonnull align 8 dereferenceable(8) %{{.+}})
	// CLASS-NOT: getelementptr
	// CLASS: call void @llvm.memcpy.
	// CLASS: [[L:%.+]] = load [[CAP1]], [[CAP1]]* [[L_ADDR:%.+]],
	// CLASS: [[THIS_REF:%.+]] = getelementptr inbounds [[CAP1]], [[CAP1]]* [[L]], i32 0, i32 0
	// CLASS: store [[S]]* %{{.+}}, [[S]]** [[THIS_REF]],
	// CLASS: [[L:%.+]] = load [[CAP1]], [[CAP1]]* [[L_ADDR]],
	// CLASS: call i32 [[LAMBDA1]]([[CAP1]]* {{[^,]*}} [[L]])
	// CLASS: ret void

	template <typename T>			template <typename T>
	int foo(const T &t) {			int foo(const T &t) {
	#pragma omp target parallel			#pragma omp target parallel
	t();			t();
	return 0;			return 0;
	}			}

	struct S {			struct S {
	int a = 15;			int a = 15;
	int foo() {			int foo() {
	auto &&L = [&]() { return a; };			auto &&L = [&]() { return a; };
	#pragma omp target			#pragma omp target
	L();			L();
	#pragma omp target parallel			#pragma omp target parallel
	L();			L();
	return a + ::foo(L);			return a + ::foo(L);
	}			}
	} s;			} s;

	// FUN: define internal void @__omp_offloading_{{.+}}_main_l124_worker()
	// FUN: define weak void @__omp_offloading_{{.+}}_main_l124(i64 %{{.+}}, i32* nonnull align 4 dereferenceable(4) %{{.+}}, i32* nonnull align 4 dereferenceable(4) %{{.+}}, i32* %{{.+}}, i32* nonnull align 4 dereferenceable(4) %{{.+}}, [[CAP2]]* nonnull align 8 dereferenceable(40) %{{.+}})
	// FUN-NOT: getelementptr
	// FUN: br i1 %
	// FUN: call void @__omp_offloading_{{.}}_{{.}}main{{.*}}_l124_worker()
	// FUN: br label %
	// FUN: br i1 %
	// FUN: call void @__kmpc_kernel_init(
	// FUN: call void @__kmpc_data_sharing_init_stack()
	// FUN: call void @llvm.memcpy.
	// FUN: [[L:%.+]] = load [[CAP2]], [[CAP2]]* [[L_ADDR:%.+]],
	// FUN: [[ARGC_CAP:%.+]] = getelementptr inbounds [[CAP2]], [[CAP2]]* [[L]], i32 0, i32 0
	// FUN: store i32* %{{.+}}, i32** [[ARGC_CAP]],
	// FUN: [[B_CAP:%.+]] = getelementptr inbounds [[CAP2]], [[CAP2]]* [[L]], i32 0, i32 1
	// FUN: store i32* %{{.+}}, i32** [[B_CAP]],
	// FUN: [[C_CAP:%.+]] = getelementptr inbounds [[CAP2]], [[CAP2]]* [[L]], i32 0, i32 2
	// FUN: store i32* %{{.+}}, i32** [[C_CAP]],
	// FUN: [[D_CAP:%.+]] = getelementptr inbounds [[CAP2]], [[CAP2]]* [[L]], i32 0, i32 3
	// FUN: store i32 %{{.+}}, i32* [[D_CAP]],
	// FUN: [[A_CAP:%.+]] = getelementptr inbounds [[CAP2]], [[CAP2]]* [[L]], i32 0, i32 4
	// FUN: store i32* %{{.+}}, i32** [[A_CAP]],
	// FUN: [[L:%.+]] = load [[CAP2]], [[CAP2]]* [[L_ADDR]],
	// FUN: call i64 [[LAMBDA2:@.+main.+]]([[CAP2]]* {{[^,]*}} [[L]])
	// FUN: ret void

	// FUN: define weak void @__omp_offloading_{{.+}}_main_l126(i32* nonnull align 4 dereferenceable(4) %{{.+}}, i32* nonnull align 4 dereferenceable(4) %{{.+}} i32* nonnull align 4 dereferenceable(4) %{{.+}}, i32* %{{.+}}, i32* nonnull align 4 dereferenceable(4) %{{.+}}, [[CAP2]]* nonnull align 8 dereferenceable(40) %{{.+}})
	// FUN-NOT: getelementptr
	// FUN: call void @llvm.memcpy.
	// FUN: [[L:%.+]] = load [[CAP2]], [[CAP2]]* [[L_ADDR:%.+]],
	// FUN: [[ARGC_CAP:%.+]] = getelementptr inbounds [[CAP2]], [[CAP2]]* [[L]], i32 0, i32 0
	// FUN: store i32* %{{.+}}, i32** [[ARGC_CAP]],
	// FUN: [[B_CAP:%.+]] = getelementptr inbounds [[CAP2]], [[CAP2]]* [[L]], i32 0, i32 1
	// FUN: store i32* %{{.+}}, i32** [[B_CAP]],
	// FUN: [[C_CAP:%.+]] = getelementptr inbounds [[CAP2]], [[CAP2]]* [[L]], i32 0, i32 2
	// FUN: store i32* %{{.+}}, i32** [[C_CAP]],
	// FUN: [[D_CAP:%.+]] = getelementptr inbounds [[CAP2]], [[CAP2]]* [[L]], i32 0, i32 3
	// FUN: store i32 %{{.+}}, i32* [[D_CAP]],
	// FUN: [[A_CAP:%.+]] = getelementptr inbounds [[CAP2]], [[CAP2]]* [[L]], i32 0, i32 4
	// FUN: store i32* %{{.+}}, i32** [[A_CAP]],
	// FUN: [[L:%.+]] = load [[CAP2]], [[CAP2]]* [[L_ADDR]],
	// FUN: call i64 [[LAMBDA2]]([[CAP2]]* {{[^,]*}} [[L]])
	// FUN: ret void

	int main(int argc, char **argv) {			int main(int argc, char **argv) {
	int &b = argc;			int &b = argc;
	int &&c = 1;			int &&c = 1;
	int *d = &argc;			int *d = &argc;
	int a;			int a;
	auto &&L = [&]() { return argc + b + c + reinterpret_cast<long int>(d) + a; };			auto &&L = [&]() { return argc + b + c + reinterpret_cast<long int>(d) + a; };
	#pragma omp target firstprivate(argc) map(to : a)			#pragma omp target firstprivate(argc) map(to : a)
	L();			L();
	#pragma omp target parallel			#pragma omp target parallel
	L();			L();
	return argc + s.foo();			return argc + s.foo();
	}			}


	// HOST-LABEL: @main

	// HOST-DAG: call i32 @__tgt_target_mapper(%struct.ident_t* @{{.+}}, i64 -1, i8* @{{.+}}, i32 11, i8 [[BASES:%.+]], i8 [[PTRS:%.+]],
	// HOST-DAG: [[BASES:%.+]] = getelementptr inbounds [11 x i8], [11 x i8]* [[BASE_PTR:%.+]], i32 0, i32 0
	// HOST-DAG: [[PTRS:%.+]] = getelementptr inbounds [11 x i8], [11 x i8]* [[PTR_PTR:%.+]], i32 0, i32 0
	// HOST-DAG: [[BASE_REF:%.+]] = getelementptr inbounds [11 x i8], [11 x i8]* [[BASE_PTR]], i32 0, i32 6
	// HOST-DAG: [[BASE_REF_CAST:%.+]] = bitcast i8 [[BASE_REF]] to i32*
	// HOST-DAG: store i32 [[BASE:%.+]], i32* [[BASE_REF_CAST]],
	// HOST-DAG: [[BASE]] = getelementptr inbounds [[LAMBDA:%.+]], [[LAMBDA]]* [[LAMBDA_ADDR:%.+]], i32 0, i32 0
	// HOST-DAG: [[PTR_REF:%.+]] = getelementptr inbounds [11 x i8], [11 x i8]* [[PTR_PTR]], i32 0, i32 6
	// HOST-DAG: [[PTR_REF_CAST:%.+]] = bitcast i8 [[PTR_REF]] to i32
	// HOST-DAG: store i32* [[PTR:%.+]], i32** [[PTR_REF_CAST]],
	// HOST-DAG: [[PTR]] = load i32, i32* [[PTR_REF:%.+]],
	// HOST-DAG: [[PTR_REF]] = getelementptr inbounds [[LAMBDA]], [[LAMBDA]]* [[LAMBDA_ADDR]], i32 0, i32 0
	#endif // HEADER			#endif // HEADER
				// CHECK1-LABEL: define {{[^@]+}}@main
				// CHECK1-SAME: (i32 signext [[ARGC:%.]], i8* [[ARGV:%.*]]) #[[ATTR0:[0-9]+]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[RETVAL:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[ARGC_ADDR:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[ARGV_ADDR:%.]] = alloca i8*, align 8
				// CHECK1-NEXT: [[B:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[C:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[REF_TMP:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[D:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[A:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[L:%.]] = alloca %class.anon, align 8
				// CHECK1-NEXT: [[REF_TMP1:%.]] = alloca [[CLASS_ANON:%.]], align 8
				// CHECK1-NEXT: [[TMP:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[_TMP2:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[_TMP3:%.]] = alloca %class.anon, align 8
				// CHECK1-NEXT: [[ARGC_CASTED:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[DOTOFFLOAD_BASEPTRS:%.]] = alloca [11 x i8], align 8
				// CHECK1-NEXT: [[DOTOFFLOAD_PTRS:%.]] = alloca [11 x i8], align 8
				// CHECK1-NEXT: [[DOTOFFLOAD_MAPPERS:%.]] = alloca [11 x i8], align 8
				// CHECK1-NEXT: [[_TMP4:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[_TMP5:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[_TMP6:%.]] = alloca %class.anon, align 8
				// CHECK1-NEXT: [[DOTOFFLOAD_BASEPTRS7:%.]] = alloca [11 x i8], align 8
				// CHECK1-NEXT: [[DOTOFFLOAD_PTRS8:%.]] = alloca [11 x i8], align 8
				// CHECK1-NEXT: [[DOTOFFLOAD_MAPPERS9:%.]] = alloca [11 x i8], align 8
				// CHECK1-NEXT: store i32 0, i32* [[RETVAL]], align 4
				// CHECK1-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4
				// CHECK1-NEXT: store i8 [[ARGV]], i8* [[ARGV_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[ARGC_ADDR]], i32** [[B]], align 8
				// CHECK1-NEXT: store i32 1, i32* [[REF_TMP]], align 4
				// CHECK1-NEXT: store i32* [[REF_TMP]], i32** [[C]], align 8
				// CHECK1-NEXT: store i32* [[ARGC_ADDR]], i32** [[D]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[REF_TMP1]], i32 0, i32 0
				// CHECK1-NEXT: store i32* [[ARGC_ADDR]], i32** [[TMP0]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[REF_TMP1]], i32 0, i32 1
				// CHECK1-NEXT: [[TMP2:%.]] = load i32, i32** [[B]], align 8
				// CHECK1-NEXT: store i32* [[TMP2]], i32** [[TMP1]], align 8
				// CHECK1-NEXT: [[TMP3:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[REF_TMP1]], i32 0, i32 2
				// CHECK1-NEXT: [[TMP4:%.]] = load i32, i32** [[C]], align 8
				// CHECK1-NEXT: store i32* [[TMP4]], i32** [[TMP3]], align 8
				// CHECK1-NEXT: [[TMP5:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[REF_TMP1]], i32 0, i32 3
				// CHECK1-NEXT: store i32 [[D]], i32* [[TMP5]], align 8
				// CHECK1-NEXT: [[TMP6:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[REF_TMP1]], i32 0, i32 4
				// CHECK1-NEXT: store i32* [[A]], i32** [[TMP6]], align 8
				// CHECK1-NEXT: store %class.anon* [[REF_TMP1]], %class.anon** [[L]], align 8
				// CHECK1-NEXT: [[TMP7:%.]] = load i32, i32** [[B]], align 8
				// CHECK1-NEXT: store i32* [[TMP7]], i32** [[TMP]], align 8
				// CHECK1-NEXT: [[TMP8:%.]] = load i32, i32** [[C]], align 8
				// CHECK1-NEXT: store i32* [[TMP8]], i32** [[_TMP2]], align 8
				// CHECK1-NEXT: [[TMP9:%.]] = load %class.anon, %class.anon** [[L]], align 8
				// CHECK1-NEXT: store %class.anon* [[TMP9]], %class.anon** [[_TMP3]], align 8
				// CHECK1-NEXT: [[TMP10:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
				// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[ARGC_CASTED]] to i32*
				// CHECK1-NEXT: store i32 [[TMP10]], i32* [[CONV]], align 4
				// CHECK1-NEXT: [[TMP11:%.]] = load i64, i64 [[ARGC_CASTED]], align 8
				// CHECK1-NEXT: [[TMP12:%.]] = load i32, i32** [[TMP]], align 8
				// CHECK1-NEXT: [[TMP13:%.]] = load i32, i32** [[_TMP2]], align 8
				// CHECK1-NEXT: [[TMP14:%.]] = load i32, i32** [[D]], align 8
				// CHECK1-NEXT: [[TMP15:%.]] = load %class.anon, %class.anon** [[_TMP3]], align 8
				// CHECK1-NEXT: [[TMP16:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP15]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP17:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP15]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP18:%.]] = load i32, i32** [[TMP17]], align 8
				// CHECK1-NEXT: [[TMP19:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP15]], i32 0, i32 1
				// CHECK1-NEXT: [[TMP20:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP15]], i32 0, i32 1
				// CHECK1-NEXT: [[TMP21:%.]] = load i32, i32** [[TMP20]], align 8
				// CHECK1-NEXT: [[TMP22:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP15]], i32 0, i32 2
				// CHECK1-NEXT: [[TMP23:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP15]], i32 0, i32 2
				// CHECK1-NEXT: [[TMP24:%.]] = load i32, i32** [[TMP23]], align 8
				// CHECK1-NEXT: [[TMP25:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP15]], i32 0, i32 3
				// CHECK1-NEXT: [[TMP26:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP15]], i32 0, i32 3
				// CHECK1-NEXT: [[TMP27:%.]] = load i32, i32** [[TMP26]], align 8
				// CHECK1-NEXT: [[TMP28:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP15]], i32 0, i32 4
				// CHECK1-NEXT: [[TMP29:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP15]], i32 0, i32 4
				// CHECK1-NEXT: [[TMP30:%.]] = load i32, i32** [[TMP29]], align 8
				// CHECK1-NEXT: [[TMP31:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP32:%.]] = bitcast i8* [[TMP31]] to i64*
				// CHECK1-NEXT: store i64 [[TMP11]], i64* [[TMP32]], align 8
				// CHECK1-NEXT: [[TMP33:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP34:%.]] = bitcast i8* [[TMP33]] to i64*
				// CHECK1-NEXT: store i64 [[TMP11]], i64* [[TMP34]], align 8
				// CHECK1-NEXT: [[TMP35:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS]], i64 0, i64 0
				// CHECK1-NEXT: store i8* null, i8** [[TMP35]], align 8
				// CHECK1-NEXT: [[TMP36:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS]], i32 0, i32 1
				// CHECK1-NEXT: [[TMP37:%.]] = bitcast i8* [[TMP36]] to i32**
				// CHECK1-NEXT: store i32* [[TMP12]], i32** [[TMP37]], align 8
				// CHECK1-NEXT: [[TMP38:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS]], i32 0, i32 1
				// CHECK1-NEXT: [[TMP39:%.]] = bitcast i8* [[TMP38]] to i32**
				// CHECK1-NEXT: store i32* [[TMP12]], i32** [[TMP39]], align 8
				// CHECK1-NEXT: [[TMP40:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS]], i64 0, i64 1
				// CHECK1-NEXT: store i8* null, i8** [[TMP40]], align 8
				// CHECK1-NEXT: [[TMP41:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS]], i32 0, i32 2
				// CHECK1-NEXT: [[TMP42:%.]] = bitcast i8* [[TMP41]] to i32**
				// CHECK1-NEXT: store i32* [[TMP13]], i32** [[TMP42]], align 8
				// CHECK1-NEXT: [[TMP43:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS]], i32 0, i32 2
				// CHECK1-NEXT: [[TMP44:%.]] = bitcast i8* [[TMP43]] to i32**
				// CHECK1-NEXT: store i32* [[TMP13]], i32** [[TMP44]], align 8
				// CHECK1-NEXT: [[TMP45:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS]], i64 0, i64 2
				// CHECK1-NEXT: store i8* null, i8** [[TMP45]], align 8
				// CHECK1-NEXT: [[TMP46:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS]], i32 0, i32 3
				// CHECK1-NEXT: [[TMP47:%.]] = bitcast i8* [[TMP46]] to i32**
				// CHECK1-NEXT: store i32* [[TMP14]], i32** [[TMP47]], align 8
				// CHECK1-NEXT: [[TMP48:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS]], i32 0, i32 3
				// CHECK1-NEXT: [[TMP49:%.]] = bitcast i8* [[TMP48]] to i32**
				// CHECK1-NEXT: store i32* [[TMP14]], i32** [[TMP49]], align 8
				// CHECK1-NEXT: [[TMP50:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS]], i64 0, i64 3
				// CHECK1-NEXT: store i8* null, i8** [[TMP50]], align 8
				// CHECK1-NEXT: [[TMP51:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS]], i32 0, i32 4
				// CHECK1-NEXT: [[TMP52:%.]] = bitcast i8* [[TMP51]] to i32**
				// CHECK1-NEXT: store i32* [[A]], i32** [[TMP52]], align 8
				// CHECK1-NEXT: [[TMP53:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS]], i32 0, i32 4
				// CHECK1-NEXT: [[TMP54:%.]] = bitcast i8* [[TMP53]] to i32**
				// CHECK1-NEXT: store i32* [[A]], i32** [[TMP54]], align 8
				// CHECK1-NEXT: [[TMP55:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS]], i64 0, i64 4
				// CHECK1-NEXT: store i8* null, i8** [[TMP55]], align 8
				// CHECK1-NEXT: [[TMP56:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS]], i32 0, i32 5
				// CHECK1-NEXT: [[TMP57:%.]] = bitcast i8* [[TMP56]] to %class.anon**
				// CHECK1-NEXT: store %class.anon* [[TMP15]], %class.anon** [[TMP57]], align 8
				// CHECK1-NEXT: [[TMP58:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS]], i32 0, i32 5
				// CHECK1-NEXT: [[TMP59:%.]] = bitcast i8* [[TMP58]] to %class.anon**
				// CHECK1-NEXT: store %class.anon* [[TMP15]], %class.anon** [[TMP59]], align 8
				// CHECK1-NEXT: [[TMP60:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS]], i64 0, i64 5
				// CHECK1-NEXT: store i8* null, i8** [[TMP60]], align 8
				// CHECK1-NEXT: [[TMP61:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS]], i32 0, i32 6
				// CHECK1-NEXT: [[TMP62:%.]] = bitcast i8* [[TMP61]] to i32***
				// CHECK1-NEXT: store i32 [[TMP16]], i32* [[TMP62]], align 8
				// CHECK1-NEXT: [[TMP63:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS]], i32 0, i32 6
				// CHECK1-NEXT: [[TMP64:%.]] = bitcast i8* [[TMP63]] to i32**
				// CHECK1-NEXT: store i32* [[TMP18]], i32** [[TMP64]], align 8
				// CHECK1-NEXT: [[TMP65:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS]], i64 0, i64 6
				// CHECK1-NEXT: store i8* null, i8** [[TMP65]], align 8
				// CHECK1-NEXT: [[TMP66:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS]], i32 0, i32 7
				// CHECK1-NEXT: [[TMP67:%.]] = bitcast i8* [[TMP66]] to i32***
				// CHECK1-NEXT: store i32 [[TMP19]], i32* [[TMP67]], align 8
				// CHECK1-NEXT: [[TMP68:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS]], i32 0, i32 7
				// CHECK1-NEXT: [[TMP69:%.]] = bitcast i8* [[TMP68]] to i32**
				// CHECK1-NEXT: store i32* [[TMP21]], i32** [[TMP69]], align 8
				// CHECK1-NEXT: [[TMP70:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS]], i64 0, i64 7
				// CHECK1-NEXT: store i8* null, i8** [[TMP70]], align 8
				// CHECK1-NEXT: [[TMP71:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS]], i32 0, i32 8
				// CHECK1-NEXT: [[TMP72:%.]] = bitcast i8* [[TMP71]] to i32***
				// CHECK1-NEXT: store i32 [[TMP22]], i32* [[TMP72]], align 8
				// CHECK1-NEXT: [[TMP73:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS]], i32 0, i32 8
				// CHECK1-NEXT: [[TMP74:%.]] = bitcast i8* [[TMP73]] to i32**
				// CHECK1-NEXT: store i32* [[TMP24]], i32** [[TMP74]], align 8
				// CHECK1-NEXT: [[TMP75:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS]], i64 0, i64 8
				// CHECK1-NEXT: store i8* null, i8** [[TMP75]], align 8
				// CHECK1-NEXT: [[TMP76:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS]], i32 0, i32 9
				// CHECK1-NEXT: [[TMP77:%.]] = bitcast i8* [[TMP76]] to i32****
				// CHECK1-NEXT: store i32* [[TMP25]], i32** [[TMP77]], align 8
				// CHECK1-NEXT: [[TMP78:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS]], i32 0, i32 9
				// CHECK1-NEXT: [[TMP79:%.]] = bitcast i8* [[TMP78]] to i32***
				// CHECK1-NEXT: store i32 [[TMP27]], i32* [[TMP79]], align 8
				// CHECK1-NEXT: [[TMP80:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS]], i64 0, i64 9
				// CHECK1-NEXT: store i8* null, i8** [[TMP80]], align 8
				// CHECK1-NEXT: [[TMP81:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS]], i32 0, i32 10
				// CHECK1-NEXT: [[TMP82:%.]] = bitcast i8* [[TMP81]] to i32***
				// CHECK1-NEXT: store i32 [[TMP28]], i32* [[TMP82]], align 8
				// CHECK1-NEXT: [[TMP83:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS]], i32 0, i32 10
				// CHECK1-NEXT: [[TMP84:%.]] = bitcast i8* [[TMP83]] to i32**
				// CHECK1-NEXT: store i32* [[TMP30]], i32** [[TMP84]], align 8
				// CHECK1-NEXT: [[TMP85:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS]], i64 0, i64 10
				// CHECK1-NEXT: store i8* null, i8** [[TMP85]], align 8
				// CHECK1-NEXT: [[TMP86:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP87:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP88:%.]] = call i32 @__tgt_target_mapper(%struct.ident_t @[[GLOB1:[0-9]+]], i64 -1, i8* @.{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l41.region_id, i32 11, i8 [[TMP86]], i8 [[TMP87]], i64* getelementptr inbounds ([11 x i64], [11 x i64]* @.offload_sizes, i32 0, i32 0), i64* getelementptr inbounds ([11 x i64], [11 x i64]* @.offload_maptypes, i32 0, i32 0), i8 null, i8 null)
				// CHECK1-NEXT: [[TMP89:%.*]] = icmp ne i32 [[TMP88]], 0
				// CHECK1-NEXT: br i1 [[TMP89]], label [[OMP_OFFLOAD_FAILED:%.]], label [[OMP_OFFLOAD_CONT:%.]]
				// CHECK1: omp_offload.failed:
				// CHECK1-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l41(i64 [[TMP11]], i32* [[TMP12]], i32* [[TMP13]], i32* [[TMP14]], i32* [[A]], %class.anon* [[TMP15]]) #[[ATTR4:[0-9]+]]
				// CHECK1-NEXT: br label [[OMP_OFFLOAD_CONT]]
				// CHECK1: omp_offload.cont:
				// CHECK1-NEXT: [[TMP90:%.]] = load i32, i32** [[B]], align 8
				// CHECK1-NEXT: store i32* [[TMP90]], i32** [[_TMP4]], align 8
				// CHECK1-NEXT: [[TMP91:%.]] = load i32, i32** [[C]], align 8
				// CHECK1-NEXT: store i32* [[TMP91]], i32** [[_TMP5]], align 8
				// CHECK1-NEXT: [[TMP92:%.]] = load %class.anon, %class.anon** [[L]], align 8
				// CHECK1-NEXT: store %class.anon* [[TMP92]], %class.anon** [[_TMP6]], align 8
				// CHECK1-NEXT: [[TMP93:%.]] = load i32, i32** [[_TMP4]], align 8
				// CHECK1-NEXT: [[TMP94:%.]] = load i32, i32** [[_TMP5]], align 8
				// CHECK1-NEXT: [[TMP95:%.]] = load i32, i32** [[D]], align 8
				// CHECK1-NEXT: [[TMP96:%.]] = load %class.anon, %class.anon** [[_TMP6]], align 8
				// CHECK1-NEXT: [[TMP97:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP96]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP98:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP96]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP99:%.]] = load i32, i32** [[TMP98]], align 8
				// CHECK1-NEXT: [[TMP100:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP96]], i32 0, i32 1
				// CHECK1-NEXT: [[TMP101:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP96]], i32 0, i32 1
				// CHECK1-NEXT: [[TMP102:%.]] = load i32, i32** [[TMP101]], align 8
				// CHECK1-NEXT: [[TMP103:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP96]], i32 0, i32 2
				// CHECK1-NEXT: [[TMP104:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP96]], i32 0, i32 2
				// CHECK1-NEXT: [[TMP105:%.]] = load i32, i32** [[TMP104]], align 8
				// CHECK1-NEXT: [[TMP106:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP96]], i32 0, i32 3
				// CHECK1-NEXT: [[TMP107:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP96]], i32 0, i32 3
				// CHECK1-NEXT: [[TMP108:%.]] = load i32, i32** [[TMP107]], align 8
				// CHECK1-NEXT: [[TMP109:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP96]], i32 0, i32 4
				// CHECK1-NEXT: [[TMP110:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP96]], i32 0, i32 4
				// CHECK1-NEXT: [[TMP111:%.]] = load i32, i32** [[TMP110]], align 8
				// CHECK1-NEXT: [[TMP112:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS7]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP113:%.]] = bitcast i8* [[TMP112]] to i32**
				// CHECK1-NEXT: store i32* [[ARGC_ADDR]], i32** [[TMP113]], align 8
				// CHECK1-NEXT: [[TMP114:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS8]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP115:%.]] = bitcast i8* [[TMP114]] to i32**
				// CHECK1-NEXT: store i32* [[ARGC_ADDR]], i32** [[TMP115]], align 8
				// CHECK1-NEXT: [[TMP116:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS9]], i64 0, i64 0
				// CHECK1-NEXT: store i8* null, i8** [[TMP116]], align 8
				// CHECK1-NEXT: [[TMP117:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS7]], i32 0, i32 1
				// CHECK1-NEXT: [[TMP118:%.]] = bitcast i8* [[TMP117]] to i32**
				// CHECK1-NEXT: store i32* [[TMP93]], i32** [[TMP118]], align 8
				// CHECK1-NEXT: [[TMP119:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS8]], i32 0, i32 1
				// CHECK1-NEXT: [[TMP120:%.]] = bitcast i8* [[TMP119]] to i32**
				// CHECK1-NEXT: store i32* [[TMP93]], i32** [[TMP120]], align 8
				// CHECK1-NEXT: [[TMP121:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS9]], i64 0, i64 1
				// CHECK1-NEXT: store i8* null, i8** [[TMP121]], align 8
				// CHECK1-NEXT: [[TMP122:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS7]], i32 0, i32 2
				// CHECK1-NEXT: [[TMP123:%.]] = bitcast i8* [[TMP122]] to i32**
				// CHECK1-NEXT: store i32* [[TMP94]], i32** [[TMP123]], align 8
				// CHECK1-NEXT: [[TMP124:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS8]], i32 0, i32 2
				// CHECK1-NEXT: [[TMP125:%.]] = bitcast i8* [[TMP124]] to i32**
				// CHECK1-NEXT: store i32* [[TMP94]], i32** [[TMP125]], align 8
				// CHECK1-NEXT: [[TMP126:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS9]], i64 0, i64 2
				// CHECK1-NEXT: store i8* null, i8** [[TMP126]], align 8
				// CHECK1-NEXT: [[TMP127:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS7]], i32 0, i32 3
				// CHECK1-NEXT: [[TMP128:%.]] = bitcast i8* [[TMP127]] to i32**
				// CHECK1-NEXT: store i32* [[TMP95]], i32** [[TMP128]], align 8
				// CHECK1-NEXT: [[TMP129:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS8]], i32 0, i32 3
				// CHECK1-NEXT: [[TMP130:%.]] = bitcast i8* [[TMP129]] to i32**
				// CHECK1-NEXT: store i32* [[TMP95]], i32** [[TMP130]], align 8
				// CHECK1-NEXT: [[TMP131:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS9]], i64 0, i64 3
				// CHECK1-NEXT: store i8* null, i8** [[TMP131]], align 8
				// CHECK1-NEXT: [[TMP132:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS7]], i32 0, i32 4
				// CHECK1-NEXT: [[TMP133:%.]] = bitcast i8* [[TMP132]] to i32**
				// CHECK1-NEXT: store i32* [[A]], i32** [[TMP133]], align 8
				// CHECK1-NEXT: [[TMP134:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS8]], i32 0, i32 4
				// CHECK1-NEXT: [[TMP135:%.]] = bitcast i8* [[TMP134]] to i32**
				// CHECK1-NEXT: store i32* [[A]], i32** [[TMP135]], align 8
				// CHECK1-NEXT: [[TMP136:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS9]], i64 0, i64 4
				// CHECK1-NEXT: store i8* null, i8** [[TMP136]], align 8
				// CHECK1-NEXT: [[TMP137:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS7]], i32 0, i32 5
				// CHECK1-NEXT: [[TMP138:%.]] = bitcast i8* [[TMP137]] to %class.anon**
				// CHECK1-NEXT: store %class.anon* [[TMP96]], %class.anon** [[TMP138]], align 8
				// CHECK1-NEXT: [[TMP139:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS8]], i32 0, i32 5
				// CHECK1-NEXT: [[TMP140:%.]] = bitcast i8* [[TMP139]] to %class.anon**
				// CHECK1-NEXT: store %class.anon* [[TMP96]], %class.anon** [[TMP140]], align 8
				// CHECK1-NEXT: [[TMP141:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS9]], i64 0, i64 5
				// CHECK1-NEXT: store i8* null, i8** [[TMP141]], align 8
				// CHECK1-NEXT: [[TMP142:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS7]], i32 0, i32 6
				// CHECK1-NEXT: [[TMP143:%.]] = bitcast i8* [[TMP142]] to i32***
				// CHECK1-NEXT: store i32 [[TMP97]], i32* [[TMP143]], align 8
				// CHECK1-NEXT: [[TMP144:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS8]], i32 0, i32 6
				// CHECK1-NEXT: [[TMP145:%.]] = bitcast i8* [[TMP144]] to i32**
				// CHECK1-NEXT: store i32* [[TMP99]], i32** [[TMP145]], align 8
				// CHECK1-NEXT: [[TMP146:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS9]], i64 0, i64 6
				// CHECK1-NEXT: store i8* null, i8** [[TMP146]], align 8
				// CHECK1-NEXT: [[TMP147:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS7]], i32 0, i32 7
				// CHECK1-NEXT: [[TMP148:%.]] = bitcast i8* [[TMP147]] to i32***
				// CHECK1-NEXT: store i32 [[TMP100]], i32* [[TMP148]], align 8
				// CHECK1-NEXT: [[TMP149:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS8]], i32 0, i32 7
				// CHECK1-NEXT: [[TMP150:%.]] = bitcast i8* [[TMP149]] to i32**
				// CHECK1-NEXT: store i32* [[TMP102]], i32** [[TMP150]], align 8
				// CHECK1-NEXT: [[TMP151:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS9]], i64 0, i64 7
				// CHECK1-NEXT: store i8* null, i8** [[TMP151]], align 8
				// CHECK1-NEXT: [[TMP152:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS7]], i32 0, i32 8
				// CHECK1-NEXT: [[TMP153:%.]] = bitcast i8* [[TMP152]] to i32***
				// CHECK1-NEXT: store i32 [[TMP103]], i32* [[TMP153]], align 8
				// CHECK1-NEXT: [[TMP154:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS8]], i32 0, i32 8
				// CHECK1-NEXT: [[TMP155:%.]] = bitcast i8* [[TMP154]] to i32**
				// CHECK1-NEXT: store i32* [[TMP105]], i32** [[TMP155]], align 8
				// CHECK1-NEXT: [[TMP156:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS9]], i64 0, i64 8
				// CHECK1-NEXT: store i8* null, i8** [[TMP156]], align 8
				// CHECK1-NEXT: [[TMP157:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS7]], i32 0, i32 9
				// CHECK1-NEXT: [[TMP158:%.]] = bitcast i8* [[TMP157]] to i32****
				// CHECK1-NEXT: store i32* [[TMP106]], i32** [[TMP158]], align 8
				// CHECK1-NEXT: [[TMP159:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS8]], i32 0, i32 9
				// CHECK1-NEXT: [[TMP160:%.]] = bitcast i8* [[TMP159]] to i32***
				// CHECK1-NEXT: store i32 [[TMP108]], i32* [[TMP160]], align 8
				// CHECK1-NEXT: [[TMP161:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS9]], i64 0, i64 9
				// CHECK1-NEXT: store i8* null, i8** [[TMP161]], align 8
				// CHECK1-NEXT: [[TMP162:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS7]], i32 0, i32 10
				// CHECK1-NEXT: [[TMP163:%.]] = bitcast i8* [[TMP162]] to i32***
				// CHECK1-NEXT: store i32 [[TMP109]], i32* [[TMP163]], align 8
				// CHECK1-NEXT: [[TMP164:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS8]], i32 0, i32 10
				// CHECK1-NEXT: [[TMP165:%.]] = bitcast i8* [[TMP164]] to i32**
				// CHECK1-NEXT: store i32* [[TMP111]], i32** [[TMP165]], align 8
				// CHECK1-NEXT: [[TMP166:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_MAPPERS9]], i64 0, i64 10
				// CHECK1-NEXT: store i8* null, i8** [[TMP166]], align 8
				// CHECK1-NEXT: [[TMP167:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_BASEPTRS7]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP168:%.]] = getelementptr inbounds [11 x i8], [11 x i8] [[DOTOFFLOAD_PTRS8]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP169:%.]] = call i32 @__tgt_target_teams_mapper(%struct.ident_t @[[GLOB1]], i64 -1, i8* @.{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l43.region_id, i32 11, i8 [[TMP167]], i8 [[TMP168]], i64* getelementptr inbounds ([11 x i64], [11 x i64]* @.offload_sizes.1, i32 0, i32 0), i64* getelementptr inbounds ([11 x i64], [11 x i64]* @.offload_maptypes.2, i32 0, i32 0), i8 null, i8 null, i32 1, i32 0)
				// CHECK1-NEXT: [[TMP170:%.*]] = icmp ne i32 [[TMP169]], 0
				// CHECK1-NEXT: br i1 [[TMP170]], label [[OMP_OFFLOAD_FAILED10:%.]], label [[OMP_OFFLOAD_CONT11:%.]]
				// CHECK1: omp_offload.failed10:
				// CHECK1-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l43(i32* [[ARGC_ADDR]], i32* [[TMP93]], i32* [[TMP94]], i32* [[TMP95]], i32* [[A]], %class.anon* [[TMP96]]) #[[ATTR4]]
				// CHECK1-NEXT: br label [[OMP_OFFLOAD_CONT11]]
				// CHECK1: omp_offload.cont11:
				// CHECK1-NEXT: [[TMP171:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
				// CHECK1-NEXT: [[CALL:%.]] = call signext i32 @_ZN1S3fooEv(%struct.S nonnull dereferenceable(4) @s)
				// CHECK1-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP171]], [[CALL]]
				// CHECK1-NEXT: ret i32 [[ADD]]
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l41
				// CHECK1-SAME: (i64 [[ARGC:%.]], i32 nonnull align 4 dereferenceable(4) [[B:%.]], i32 nonnull align 4 dereferenceable(4) [[C:%.]], i32 [[D:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], %class.anon nonnull align 8 dereferenceable(40) [[L:%.*]]) #[[ATTR1:[0-9]+]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[ARGC_ADDR:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[B_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[C_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[D_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[L_ADDR:%.]] = alloca %class.anon, align 8
				// CHECK1-NEXT: [[TMP:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[_TMP1:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[_TMP2:%.]] = alloca %class.anon, align 8
				// CHECK1-NEXT: [[L3:%.]] = alloca [[CLASS_ANON:%.]], align 8
				// CHECK1-NEXT: [[_TMP4:%.]] = alloca %class.anon, align 8
				// CHECK1-NEXT: [[B5:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[_TMP6:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[C7:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[_TMP8:%.]] = alloca i32, align 8
				// CHECK1-NEXT: store i64 [[ARGC]], i64* [[ARGC_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[B]], i32** [[B_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[D]], i32** [[D_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: store %class.anon* [[L]], %class.anon** [[L_ADDR]], align 8
				// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[ARGC_ADDR]] to i32*
				// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[B_ADDR]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32** [[C_ADDR]], align 8
				// CHECK1-NEXT: [[TMP2:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: [[TMP3:%.]] = load %class.anon, %class.anon** [[L_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[TMP0]], i32** [[TMP]], align 8
				// CHECK1-NEXT: store i32* [[TMP1]], i32** [[_TMP1]], align 8
				// CHECK1-NEXT: store %class.anon* [[TMP3]], %class.anon** [[_TMP2]], align 8
				// CHECK1-NEXT: [[TMP4:%.]] = load %class.anon, %class.anon** [[_TMP2]], align 8
				// CHECK1-NEXT: [[TMP5:%.]] = bitcast %class.anon [[L3]] to i8*
				// CHECK1-NEXT: [[TMP6:%.]] = bitcast %class.anon [[TMP4]] to i8*
				// CHECK1-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP5]], i8* align 8 [[TMP6]], i64 40, i1 false)
				// CHECK1-NEXT: store %class.anon* [[L3]], %class.anon** [[_TMP4]], align 8
				// CHECK1-NEXT: [[TMP7:%.]] = load i32, i32** [[TMP]], align 8
				// CHECK1-NEXT: [[TMP8:%.]] = load i32, i32 [[TMP7]], align 4
				// CHECK1-NEXT: store i32 [[TMP8]], i32* [[B5]], align 4
				// CHECK1-NEXT: store i32* [[B5]], i32** [[_TMP6]], align 8
				// CHECK1-NEXT: [[TMP9:%.]] = load i32, i32** [[_TMP1]], align 8
				// CHECK1-NEXT: [[TMP10:%.]] = load i32, i32 [[TMP9]], align 4
				// CHECK1-NEXT: store i32 [[TMP10]], i32* [[C7]], align 4
				// CHECK1-NEXT: store i32* [[C7]], i32** [[_TMP8]], align 8
				// CHECK1-NEXT: [[TMP11:%.]] = load %class.anon, %class.anon** [[_TMP4]], align 8
				// CHECK1-NEXT: [[CALL:%.]] = call i64 @"_ZZ4mainENK3$_0clEv"(%class.anon nonnull dereferenceable(40) [[TMP11]])
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l43
				// CHECK1-SAME: (i32* nonnull align 4 dereferenceable(4) [[ARGC:%.]], i32 nonnull align 4 dereferenceable(4) [[B:%.]], i32 nonnull align 4 dereferenceable(4) [[C:%.]], i32 [[D:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], %class.anon nonnull align 8 dereferenceable(40) [[L:%.*]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[ARGC_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[B_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[C_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[D_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[L_ADDR:%.]] = alloca %class.anon, align 8
				// CHECK1-NEXT: [[TMP:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[_TMP1:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[_TMP2:%.]] = alloca %class.anon, align 8
				// CHECK1-NEXT: store i32* [[ARGC]], i32** [[ARGC_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[B]], i32** [[B_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[D]], i32** [[D_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: store %class.anon* [[L]], %class.anon** [[L_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[ARGC_ADDR]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32** [[B_ADDR]], align 8
				// CHECK1-NEXT: [[TMP2:%.]] = load i32, i32** [[C_ADDR]], align 8
				// CHECK1-NEXT: [[TMP3:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: [[TMP4:%.]] = load %class.anon, %class.anon** [[L_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[TMP1]], i32** [[TMP]], align 8
				// CHECK1-NEXT: store i32* [[TMP2]], i32** [[_TMP1]], align 8
				// CHECK1-NEXT: store %class.anon* [[TMP4]], %class.anon** [[_TMP2]], align 8
				// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP]], align 8
				// CHECK1-NEXT: [[TMP6:%.]] = load i32, i32** [[_TMP1]], align 8
				// CHECK1-NEXT: [[TMP7:%.]] = load i32, i32** [[D_ADDR]], align 8
				// CHECK1-NEXT: [[TMP8:%.]] = load %class.anon, %class.anon** [[_TMP2]], align 8
				// CHECK1-NEXT: call void (%struct.ident_t, i32, void (i32, i32, ...), ...) @__kmpc_fork_call(%struct.ident_t* @[[GLOB1]], i32 6, void (i32, i32, ...)* bitcast (void (i32, i32, i32, i32, i32, i32, i32, %class.anon)* @.omp_outlined. to void (i32, i32, ...)), i32 [[TMP0]], i32* [[TMP5]], i32* [[TMP6]], i32* [[TMP7]], i32* [[TMP3]], %class.anon* [[TMP8]])
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@.omp_outlined.
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[ARGC:%.]], i32 nonnull align 4 dereferenceable(4) [[B:%.]], i32 nonnull align 4 dereferenceable(4) [[C:%.]], i32 [[D:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], %class.anon nonnull align 8 dereferenceable(40) [[L:%.*]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[ARGC_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[B_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[C_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[D_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[L_ADDR:%.]] = alloca %class.anon, align 8
				// CHECK1-NEXT: [[TMP:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[_TMP1:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[_TMP2:%.]] = alloca %class.anon, align 8
				// CHECK1-NEXT: [[L3:%.]] = alloca [[CLASS_ANON:%.]], align 8
				// CHECK1-NEXT: [[_TMP4:%.]] = alloca %class.anon, align 8
				// CHECK1-NEXT: [[ARGC5:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[B6:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[_TMP7:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[C8:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[_TMP9:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[A10:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[ARGC]], i32** [[ARGC_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[B]], i32** [[B_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[D]], i32** [[D_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: store %class.anon* [[L]], %class.anon** [[L_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[ARGC_ADDR]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32** [[B_ADDR]], align 8
				// CHECK1-NEXT: [[TMP2:%.]] = load i32, i32** [[C_ADDR]], align 8
				// CHECK1-NEXT: [[TMP3:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: [[TMP4:%.]] = load %class.anon, %class.anon** [[L_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[TMP1]], i32** [[TMP]], align 8
				// CHECK1-NEXT: store i32* [[TMP2]], i32** [[_TMP1]], align 8
				// CHECK1-NEXT: store %class.anon* [[TMP4]], %class.anon** [[_TMP2]], align 8
				// CHECK1-NEXT: [[TMP5:%.]] = load %class.anon, %class.anon** [[_TMP2]], align 8
				// CHECK1-NEXT: [[TMP6:%.]] = bitcast %class.anon [[L3]] to i8*
				// CHECK1-NEXT: [[TMP7:%.]] = bitcast %class.anon [[TMP5]] to i8*
				// CHECK1-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP6]], i8* align 8 [[TMP7]], i64 40, i1 false)
				// CHECK1-NEXT: store %class.anon* [[L3]], %class.anon** [[_TMP4]], align 8
				// CHECK1-NEXT: [[TMP8:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK1-NEXT: store i32 [[TMP8]], i32* [[ARGC5]], align 4
				// CHECK1-NEXT: [[TMP9:%.]] = load i32, i32** [[TMP]], align 8
				// CHECK1-NEXT: [[TMP10:%.]] = load i32, i32 [[TMP9]], align 4
				// CHECK1-NEXT: store i32 [[TMP10]], i32* [[B6]], align 4
				// CHECK1-NEXT: store i32* [[B6]], i32** [[_TMP7]], align 8
				// CHECK1-NEXT: [[TMP11:%.]] = load i32, i32** [[_TMP1]], align 8
				// CHECK1-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP11]], align 4
				// CHECK1-NEXT: store i32 [[TMP12]], i32* [[C8]], align 4
				// CHECK1-NEXT: store i32* [[C8]], i32** [[_TMP9]], align 8
				// CHECK1-NEXT: [[TMP13:%.]] = load i32, i32 [[TMP3]], align 4
				// CHECK1-NEXT: store i32 [[TMP13]], i32* [[A10]], align 4
				// CHECK1-NEXT: [[TMP14:%.]] = load %class.anon, %class.anon** [[_TMP4]], align 8
				// CHECK1-NEXT: [[CALL:%.]] = call i64 @"_ZZ4mainENK3$_0clEv"(%class.anon nonnull dereferenceable(40) [[TMP14]])
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@_ZN1S3fooEv
				// CHECK1-SAME: (%struct.S* nonnull dereferenceable(4) [[THIS:%.*]]) #[[ATTR3:[0-9]+]] comdat align 2 {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[THIS_ADDR:%.]] = alloca %struct.S, align 8
				// CHECK1-NEXT: [[L:%.]] = alloca %class.anon.0, align 8
				// CHECK1-NEXT: [[REF_TMP:%.]] = alloca [[CLASS_ANON_0:%.]], align 8
				// CHECK1-NEXT: [[TMP:%.]] = alloca %class.anon.0, align 8
				// CHECK1-NEXT: [[DOTOFFLOAD_BASEPTRS:%.]] = alloca [3 x i8], align 8
				// CHECK1-NEXT: [[DOTOFFLOAD_PTRS:%.]] = alloca [3 x i8], align 8
				// CHECK1-NEXT: [[DOTOFFLOAD_MAPPERS:%.]] = alloca [3 x i8], align 8
				// CHECK1-NEXT: [[_TMP2:%.]] = alloca %class.anon.0, align 8
				// CHECK1-NEXT: [[DOTOFFLOAD_BASEPTRS3:%.]] = alloca [3 x i8], align 8
				// CHECK1-NEXT: [[DOTOFFLOAD_PTRS4:%.]] = alloca [3 x i8], align 8
				// CHECK1-NEXT: [[DOTOFFLOAD_MAPPERS5:%.]] = alloca [3 x i8], align 8
				// CHECK1-NEXT: store %struct.S* [[THIS]], %struct.S** [[THIS_ADDR]], align 8
				// CHECK1-NEXT: [[THIS1:%.]] = load %struct.S, %struct.S** [[THIS_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = getelementptr inbounds [[CLASS_ANON_0]], %class.anon.0 [[REF_TMP]], i32 0, i32 0
				// CHECK1-NEXT: store %struct.S* [[THIS1]], %struct.S** [[TMP0]], align 8
				// CHECK1-NEXT: store %class.anon.0* [[REF_TMP]], %class.anon.0** [[L]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = load %class.anon.0, %class.anon.0** [[L]], align 8
				// CHECK1-NEXT: store %class.anon.0* [[TMP1]], %class.anon.0** [[TMP]], align 8
				// CHECK1-NEXT: [[TMP2:%.]] = load %class.anon.0, %class.anon.0** [[TMP]], align 8
				// CHECK1-NEXT: [[TMP3:%.]] = getelementptr inbounds [[CLASS_ANON_0]], %class.anon.0 [[TMP2]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP4:%.]] = getelementptr inbounds [[CLASS_ANON_0]], %class.anon.0 [[TMP2]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP5:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_BASEPTRS]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP6:%.]] = bitcast i8* [[TMP5]] to %struct.S**
				// CHECK1-NEXT: store %struct.S* [[THIS1]], %struct.S** [[TMP6]], align 8
				// CHECK1-NEXT: [[TMP7:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_PTRS]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP8:%.]] = bitcast i8* [[TMP7]] to %struct.S**
				// CHECK1-NEXT: store %struct.S* [[THIS1]], %struct.S** [[TMP8]], align 8
				// CHECK1-NEXT: [[TMP9:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_MAPPERS]], i64 0, i64 0
				// CHECK1-NEXT: store i8* null, i8** [[TMP9]], align 8
				// CHECK1-NEXT: [[TMP10:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_BASEPTRS]], i32 0, i32 1
				// CHECK1-NEXT: [[TMP11:%.]] = bitcast i8* [[TMP10]] to %class.anon.0**
				// CHECK1-NEXT: store %class.anon.0* [[TMP2]], %class.anon.0** [[TMP11]], align 8
				// CHECK1-NEXT: [[TMP12:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_PTRS]], i32 0, i32 1
				// CHECK1-NEXT: [[TMP13:%.]] = bitcast i8* [[TMP12]] to %class.anon.0**
				// CHECK1-NEXT: store %class.anon.0* [[TMP2]], %class.anon.0** [[TMP13]], align 8
				// CHECK1-NEXT: [[TMP14:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_MAPPERS]], i64 0, i64 1
				// CHECK1-NEXT: store i8* null, i8** [[TMP14]], align 8
				// CHECK1-NEXT: [[TMP15:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_BASEPTRS]], i32 0, i32 2
				// CHECK1-NEXT: [[TMP16:%.]] = bitcast i8* [[TMP15]] to %struct.S***
				// CHECK1-NEXT: store %struct.S [[TMP3]], %struct.S* [[TMP16]], align 8
				// CHECK1-NEXT: [[TMP17:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_PTRS]], i32 0, i32 2
				// CHECK1-NEXT: [[TMP18:%.]] = bitcast i8* [[TMP17]] to %struct.S***
				// CHECK1-NEXT: store %struct.S [[TMP4]], %struct.S* [[TMP18]], align 8
				// CHECK1-NEXT: [[TMP19:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_MAPPERS]], i64 0, i64 2
				// CHECK1-NEXT: store i8* null, i8** [[TMP19]], align 8
				// CHECK1-NEXT: [[TMP20:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_BASEPTRS]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP21:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_PTRS]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP22:%.]] = call i32 @__tgt_target_mapper(%struct.ident_t @[[GLOB1]], i64 -1, i8* @.{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__ZN1S3fooEv_l27.region_id, i32 3, i8 [[TMP20]], i8 [[TMP21]], i64* getelementptr inbounds ([3 x i64], [3 x i64]* @.offload_sizes.3, i32 0, i32 0), i64* getelementptr inbounds ([3 x i64], [3 x i64]* @.offload_maptypes.4, i32 0, i32 0), i8 null, i8 null)
				// CHECK1-NEXT: [[TMP23:%.*]] = icmp ne i32 [[TMP22]], 0
				// CHECK1-NEXT: br i1 [[TMP23]], label [[OMP_OFFLOAD_FAILED:%.]], label [[OMP_OFFLOAD_CONT:%.]]
				// CHECK1: omp_offload.failed:
				// CHECK1-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__ZN1S3fooEv_l27(%struct.S* [[THIS1]], %class.anon.0* [[TMP2]]) #[[ATTR4]]
				// CHECK1-NEXT: br label [[OMP_OFFLOAD_CONT]]
				// CHECK1: omp_offload.cont:
				// CHECK1-NEXT: [[TMP24:%.]] = load %class.anon.0, %class.anon.0** [[L]], align 8
				// CHECK1-NEXT: store %class.anon.0* [[TMP24]], %class.anon.0** [[_TMP2]], align 8
				// CHECK1-NEXT: [[TMP25:%.]] = load %class.anon.0, %class.anon.0** [[_TMP2]], align 8
				// CHECK1-NEXT: [[TMP26:%.]] = getelementptr inbounds [[CLASS_ANON_0]], %class.anon.0 [[TMP25]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP27:%.]] = getelementptr inbounds [[CLASS_ANON_0]], %class.anon.0 [[TMP25]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP28:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_BASEPTRS3]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP29:%.]] = bitcast i8* [[TMP28]] to %struct.S**
				// CHECK1-NEXT: store %struct.S* [[THIS1]], %struct.S** [[TMP29]], align 8
				// CHECK1-NEXT: [[TMP30:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_PTRS4]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP31:%.]] = bitcast i8* [[TMP30]] to %struct.S**
				// CHECK1-NEXT: store %struct.S* [[THIS1]], %struct.S** [[TMP31]], align 8
				// CHECK1-NEXT: [[TMP32:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_MAPPERS5]], i64 0, i64 0
				// CHECK1-NEXT: store i8* null, i8** [[TMP32]], align 8
				// CHECK1-NEXT: [[TMP33:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_BASEPTRS3]], i32 0, i32 1
				// CHECK1-NEXT: [[TMP34:%.]] = bitcast i8* [[TMP33]] to %class.anon.0**
				// CHECK1-NEXT: store %class.anon.0* [[TMP25]], %class.anon.0** [[TMP34]], align 8
				// CHECK1-NEXT: [[TMP35:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_PTRS4]], i32 0, i32 1
				// CHECK1-NEXT: [[TMP36:%.]] = bitcast i8* [[TMP35]] to %class.anon.0**
				// CHECK1-NEXT: store %class.anon.0* [[TMP25]], %class.anon.0** [[TMP36]], align 8
				// CHECK1-NEXT: [[TMP37:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_MAPPERS5]], i64 0, i64 1
				// CHECK1-NEXT: store i8* null, i8** [[TMP37]], align 8
				// CHECK1-NEXT: [[TMP38:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_BASEPTRS3]], i32 0, i32 2
				// CHECK1-NEXT: [[TMP39:%.]] = bitcast i8* [[TMP38]] to %struct.S***
				// CHECK1-NEXT: store %struct.S [[TMP26]], %struct.S* [[TMP39]], align 8
				// CHECK1-NEXT: [[TMP40:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_PTRS4]], i32 0, i32 2
				// CHECK1-NEXT: [[TMP41:%.]] = bitcast i8* [[TMP40]] to %struct.S***
				// CHECK1-NEXT: store %struct.S [[TMP27]], %struct.S* [[TMP41]], align 8
				// CHECK1-NEXT: [[TMP42:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_MAPPERS5]], i64 0, i64 2
				// CHECK1-NEXT: store i8* null, i8** [[TMP42]], align 8
				// CHECK1-NEXT: [[TMP43:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_BASEPTRS3]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP44:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[DOTOFFLOAD_PTRS4]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP45:%.]] = call i32 @__tgt_target_teams_mapper(%struct.ident_t @[[GLOB1]], i64 -1, i8* @.{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__ZN1S3fooEv_l29.region_id, i32 3, i8 [[TMP43]], i8 [[TMP44]], i64* getelementptr inbounds ([3 x i64], [3 x i64]* @.offload_sizes.6, i32 0, i32 0), i64* getelementptr inbounds ([3 x i64], [3 x i64]* @.offload_maptypes.7, i32 0, i32 0), i8 null, i8 null, i32 1, i32 0)
				// CHECK1-NEXT: [[TMP46:%.*]] = icmp ne i32 [[TMP45]], 0
				// CHECK1-NEXT: br i1 [[TMP46]], label [[OMP_OFFLOAD_FAILED6:%.]], label [[OMP_OFFLOAD_CONT7:%.]]
				// CHECK1: omp_offload.failed6:
				// CHECK1-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__ZN1S3fooEv_l29(%struct.S* [[THIS1]], %class.anon.0* [[TMP25]]) #[[ATTR4]]
				// CHECK1-NEXT: br label [[OMP_OFFLOAD_CONT7]]
				// CHECK1: omp_offload.cont7:
				// CHECK1-NEXT: [[A:%.]] = getelementptr inbounds [[STRUCT_S:%.]], %struct.S* [[THIS1]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP47:%.]] = load i32, i32 [[A]], align 4
				// CHECK1-NEXT: [[TMP48:%.]] = load %class.anon.0, %class.anon.0** [[L]], align 8
				// CHECK1-NEXT: [[CALL:%.]] = call signext i32 @_Z3fooIZN1S3fooEvEUlvE_EiRKT_(%class.anon.0 nonnull align 8 dereferenceable(8) [[TMP48]])
				// CHECK1-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP47]], [[CALL]]
				// CHECK1-NEXT: ret i32 [[ADD]]
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__ZN1S3fooEv_l27
				// CHECK1-SAME: (%struct.S* [[THIS:%.]], %class.anon.0 nonnull align 8 dereferenceable(8) [[L:%.*]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[THIS_ADDR:%.]] = alloca %struct.S, align 8
				// CHECK1-NEXT: [[L_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK1-NEXT: [[TMP:%.]] = alloca %class.anon.0, align 8
				// CHECK1-NEXT: [[L1:%.]] = alloca [[CLASS_ANON_0:%.]], align 8
				// CHECK1-NEXT: [[_TMP2:%.]] = alloca %class.anon.0, align 8
				// CHECK1-NEXT: store %struct.S* [[THIS]], %struct.S** [[THIS_ADDR]], align 8
				// CHECK1-NEXT: store %class.anon.0* [[L]], %class.anon.0** [[L_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load %struct.S, %struct.S** [[THIS_ADDR]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = load %class.anon.0, %class.anon.0** [[L_ADDR]], align 8
				// CHECK1-NEXT: store %class.anon.0* [[TMP1]], %class.anon.0** [[TMP]], align 8
				// CHECK1-NEXT: [[TMP2:%.]] = load %class.anon.0, %class.anon.0** [[TMP]], align 8
				// CHECK1-NEXT: [[TMP3:%.]] = bitcast %class.anon.0 [[L1]] to i8*
				// CHECK1-NEXT: [[TMP4:%.]] = bitcast %class.anon.0 [[TMP2]] to i8*
				// CHECK1-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP3]], i8* align 8 [[TMP4]], i64 8, i1 false)
				// CHECK1-NEXT: store %class.anon.0* [[L1]], %class.anon.0** [[_TMP2]], align 8
				// CHECK1-NEXT: [[TMP5:%.]] = load %class.anon.0, %class.anon.0** [[_TMP2]], align 8
				// CHECK1-NEXT: [[CALL:%.]] = call signext i32 @_ZZN1S3fooEvENKUlvE_clEv(%class.anon.0 nonnull dereferenceable(8) [[TMP5]])
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@_ZZN1S3fooEvENKUlvE_clEv
				// CHECK1-SAME: (%class.anon.0* nonnull dereferenceable(8) [[THIS:%.*]]) #[[ATTR3]] comdat align 2 {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[THIS_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK1-NEXT: store %class.anon.0* [[THIS]], %class.anon.0** [[THIS_ADDR]], align 8
				// CHECK1-NEXT: [[THIS1:%.]] = load %class.anon.0, %class.anon.0** [[THIS_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = getelementptr inbounds [[CLASS_ANON_0:%.]], %class.anon.0* [[THIS1]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP1:%.]] = load %struct.S, %struct.S** [[TMP0]], align 8
				// CHECK1-NEXT: [[A:%.]] = getelementptr inbounds [[STRUCT_S:%.]], %struct.S* [[TMP1]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP2:%.]] = load i32, i32 [[A]], align 4
				// CHECK1-NEXT: ret i32 [[TMP2]]
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__ZN1S3fooEv_l29
				// CHECK1-SAME: (%struct.S* [[THIS:%.]], %class.anon.0 nonnull align 8 dereferenceable(8) [[L:%.*]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[THIS_ADDR:%.]] = alloca %struct.S, align 8
				// CHECK1-NEXT: [[L_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK1-NEXT: [[TMP:%.]] = alloca %class.anon.0, align 8
				// CHECK1-NEXT: store %struct.S* [[THIS]], %struct.S** [[THIS_ADDR]], align 8
				// CHECK1-NEXT: store %class.anon.0* [[L]], %class.anon.0** [[L_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load %struct.S, %struct.S** [[THIS_ADDR]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = load %class.anon.0, %class.anon.0** [[L_ADDR]], align 8
				// CHECK1-NEXT: store %class.anon.0* [[TMP1]], %class.anon.0** [[TMP]], align 8
				// CHECK1-NEXT: [[TMP2:%.]] = load %class.anon.0, %class.anon.0** [[TMP]], align 8
				// CHECK1-NEXT: call void (%struct.ident_t, i32, void (i32, i32, ...), ...) @__kmpc_fork_call(%struct.ident_t* @[[GLOB1]], i32 2, void (i32, i32, ...)* bitcast (void (i32, i32, %struct.S, %class.anon.0)* @.omp_outlined..5 to void (i32, i32, ...)), %struct.S [[TMP0]], %class.anon.0* [[TMP2]])
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@.omp_outlined..5
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], %struct.S [[THIS:%.]], %class.anon.0 nonnull align 8 dereferenceable(8) [[L:%.*]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[THIS_ADDR:%.]] = alloca %struct.S, align 8
				// CHECK1-NEXT: [[L_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK1-NEXT: [[TMP:%.]] = alloca %class.anon.0, align 8
				// CHECK1-NEXT: [[L1:%.]] = alloca [[CLASS_ANON_0:%.]], align 8
				// CHECK1-NEXT: [[_TMP2:%.]] = alloca %class.anon.0, align 8
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: store %struct.S* [[THIS]], %struct.S** [[THIS_ADDR]], align 8
				// CHECK1-NEXT: store %class.anon.0* [[L]], %class.anon.0** [[L_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load %struct.S, %struct.S** [[THIS_ADDR]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = load %class.anon.0, %class.anon.0** [[L_ADDR]], align 8
				// CHECK1-NEXT: store %class.anon.0* [[TMP1]], %class.anon.0** [[TMP]], align 8
				// CHECK1-NEXT: [[TMP2:%.]] = load %class.anon.0, %class.anon.0** [[TMP]], align 8
				// CHECK1-NEXT: [[TMP3:%.]] = bitcast %class.anon.0 [[L1]] to i8*
				// CHECK1-NEXT: [[TMP4:%.]] = bitcast %class.anon.0 [[TMP2]] to i8*
				// CHECK1-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP3]], i8* align 8 [[TMP4]], i64 8, i1 false)
				// CHECK1-NEXT: store %class.anon.0* [[L1]], %class.anon.0** [[_TMP2]], align 8
				// CHECK1-NEXT: [[TMP5:%.]] = load %class.anon.0, %class.anon.0** [[_TMP2]], align 8
				// CHECK1-NEXT: [[CALL:%.]] = call signext i32 @_ZZN1S3fooEvENKUlvE_clEv(%class.anon.0 nonnull dereferenceable(8) [[TMP5]])
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@_Z3fooIZN1S3fooEvEUlvE_EiRKT_
				// CHECK1-SAME: (%class.anon.0* nonnull align 8 dereferenceable(8) [[T:%.*]]) #[[ATTR3]] comdat {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[T_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK1-NEXT: [[TMP:%.]] = alloca %class.anon.0, align 8
				// CHECK1-NEXT: [[DOTOFFLOAD_BASEPTRS:%.]] = alloca [2 x i8], align 8
				// CHECK1-NEXT: [[DOTOFFLOAD_PTRS:%.]] = alloca [2 x i8], align 8
				// CHECK1-NEXT: [[DOTOFFLOAD_MAPPERS:%.]] = alloca [2 x i8], align 8
				// CHECK1-NEXT: store %class.anon.0* [[T]], %class.anon.0** [[T_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load %class.anon.0, %class.anon.0** [[T_ADDR]], align 8
				// CHECK1-NEXT: store %class.anon.0* [[TMP0]], %class.anon.0** [[TMP]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = load %class.anon.0, %class.anon.0** [[TMP]], align 8
				// CHECK1-NEXT: [[TMP2:%.]] = getelementptr inbounds [[CLASS_ANON_0:%.]], %class.anon.0* [[TMP1]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP3:%.]] = getelementptr inbounds [[CLASS_ANON_0]], %class.anon.0 [[TMP1]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP4:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOFFLOAD_BASEPTRS]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP5:%.]] = bitcast i8* [[TMP4]] to %class.anon.0**
				// CHECK1-NEXT: store %class.anon.0* [[TMP1]], %class.anon.0** [[TMP5]], align 8
				// CHECK1-NEXT: [[TMP6:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOFFLOAD_PTRS]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP7:%.]] = bitcast i8* [[TMP6]] to %class.anon.0**
				// CHECK1-NEXT: store %class.anon.0* [[TMP1]], %class.anon.0** [[TMP7]], align 8
				// CHECK1-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOFFLOAD_MAPPERS]], i64 0, i64 0
				// CHECK1-NEXT: store i8* null, i8** [[TMP8]], align 8
				// CHECK1-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOFFLOAD_BASEPTRS]], i32 0, i32 1
				// CHECK1-NEXT: [[TMP10:%.]] = bitcast i8* [[TMP9]] to %struct.S***
				// CHECK1-NEXT: store %struct.S [[TMP2]], %struct.S* [[TMP10]], align 8
				// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOFFLOAD_PTRS]], i32 0, i32 1
				// CHECK1-NEXT: [[TMP12:%.]] = bitcast i8* [[TMP11]] to %struct.S***
				// CHECK1-NEXT: store %struct.S [[TMP3]], %struct.S* [[TMP12]], align 8
				// CHECK1-NEXT: [[TMP13:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOFFLOAD_MAPPERS]], i64 0, i64 1
				// CHECK1-NEXT: store i8* null, i8** [[TMP13]], align 8
				// CHECK1-NEXT: [[TMP14:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOFFLOAD_BASEPTRS]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP15:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOFFLOAD_PTRS]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP16:%.]] = call i32 @__tgt_target_teams_mapper(%struct.ident_t @[[GLOB1]], i64 -1, i8* @.{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z3fooIZN1S3fooEvEUlvE_EiRKT__l18.region_id, i32 2, i8 [[TMP14]], i8 [[TMP15]], i64* getelementptr inbounds ([2 x i64], [2 x i64]* @.offload_sizes.9, i32 0, i32 0), i64* getelementptr inbounds ([2 x i64], [2 x i64]* @.offload_maptypes.10, i32 0, i32 0), i8 null, i8 null, i32 1, i32 0)
				// CHECK1-NEXT: [[TMP17:%.*]] = icmp ne i32 [[TMP16]], 0
				// CHECK1-NEXT: br i1 [[TMP17]], label [[OMP_OFFLOAD_FAILED:%.]], label [[OMP_OFFLOAD_CONT:%.]]
				// CHECK1: omp_offload.failed:
				// CHECK1-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z3fooIZN1S3fooEvEUlvE_EiRKT__l18(%class.anon.0* [[TMP1]]) #[[ATTR4]]
				// CHECK1-NEXT: br label [[OMP_OFFLOAD_CONT]]
				// CHECK1: omp_offload.cont:
				// CHECK1-NEXT: ret i32 0
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z3fooIZN1S3fooEvEUlvE_EiRKT__l18
				// CHECK1-SAME: (%class.anon.0* nonnull align 8 dereferenceable(8) [[T:%.*]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[T_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK1-NEXT: [[TMP:%.]] = alloca %class.anon.0, align 8
				// CHECK1-NEXT: store %class.anon.0* [[T]], %class.anon.0** [[T_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load %class.anon.0, %class.anon.0** [[T_ADDR]], align 8
				// CHECK1-NEXT: store %class.anon.0* [[TMP0]], %class.anon.0** [[TMP]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = load %class.anon.0, %class.anon.0** [[TMP]], align 8
				// CHECK1-NEXT: call void (%struct.ident_t, i32, void (i32, i32, ...), ...) @__kmpc_fork_call(%struct.ident_t* @[[GLOB1]], i32 1, void (i32, i32, ...)* bitcast (void (i32, i32, %class.anon.0) @.omp_outlined..8 to void (i32, i32, ...)), %class.anon.0 [[TMP1]])
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@.omp_outlined..8
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], %class.anon.0 nonnull align 8 dereferenceable(8) [[T:%.*]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[T_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK1-NEXT: [[TMP:%.]] = alloca %class.anon.0, align 8
				// CHECK1-NEXT: [[T1:%.]] = alloca [[CLASS_ANON_0:%.]], align 8
				// CHECK1-NEXT: [[_TMP2:%.]] = alloca %class.anon.0, align 8
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: store %class.anon.0* [[T]], %class.anon.0** [[T_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load %class.anon.0, %class.anon.0** [[T_ADDR]], align 8
				// CHECK1-NEXT: store %class.anon.0* [[TMP0]], %class.anon.0** [[TMP]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = load %class.anon.0, %class.anon.0** [[TMP]], align 8
				// CHECK1-NEXT: [[TMP2:%.]] = bitcast %class.anon.0 [[T1]] to i8*
				// CHECK1-NEXT: [[TMP3:%.]] = bitcast %class.anon.0 [[TMP1]] to i8*
				// CHECK1-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP2]], i8* align 8 [[TMP3]], i64 8, i1 false)
				// CHECK1-NEXT: store %class.anon.0* [[T1]], %class.anon.0** [[_TMP2]], align 8
				// CHECK1-NEXT: [[TMP4:%.]] = load %class.anon.0, %class.anon.0** [[_TMP2]], align 8
				// CHECK1-NEXT: [[CALL:%.]] = call signext i32 @_ZZN1S3fooEvENKUlvE_clEv(%class.anon.0 nonnull dereferenceable(8) [[TMP4]])
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@.omp_offloading.requires_reg
				// CHECK1-SAME: () #[[ATTR5:[0-9]+]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: call void @__tgt_register_requires(i64 1)
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__ZN1S3fooEv_l27_worker
				// CHECK2-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[WORK_FN:%.]] = alloca i8, align 8
				// CHECK2-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK2-NEXT: store i8* null, i8** [[WORK_FN]], align 8
				// CHECK2-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK2: .await.work:
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK2-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK2-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK2-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK2-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK2: .select.workers:
				// CHECK2-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK2-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK2: .execute.parallel:
				// CHECK2-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK2-NEXT: [[TMP5:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK2-NEXT: call void [[TMP5]](i16 0, i32 [[TMP4]])
				// CHECK2-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK2: .terminate.parallel:
				// CHECK2-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK2-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK2: .barrier.parallel:
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__ZN1S3fooEv_l27
				// CHECK2-SAME: (%struct.S* [[THIS:%.]], %class.anon nonnull align 8 dereferenceable(8) [[L:%.*]]) #[[ATTR1:[0-9]+]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[THIS_ADDR:%.]] = alloca %struct.S, align 8
				// CHECK2-NEXT: [[L_ADDR:%.]] = alloca %class.anon, align 8
				// CHECK2-NEXT: [[TMP:%.]] = alloca %class.anon, align 8
				// CHECK2-NEXT: [[L7:%.]] = alloca [[CLASS_ANON:%.]], align 8
				// CHECK2-NEXT: [[_TMP8:%.]] = alloca %class.anon, align 8
				// CHECK2-NEXT: store %struct.S* [[THIS]], %struct.S** [[THIS_ADDR]], align 8
				// CHECK2-NEXT: store %class.anon* [[L]], %class.anon** [[L_ADDR]], align 8
				// CHECK2-NEXT: [[TMP0:%.]] = load %struct.S, %struct.S** [[THIS_ADDR]], align 8
				// CHECK2-NEXT: [[TMP1:%.]] = load %class.anon, %class.anon** [[L_ADDR]], align 8
				// CHECK2-NEXT: store %class.anon* [[TMP1]], %class.anon** [[TMP]], align 8
				// CHECK2-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK2-NEXT: [[TMP2:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK2-NEXT: br i1 [[TMP2]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK2: .worker:
				// CHECK2-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__ZN1S3fooEv_l27_worker() #[[ATTR6:[0-9]+]]
				// CHECK2-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK2: .mastercheck:
				// CHECK2-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[TMP3:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK2-NEXT: [[TMP4:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK2-NEXT: [[TMP5:%.*]] = xor i32 [[TMP3]], -1
				// CHECK2-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP4]], [[TMP5]]
				// CHECK2-NEXT: [[TMP6:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK2-NEXT: br i1 [[TMP6]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK2: .master:
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK2-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK2-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK2-NEXT: [[TMP7:%.]] = load %class.anon, %class.anon** [[TMP]], align 8
				// CHECK2-NEXT: [[TMP8:%.]] = bitcast %class.anon [[L7]] to i8*
				// CHECK2-NEXT: [[TMP9:%.]] = bitcast %class.anon [[TMP7]] to i8*
				// CHECK2-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP8]], i8* align 8 [[TMP9]], i64 8, i1 false)
				// CHECK2-NEXT: store %class.anon* [[L7]], %class.anon** [[_TMP8]], align 8
				// CHECK2-NEXT: [[TMP10:%.]] = load %class.anon, %class.anon** [[_TMP8]], align 8
				// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP10]], i32 0, i32 0
				// CHECK2-NEXT: store %struct.S* [[TMP0]], %struct.S** [[TMP11]], align 8
				// CHECK2-NEXT: [[TMP12:%.]] = load %class.anon, %class.anon** [[_TMP8]], align 8
				// CHECK2-NEXT: [[CALL:%.]] = call i32 @_ZZN1S3fooEvENKUlvE_clEv(%class.anon nonnull dereferenceable(8) [[TMP12]]) #[[ATTR7:[0-9]+]]
				// CHECK2-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK2: .termination.notifier:
				// CHECK2-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: br label [[DOTEXIT]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@_ZZN1S3fooEvENKUlvE_clEv
				// CHECK2-SAME: (%class.anon* nonnull dereferenceable(8) [[THIS:%.*]]) #[[ATTR4:[0-9]+]] comdat align 2 {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[THIS_ADDR:%.]] = alloca %class.anon, align 8
				// CHECK2-NEXT: store %class.anon* [[THIS]], %class.anon** [[THIS_ADDR]], align 8
				// CHECK2-NEXT: [[THIS1:%.]] = load %class.anon, %class.anon** [[THIS_ADDR]], align 8
				// CHECK2-NEXT: [[TMP0:%.]] = getelementptr inbounds [[CLASS_ANON:%.]], %class.anon* [[THIS1]], i32 0, i32 0
				// CHECK2-NEXT: [[TMP1:%.]] = load %struct.S, %struct.S** [[TMP0]], align 8
				// CHECK2-NEXT: [[A:%.]] = getelementptr inbounds [[STRUCT_S:%.]], %struct.S* [[TMP1]], i32 0, i32 0
				// CHECK2-NEXT: [[TMP2:%.]] = load i32, i32 [[A]], align 4
				// CHECK2-NEXT: ret i32 [[TMP2]]
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__ZN1S3fooEv_l29
				// CHECK2-SAME: (%struct.S* [[THIS:%.]], %class.anon nonnull align 8 dereferenceable(8) [[L:%.*]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[THIS_ADDR:%.]] = alloca %struct.S, align 8
				// CHECK2-NEXT: [[L_ADDR:%.]] = alloca %class.anon, align 8
				// CHECK2-NEXT: [[TMP:%.]] = alloca %class.anon, align 8
				// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [2 x i8], align 8
				// CHECK2-NEXT: store %struct.S* [[THIS]], %struct.S** [[THIS_ADDR]], align 8
				// CHECK2-NEXT: store %class.anon* [[L]], %class.anon** [[L_ADDR]], align 8
				// CHECK2-NEXT: [[TMP0:%.]] = load %struct.S, %struct.S** [[THIS_ADDR]], align 8
				// CHECK2-NEXT: [[TMP1:%.]] = load %class.anon, %class.anon** [[L_ADDR]], align 8
				// CHECK2-NEXT: store %class.anon* [[TMP1]], %class.anon** [[TMP]], align 8
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK2-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK2-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK2: .execute:
				// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2:[0-9]+]])
				// CHECK2-NEXT: [[TMP3:%.]] = load %class.anon, %class.anon** [[TMP]], align 8
				// CHECK2-NEXT: [[TMP4:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK2-NEXT: [[TMP5:%.]] = bitcast %struct.S [[TMP0]] to i8*
				// CHECK2-NEXT: store i8* [[TMP5]], i8** [[TMP4]], align 8
				// CHECK2-NEXT: [[TMP6:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1
				// CHECK2-NEXT: [[TMP7:%.]] = bitcast %class.anon [[TMP3]] to i8*
				// CHECK2-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 8
				// CHECK2-NEXT: [[TMP8:%.]] = bitcast [2 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK2-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, %struct.S, %class.anon)* @__omp_outlined__ to i8), i8 null, i8** [[TMP8]], i64 2)
				// CHECK2-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK2: .omp.deinit:
				// CHECK2-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK2-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], %struct.S [[THIS:%.]], %class.anon nonnull align 8 dereferenceable(8) [[L:%.*]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[THIS_ADDR:%.]] = alloca %struct.S, align 8
				// CHECK2-NEXT: [[L_ADDR:%.]] = alloca %class.anon, align 8
				// CHECK2-NEXT: [[TMP:%.]] = alloca %class.anon, align 8
				// CHECK2-NEXT: [[L1:%.]] = alloca [[CLASS_ANON:%.]], align 8
				// CHECK2-NEXT: [[_TMP2:%.]] = alloca %class.anon, align 8
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK2-NEXT: store %struct.S* [[THIS]], %struct.S** [[THIS_ADDR]], align 8
				// CHECK2-NEXT: store %class.anon* [[L]], %class.anon** [[L_ADDR]], align 8
				// CHECK2-NEXT: [[TMP0:%.]] = load %struct.S, %struct.S** [[THIS_ADDR]], align 8
				// CHECK2-NEXT: [[TMP1:%.]] = load %class.anon, %class.anon** [[L_ADDR]], align 8
				// CHECK2-NEXT: store %class.anon* [[TMP1]], %class.anon** [[TMP]], align 8
				// CHECK2-NEXT: [[TMP2:%.]] = load %class.anon, %class.anon** [[TMP]], align 8
				// CHECK2-NEXT: [[TMP3:%.]] = bitcast %class.anon [[L1]] to i8*
				// CHECK2-NEXT: [[TMP4:%.]] = bitcast %class.anon [[TMP2]] to i8*
				// CHECK2-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP3]], i8* align 8 [[TMP4]], i64 8, i1 false)
				// CHECK2-NEXT: store %class.anon* [[L1]], %class.anon** [[_TMP2]], align 8
				// CHECK2-NEXT: [[TMP5:%.]] = load %class.anon, %class.anon** [[_TMP2]], align 8
				// CHECK2-NEXT: [[TMP6:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP5]], i32 0, i32 0
				// CHECK2-NEXT: store %struct.S* [[TMP0]], %struct.S** [[TMP6]], align 8
				// CHECK2-NEXT: [[TMP7:%.]] = load %class.anon, %class.anon** [[_TMP2]], align 8
				// CHECK2-NEXT: [[CALL:%.]] = call i32 @_ZZN1S3fooEvENKUlvE_clEv(%class.anon nonnull dereferenceable(8) [[TMP7]]) #[[ATTR7]]
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l41_worker
				// CHECK2-SAME: () #[[ATTR0]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[WORK_FN:%.]] = alloca i8, align 8
				// CHECK2-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK2-NEXT: store i8* null, i8** [[WORK_FN]], align 8
				// CHECK2-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK2: .await.work:
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK2-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK2-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK2-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK2-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK2: .select.workers:
				// CHECK2-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK2-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK2: .execute.parallel:
				// CHECK2-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK2-NEXT: [[TMP5:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK2-NEXT: call void [[TMP5]](i16 0, i32 [[TMP4]])
				// CHECK2-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK2: .terminate.parallel:
				// CHECK2-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK2-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK2: .barrier.parallel:
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l41
				// CHECK2-SAME: (i64 [[ARGC:%.]], i32 nonnull align 4 dereferenceable(4) [[B:%.]], i32 nonnull align 4 dereferenceable(4) [[C:%.]], i32 [[D:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], %class.anon.0 nonnull align 8 dereferenceable(40) [[L:%.*]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[ARGC_ADDR:%.*]] = alloca i64, align 8
				// CHECK2-NEXT: [[B_ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[C_ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[D_ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[L_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK2-NEXT: [[TMP:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[_TMP1:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[_TMP2:%.]] = alloca %class.anon.0, align 8
				// CHECK2-NEXT: [[L9:%.]] = alloca [[CLASS_ANON_0:%.]], align 8
				// CHECK2-NEXT: [[_TMP10:%.]] = alloca %class.anon.0, align 8
				// CHECK2-NEXT: [[B11:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[_TMP12:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[C13:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[_TMP14:%.]] = alloca i32, align 8
				// CHECK2-NEXT: store i64 [[ARGC]], i64* [[ARGC_ADDR]], align 8
				// CHECK2-NEXT: store i32* [[B]], i32** [[B_ADDR]], align 8
				// CHECK2-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 8
				// CHECK2-NEXT: store i32* [[D]], i32** [[D_ADDR]], align 8
				// CHECK2-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK2-NEXT: store %class.anon.0* [[L]], %class.anon.0** [[L_ADDR]], align 8
				// CHECK2-NEXT: [[CONV:%.]] = bitcast i64 [[ARGC_ADDR]] to i32*
				// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[B_ADDR]], align 8
				// CHECK2-NEXT: [[TMP1:%.]] = load i32, i32** [[C_ADDR]], align 8
				// CHECK2-NEXT: [[TMP2:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK2-NEXT: [[TMP3:%.]] = load %class.anon.0, %class.anon.0** [[L_ADDR]], align 8
				// CHECK2-NEXT: store i32* [[TMP0]], i32** [[TMP]], align 8
				// CHECK2-NEXT: store i32* [[TMP1]], i32** [[_TMP1]], align 8
				// CHECK2-NEXT: store %class.anon.0* [[TMP3]], %class.anon.0** [[_TMP2]], align 8
				// CHECK2-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK2-NEXT: [[TMP4:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK2-NEXT: br i1 [[TMP4]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK2: .worker:
				// CHECK2-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l41_worker() #[[ATTR6]]
				// CHECK2-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK2: .mastercheck:
				// CHECK2-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[TMP5:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE5]], 1
				// CHECK2-NEXT: [[TMP6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], 1
				// CHECK2-NEXT: [[TMP7:%.*]] = xor i32 [[TMP5]], -1
				// CHECK2-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP6]], [[TMP7]]
				// CHECK2-NEXT: [[TMP8:%.*]] = icmp eq i32 [[NVPTX_TID3]], [[MASTER_TID]]
				// CHECK2-NEXT: br i1 [[TMP8]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK2: .master:
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS6:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE7:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[THREAD_LIMIT8:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS6]], [[NVPTX_WARP_SIZE7]]
				// CHECK2-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT8]], i16 1)
				// CHECK2-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK2-NEXT: [[TMP9:%.]] = load %class.anon.0, %class.anon.0** [[_TMP2]], align 8
				// CHECK2-NEXT: [[TMP10:%.]] = bitcast %class.anon.0 [[L9]] to i8*
				// CHECK2-NEXT: [[TMP11:%.]] = bitcast %class.anon.0 [[TMP9]] to i8*
				// CHECK2-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP10]], i8* align 8 [[TMP11]], i64 40, i1 false)
				// CHECK2-NEXT: store %class.anon.0* [[L9]], %class.anon.0** [[_TMP10]], align 8
				// CHECK2-NEXT: [[TMP12:%.]] = load i32, i32** [[TMP]], align 8
				// CHECK2-NEXT: [[TMP13:%.]] = load i32, i32 [[TMP12]], align 4
				// CHECK2-NEXT: store i32 [[TMP13]], i32* [[B11]], align 4
				// CHECK2-NEXT: store i32* [[B11]], i32** [[_TMP12]], align 8
				// CHECK2-NEXT: [[TMP14:%.]] = load i32, i32** [[_TMP1]], align 8
				// CHECK2-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP14]], align 4
				// CHECK2-NEXT: store i32 [[TMP15]], i32* [[C13]], align 4
				// CHECK2-NEXT: store i32* [[C13]], i32** [[_TMP14]], align 8
				// CHECK2-NEXT: [[TMP16:%.]] = load %class.anon.0, %class.anon.0** [[_TMP10]], align 8
				// CHECK2-NEXT: [[TMP17:%.]] = getelementptr inbounds [[CLASS_ANON_0]], %class.anon.0 [[TMP16]], i32 0, i32 0
				// CHECK2-NEXT: store i32* [[CONV]], i32** [[TMP17]], align 8
				// CHECK2-NEXT: [[TMP18:%.]] = getelementptr inbounds [[CLASS_ANON_0]], %class.anon.0 [[TMP16]], i32 0, i32 1
				// CHECK2-NEXT: [[TMP19:%.]] = load i32, i32** [[_TMP12]], align 8
				// CHECK2-NEXT: store i32* [[TMP19]], i32** [[TMP18]], align 8
				// CHECK2-NEXT: [[TMP20:%.]] = getelementptr inbounds [[CLASS_ANON_0]], %class.anon.0 [[TMP16]], i32 0, i32 2
				// CHECK2-NEXT: [[TMP21:%.]] = load i32, i32** [[_TMP14]], align 8
				// CHECK2-NEXT: store i32* [[TMP21]], i32** [[TMP20]], align 8
				// CHECK2-NEXT: [[TMP22:%.]] = getelementptr inbounds [[CLASS_ANON_0]], %class.anon.0 [[TMP16]], i32 0, i32 3
				// CHECK2-NEXT: store i32 [[D_ADDR]], i32* [[TMP22]], align 8
				// CHECK2-NEXT: [[TMP23:%.]] = getelementptr inbounds [[CLASS_ANON_0]], %class.anon.0 [[TMP16]], i32 0, i32 4
				// CHECK2-NEXT: store i32* [[TMP2]], i32** [[TMP23]], align 8
				// CHECK2-NEXT: [[TMP24:%.]] = load %class.anon.0, %class.anon.0** [[_TMP10]], align 8
				// CHECK2-NEXT: [[CALL:%.]] = call i64 @"_ZZ4mainENK3$_0clEv"(%class.anon.0 nonnull dereferenceable(40) [[TMP24]]) #[[ATTR7]]
				// CHECK2-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK2: .termination.notifier:
				// CHECK2-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: br label [[DOTEXIT]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l43
				// CHECK2-SAME: (i32* nonnull align 4 dereferenceable(4) [[ARGC:%.]], i32 nonnull align 4 dereferenceable(4) [[B:%.]], i32 nonnull align 4 dereferenceable(4) [[C:%.]], i32 [[D:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], %class.anon.0 nonnull align 8 dereferenceable(40) [[L:%.*]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[ARGC_ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[B_ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[C_ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[D_ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[L_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK2-NEXT: [[TMP:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[_TMP1:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[_TMP2:%.]] = alloca %class.anon.0, align 8
				// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [6 x i8], align 8
				// CHECK2-NEXT: store i32* [[ARGC]], i32** [[ARGC_ADDR]], align 8
				// CHECK2-NEXT: store i32* [[B]], i32** [[B_ADDR]], align 8
				// CHECK2-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 8
				// CHECK2-NEXT: store i32* [[D]], i32** [[D_ADDR]], align 8
				// CHECK2-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK2-NEXT: store %class.anon.0* [[L]], %class.anon.0** [[L_ADDR]], align 8
				// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[ARGC_ADDR]], align 8
				// CHECK2-NEXT: [[TMP1:%.]] = load i32, i32** [[B_ADDR]], align 8
				// CHECK2-NEXT: [[TMP2:%.]] = load i32, i32** [[C_ADDR]], align 8
				// CHECK2-NEXT: [[TMP3:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK2-NEXT: [[TMP4:%.]] = load %class.anon.0, %class.anon.0** [[L_ADDR]], align 8
				// CHECK2-NEXT: store i32* [[TMP1]], i32** [[TMP]], align 8
				// CHECK2-NEXT: store i32* [[TMP2]], i32** [[_TMP1]], align 8
				// CHECK2-NEXT: store %class.anon.0* [[TMP4]], %class.anon.0** [[_TMP2]], align 8
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK2-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK2-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK2: .execute:
				// CHECK2-NEXT: [[TMP5:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				// CHECK2-NEXT: [[TMP6:%.]] = load i32, i32** [[TMP]], align 8
				// CHECK2-NEXT: [[TMP7:%.]] = load i32, i32** [[_TMP1]], align 8
				// CHECK2-NEXT: [[TMP8:%.]] = load i32, i32** [[D_ADDR]], align 8
				// CHECK2-NEXT: [[TMP9:%.]] = load %class.anon.0, %class.anon.0** [[_TMP2]], align 8
				// CHECK2-NEXT: [[TMP10:%.]] = getelementptr inbounds [6 x i8], [6 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK2-NEXT: [[TMP11:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK2-NEXT: store i8* [[TMP11]], i8** [[TMP10]], align 8
				// CHECK2-NEXT: [[TMP12:%.]] = getelementptr inbounds [6 x i8], [6 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1
				// CHECK2-NEXT: [[TMP13:%.]] = bitcast i32 [[TMP6]] to i8*
				// CHECK2-NEXT: store i8* [[TMP13]], i8** [[TMP12]], align 8
				// CHECK2-NEXT: [[TMP14:%.]] = getelementptr inbounds [6 x i8], [6 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 2
				// CHECK2-NEXT: [[TMP15:%.]] = bitcast i32 [[TMP7]] to i8*
				// CHECK2-NEXT: store i8* [[TMP15]], i8** [[TMP14]], align 8
				// CHECK2-NEXT: [[TMP16:%.]] = getelementptr inbounds [6 x i8], [6 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 3
				// CHECK2-NEXT: [[TMP17:%.]] = bitcast i32 [[TMP8]] to i8*
				// CHECK2-NEXT: store i8* [[TMP17]], i8** [[TMP16]], align 8
				// CHECK2-NEXT: [[TMP18:%.]] = getelementptr inbounds [6 x i8], [6 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 4
				// CHECK2-NEXT: [[TMP19:%.]] = bitcast i32 [[TMP3]] to i8*
				// CHECK2-NEXT: store i8* [[TMP19]], i8** [[TMP18]], align 8
				// CHECK2-NEXT: [[TMP20:%.]] = getelementptr inbounds [6 x i8], [6 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 5
				// CHECK2-NEXT: [[TMP21:%.]] = bitcast %class.anon.0 [[TMP9]] to i8*
				// CHECK2-NEXT: store i8* [[TMP21]], i8** [[TMP20]], align 8
				// CHECK2-NEXT: [[TMP22:%.]] = bitcast [6 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK2-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP5]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i32, i32, i32, i32, %class.anon.0)* @__omp_outlined__1 to i8), i8 null, i8** [[TMP22]], i64 6)
				// CHECK2-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK2: .omp.deinit:
				// CHECK2-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK2-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[ARGC:%.]], i32 nonnull align 4 dereferenceable(4) [[B:%.]], i32 nonnull align 4 dereferenceable(4) [[C:%.]], i32 [[D:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], %class.anon.0 nonnull align 8 dereferenceable(40) [[L:%.*]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[ARGC_ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[B_ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[C_ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[D_ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[L_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK2-NEXT: [[TMP:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[_TMP1:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[_TMP2:%.]] = alloca %class.anon.0, align 8
				// CHECK2-NEXT: [[L3:%.]] = alloca [[CLASS_ANON_0:%.]], align 8
				// CHECK2-NEXT: [[_TMP4:%.]] = alloca %class.anon.0, align 8
				// CHECK2-NEXT: [[ARGC5:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[B6:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[_TMP7:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[C8:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[_TMP9:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[A10:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK2-NEXT: store i32* [[ARGC]], i32** [[ARGC_ADDR]], align 8
				// CHECK2-NEXT: store i32* [[B]], i32** [[B_ADDR]], align 8
				// CHECK2-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 8
				// CHECK2-NEXT: store i32* [[D]], i32** [[D_ADDR]], align 8
				// CHECK2-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK2-NEXT: store %class.anon.0* [[L]], %class.anon.0** [[L_ADDR]], align 8
				// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[ARGC_ADDR]], align 8
				// CHECK2-NEXT: [[TMP1:%.]] = load i32, i32** [[B_ADDR]], align 8
				// CHECK2-NEXT: [[TMP2:%.]] = load i32, i32** [[C_ADDR]], align 8
				// CHECK2-NEXT: [[TMP3:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK2-NEXT: [[TMP4:%.]] = load %class.anon.0, %class.anon.0** [[L_ADDR]], align 8
				// CHECK2-NEXT: store i32* [[TMP1]], i32** [[TMP]], align 8
				// CHECK2-NEXT: store i32* [[TMP2]], i32** [[_TMP1]], align 8
				// CHECK2-NEXT: store %class.anon.0* [[TMP4]], %class.anon.0** [[_TMP2]], align 8
				// CHECK2-NEXT: [[TMP5:%.]] = load %class.anon.0, %class.anon.0** [[_TMP2]], align 8
				// CHECK2-NEXT: [[TMP6:%.]] = bitcast %class.anon.0 [[L3]] to i8*
				// CHECK2-NEXT: [[TMP7:%.]] = bitcast %class.anon.0 [[TMP5]] to i8*
				// CHECK2-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP6]], i8* align 8 [[TMP7]], i64 40, i1 false)
				// CHECK2-NEXT: store %class.anon.0* [[L3]], %class.anon.0** [[_TMP4]], align 8
				// CHECK2-NEXT: [[TMP8:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK2-NEXT: store i32 [[TMP8]], i32* [[ARGC5]], align 4
				// CHECK2-NEXT: [[TMP9:%.]] = load i32, i32** [[TMP]], align 8
				// CHECK2-NEXT: [[TMP10:%.]] = load i32, i32 [[TMP9]], align 4
				// CHECK2-NEXT: store i32 [[TMP10]], i32* [[B6]], align 4
				// CHECK2-NEXT: store i32* [[B6]], i32** [[_TMP7]], align 8
				// CHECK2-NEXT: [[TMP11:%.]] = load i32, i32** [[_TMP1]], align 8
				// CHECK2-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP11]], align 4
				// CHECK2-NEXT: store i32 [[TMP12]], i32* [[C8]], align 4
				// CHECK2-NEXT: store i32* [[C8]], i32** [[_TMP9]], align 8
				// CHECK2-NEXT: [[TMP13:%.]] = load i32, i32 [[TMP3]], align 4
				// CHECK2-NEXT: store i32 [[TMP13]], i32* [[A10]], align 4
				// CHECK2-NEXT: [[TMP14:%.]] = load %class.anon.0, %class.anon.0** [[_TMP4]], align 8
				// CHECK2-NEXT: [[TMP15:%.]] = getelementptr inbounds [[CLASS_ANON_0]], %class.anon.0 [[TMP14]], i32 0, i32 0
				// CHECK2-NEXT: store i32* [[ARGC5]], i32** [[TMP15]], align 8
				// CHECK2-NEXT: [[TMP16:%.]] = getelementptr inbounds [[CLASS_ANON_0]], %class.anon.0 [[TMP14]], i32 0, i32 1
				// CHECK2-NEXT: [[TMP17:%.]] = load i32, i32** [[_TMP7]], align 8
				// CHECK2-NEXT: store i32* [[TMP17]], i32** [[TMP16]], align 8
				// CHECK2-NEXT: [[TMP18:%.]] = getelementptr inbounds [[CLASS_ANON_0]], %class.anon.0 [[TMP14]], i32 0, i32 2
				// CHECK2-NEXT: [[TMP19:%.]] = load i32, i32** [[_TMP9]], align 8
				// CHECK2-NEXT: store i32* [[TMP19]], i32** [[TMP18]], align 8
				// CHECK2-NEXT: [[TMP20:%.]] = getelementptr inbounds [[CLASS_ANON_0]], %class.anon.0 [[TMP14]], i32 0, i32 3
				// CHECK2-NEXT: store i32 [[D_ADDR]], i32* [[TMP20]], align 8
				// CHECK2-NEXT: [[TMP21:%.]] = getelementptr inbounds [[CLASS_ANON_0]], %class.anon.0 [[TMP14]], i32 0, i32 4
				// CHECK2-NEXT: store i32* [[A10]], i32** [[TMP21]], align 8
				// CHECK2-NEXT: [[TMP22:%.]] = load %class.anon.0, %class.anon.0** [[_TMP4]], align 8
				// CHECK2-NEXT: [[CALL:%.]] = call i64 @"_ZZ4mainENK3$_0clEv"(%class.anon.0 nonnull dereferenceable(40) [[TMP22]]) #[[ATTR7]]
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z3fooIZN1S3fooEvEUlvE_EiRKT__l18
				// CHECK2-SAME: (%class.anon* nonnull align 8 dereferenceable(8) [[T:%.*]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[T_ADDR:%.]] = alloca %class.anon, align 8
				// CHECK2-NEXT: [[TMP:%.]] = alloca %class.anon, align 8
				// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
				// CHECK2-NEXT: store %class.anon* [[T]], %class.anon** [[T_ADDR]], align 8
				// CHECK2-NEXT: [[TMP0:%.]] = load %class.anon, %class.anon** [[T_ADDR]], align 8
				// CHECK2-NEXT: store %class.anon* [[TMP0]], %class.anon** [[TMP]], align 8
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK2-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK2-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK2: .execute:
				// CHECK2-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				// CHECK2-NEXT: [[TMP2:%.]] = load %class.anon, %class.anon** [[TMP]], align 8
				// CHECK2-NEXT: [[TMP3:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK2-NEXT: [[TMP4:%.]] = bitcast %class.anon [[TMP2]] to i8*
				// CHECK2-NEXT: store i8* [[TMP4]], i8** [[TMP3]], align 8
				// CHECK2-NEXT: [[TMP5:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK2-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP1]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, %class.anon) @__omp_outlined__2 to i8), i8 null, i8** [[TMP5]], i64 1)
				// CHECK2-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK2: .omp.deinit:
				// CHECK2-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK2-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__2
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], %class.anon nonnull align 8 dereferenceable(8) [[T:%.*]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[T_ADDR:%.]] = alloca %class.anon, align 8
				// CHECK2-NEXT: [[TMP:%.]] = alloca %class.anon, align 8
				// CHECK2-NEXT: [[T1:%.]] = alloca [[CLASS_ANON:%.]], align 8
				// CHECK2-NEXT: [[_TMP2:%.]] = alloca %class.anon, align 8
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK2-NEXT: store %class.anon* [[T]], %class.anon** [[T_ADDR]], align 8
				// CHECK2-NEXT: [[TMP0:%.]] = load %class.anon, %class.anon** [[T_ADDR]], align 8
				// CHECK2-NEXT: store %class.anon* [[TMP0]], %class.anon** [[TMP]], align 8
				// CHECK2-NEXT: [[TMP1:%.]] = load %class.anon, %class.anon** [[TMP]], align 8
				// CHECK2-NEXT: [[TMP2:%.]] = bitcast %class.anon [[T1]] to i8*
				// CHECK2-NEXT: [[TMP3:%.]] = bitcast %class.anon [[TMP1]] to i8*
				// CHECK2-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP2]], i8* align 8 [[TMP3]], i64 8, i1 false)
				// CHECK2-NEXT: store %class.anon* [[T1]], %class.anon** [[_TMP2]], align 8
				// CHECK2-NEXT: [[TMP4:%.]] = load %class.anon, %class.anon** [[_TMP2]], align 8
				// CHECK2-NEXT: [[TMP5:%.]] = load %class.anon, %class.anon** [[_TMP2]], align 8
				// CHECK2-NEXT: [[CALL:%.]] = call i32 @_ZZN1S3fooEvENKUlvE_clEv(%class.anon nonnull dereferenceable(8) [[TMP5]]) #[[ATTR7]]
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l41_worker
				// CHECK3-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[WORK_FN:%.]] = alloca i8, align 8
				// CHECK3-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK3-NEXT: store i8* null, i8** [[WORK_FN]], align 8
				// CHECK3-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK3: .await.work:
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK3-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK3-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK3-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK3-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK3: .select.workers:
				// CHECK3-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK3-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK3: .execute.parallel:
				// CHECK3-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK3-NEXT: [[TMP5:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK3-NEXT: call void [[TMP5]](i16 0, i32 [[TMP4]])
				// CHECK3-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK3: .terminate.parallel:
				// CHECK3-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK3-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK3: .barrier.parallel:
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l41
				// CHECK3-SAME: (i64 [[ARGC:%.]], i32 nonnull align 4 dereferenceable(4) [[B:%.]], i32 nonnull align 4 dereferenceable(4) [[C:%.]], i32 [[D:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], %class.anon nonnull align 8 dereferenceable(40) [[L:%.*]]) #[[ATTR1:[0-9]+]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[ARGC_ADDR:%.*]] = alloca i64, align 8
				// CHECK3-NEXT: [[B_ADDR:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[C_ADDR:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[D_ADDR:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[L_ADDR:%.]] = alloca %class.anon, align 8
				// CHECK3-NEXT: [[TMP:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[_TMP1:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[_TMP2:%.]] = alloca %class.anon, align 8
				// CHECK3-NEXT: [[L9:%.]] = alloca [[CLASS_ANON:%.]], align 8
				// CHECK3-NEXT: [[_TMP10:%.]] = alloca %class.anon, align 8
				// CHECK3-NEXT: [[B11:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[_TMP12:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[C13:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[_TMP14:%.]] = alloca i32, align 8
				// CHECK3-NEXT: store i64 [[ARGC]], i64* [[ARGC_ADDR]], align 8
				// CHECK3-NEXT: store i32* [[B]], i32** [[B_ADDR]], align 8
				// CHECK3-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 8
				// CHECK3-NEXT: store i32* [[D]], i32** [[D_ADDR]], align 8
				// CHECK3-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK3-NEXT: store %class.anon* [[L]], %class.anon** [[L_ADDR]], align 8
				// CHECK3-NEXT: [[CONV:%.]] = bitcast i64 [[ARGC_ADDR]] to i32*
				// CHECK3-NEXT: [[TMP0:%.]] = load i32, i32** [[B_ADDR]], align 8
				// CHECK3-NEXT: [[TMP1:%.]] = load i32, i32** [[C_ADDR]], align 8
				// CHECK3-NEXT: [[TMP2:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK3-NEXT: [[TMP3:%.]] = load %class.anon, %class.anon** [[L_ADDR]], align 8
				// CHECK3-NEXT: store i32* [[TMP0]], i32** [[TMP]], align 8
				// CHECK3-NEXT: store i32* [[TMP1]], i32** [[_TMP1]], align 8
				// CHECK3-NEXT: store %class.anon* [[TMP3]], %class.anon** [[_TMP2]], align 8
				// CHECK3-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK3-NEXT: [[TMP4:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK3-NEXT: br i1 [[TMP4]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK3: .worker:
				// CHECK3-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l41_worker() #[[ATTR6:[0-9]+]]
				// CHECK3-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK3: .mastercheck:
				// CHECK3-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[TMP5:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE5]], 1
				// CHECK3-NEXT: [[TMP6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], 1
				// CHECK3-NEXT: [[TMP7:%.*]] = xor i32 [[TMP5]], -1
				// CHECK3-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP6]], [[TMP7]]
				// CHECK3-NEXT: [[TMP8:%.*]] = icmp eq i32 [[NVPTX_TID3]], [[MASTER_TID]]
				// CHECK3-NEXT: br i1 [[TMP8]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK3: .master:
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS6:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE7:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[THREAD_LIMIT8:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS6]], [[NVPTX_WARP_SIZE7]]
				// CHECK3-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT8]], i16 1)
				// CHECK3-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK3-NEXT: [[TMP9:%.]] = load %class.anon, %class.anon** [[_TMP2]], align 8
				// CHECK3-NEXT: [[TMP10:%.]] = bitcast %class.anon [[L9]] to i8*
				// CHECK3-NEXT: [[TMP11:%.]] = bitcast %class.anon [[TMP9]] to i8*
				// CHECK3-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP10]], i8* align 8 [[TMP11]], i64 40, i1 false)
				// CHECK3-NEXT: store %class.anon* [[L9]], %class.anon** [[_TMP10]], align 8
				// CHECK3-NEXT: [[TMP12:%.]] = load i32, i32** [[TMP]], align 8
				// CHECK3-NEXT: [[TMP13:%.]] = load i32, i32 [[TMP12]], align 4
				// CHECK3-NEXT: store i32 [[TMP13]], i32* [[B11]], align 4
				// CHECK3-NEXT: store i32* [[B11]], i32** [[_TMP12]], align 8
				// CHECK3-NEXT: [[TMP14:%.]] = load i32, i32** [[_TMP1]], align 8
				// CHECK3-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP14]], align 4
				// CHECK3-NEXT: store i32 [[TMP15]], i32* [[C13]], align 4
				// CHECK3-NEXT: store i32* [[C13]], i32** [[_TMP14]], align 8
				// CHECK3-NEXT: [[TMP16:%.]] = load %class.anon, %class.anon** [[_TMP10]], align 8
				// CHECK3-NEXT: [[TMP17:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP16]], i32 0, i32 0
				// CHECK3-NEXT: store i32* [[CONV]], i32** [[TMP17]], align 8
				// CHECK3-NEXT: [[TMP18:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP16]], i32 0, i32 1
				// CHECK3-NEXT: [[TMP19:%.]] = load i32, i32** [[_TMP12]], align 8
				// CHECK3-NEXT: store i32* [[TMP19]], i32** [[TMP18]], align 8
				// CHECK3-NEXT: [[TMP20:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP16]], i32 0, i32 2
				// CHECK3-NEXT: [[TMP21:%.]] = load i32, i32** [[_TMP14]], align 8
				// CHECK3-NEXT: store i32* [[TMP21]], i32** [[TMP20]], align 8
				// CHECK3-NEXT: [[TMP22:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP16]], i32 0, i32 3
				// CHECK3-NEXT: store i32 [[D_ADDR]], i32* [[TMP22]], align 8
				// CHECK3-NEXT: [[TMP23:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP16]], i32 0, i32 4
				// CHECK3-NEXT: store i32* [[TMP2]], i32** [[TMP23]], align 8
				// CHECK3-NEXT: [[TMP24:%.]] = load %class.anon, %class.anon** [[_TMP10]], align 8
				// CHECK3-NEXT: [[CALL:%.]] = call i64 @"_ZZ4mainENK3$_0clEv"(%class.anon nonnull dereferenceable(40) [[TMP24]]) #[[ATTR7:[0-9]+]]
				// CHECK3-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK3: .termination.notifier:
				// CHECK3-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: br label [[DOTEXIT]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l43
				// CHECK3-SAME: (i32* nonnull align 4 dereferenceable(4) [[ARGC:%.]], i32 nonnull align 4 dereferenceable(4) [[B:%.]], i32 nonnull align 4 dereferenceable(4) [[C:%.]], i32 [[D:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], %class.anon nonnull align 8 dereferenceable(40) [[L:%.*]]) #[[ATTR1]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[ARGC_ADDR:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[B_ADDR:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[C_ADDR:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[D_ADDR:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[L_ADDR:%.]] = alloca %class.anon, align 8
				// CHECK3-NEXT: [[TMP:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[_TMP1:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[_TMP2:%.]] = alloca %class.anon, align 8
				// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [6 x i8], align 8
				// CHECK3-NEXT: store i32* [[ARGC]], i32** [[ARGC_ADDR]], align 8
				// CHECK3-NEXT: store i32* [[B]], i32** [[B_ADDR]], align 8
				// CHECK3-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 8
				// CHECK3-NEXT: store i32* [[D]], i32** [[D_ADDR]], align 8
				// CHECK3-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK3-NEXT: store %class.anon* [[L]], %class.anon** [[L_ADDR]], align 8
				// CHECK3-NEXT: [[TMP0:%.]] = load i32, i32** [[ARGC_ADDR]], align 8
				// CHECK3-NEXT: [[TMP1:%.]] = load i32, i32** [[B_ADDR]], align 8
				// CHECK3-NEXT: [[TMP2:%.]] = load i32, i32** [[C_ADDR]], align 8
				// CHECK3-NEXT: [[TMP3:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK3-NEXT: [[TMP4:%.]] = load %class.anon, %class.anon** [[L_ADDR]], align 8
				// CHECK3-NEXT: store i32* [[TMP1]], i32** [[TMP]], align 8
				// CHECK3-NEXT: store i32* [[TMP2]], i32** [[_TMP1]], align 8
				// CHECK3-NEXT: store %class.anon* [[TMP4]], %class.anon** [[_TMP2]], align 8
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK3-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK3-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK3: .execute:
				// CHECK3-NEXT: [[TMP5:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2:[0-9]+]])
				// CHECK3-NEXT: [[TMP6:%.]] = load i32, i32** [[TMP]], align 8
				// CHECK3-NEXT: [[TMP7:%.]] = load i32, i32** [[_TMP1]], align 8
				// CHECK3-NEXT: [[TMP8:%.]] = load i32, i32** [[D_ADDR]], align 8
				// CHECK3-NEXT: [[TMP9:%.]] = load %class.anon, %class.anon** [[_TMP2]], align 8
				// CHECK3-NEXT: [[TMP10:%.]] = getelementptr inbounds [6 x i8], [6 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK3-NEXT: [[TMP11:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK3-NEXT: store i8* [[TMP11]], i8** [[TMP10]], align 8
				// CHECK3-NEXT: [[TMP12:%.]] = getelementptr inbounds [6 x i8], [6 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1
				// CHECK3-NEXT: [[TMP13:%.]] = bitcast i32 [[TMP6]] to i8*
				// CHECK3-NEXT: store i8* [[TMP13]], i8** [[TMP12]], align 8
				// CHECK3-NEXT: [[TMP14:%.]] = getelementptr inbounds [6 x i8], [6 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 2
				// CHECK3-NEXT: [[TMP15:%.]] = bitcast i32 [[TMP7]] to i8*
				// CHECK3-NEXT: store i8* [[TMP15]], i8** [[TMP14]], align 8
				// CHECK3-NEXT: [[TMP16:%.]] = getelementptr inbounds [6 x i8], [6 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 3
				// CHECK3-NEXT: [[TMP17:%.]] = bitcast i32 [[TMP8]] to i8*
				// CHECK3-NEXT: store i8* [[TMP17]], i8** [[TMP16]], align 8
				// CHECK3-NEXT: [[TMP18:%.]] = getelementptr inbounds [6 x i8], [6 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 4
				// CHECK3-NEXT: [[TMP19:%.]] = bitcast i32 [[TMP3]] to i8*
				// CHECK3-NEXT: store i8* [[TMP19]], i8** [[TMP18]], align 8
				// CHECK3-NEXT: [[TMP20:%.]] = getelementptr inbounds [6 x i8], [6 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 5
				// CHECK3-NEXT: [[TMP21:%.]] = bitcast %class.anon [[TMP9]] to i8*
				// CHECK3-NEXT: store i8* [[TMP21]], i8** [[TMP20]], align 8
				// CHECK3-NEXT: [[TMP22:%.]] = bitcast [6 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK3-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP5]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i32, i32, i32, i32, %class.anon)* @__omp_outlined__ to i8), i8 null, i8** [[TMP22]], i64 6)
				// CHECK3-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK3: .omp.deinit:
				// CHECK3-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK3-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[ARGC:%.]], i32 nonnull align 4 dereferenceable(4) [[B:%.]], i32 nonnull align 4 dereferenceable(4) [[C:%.]], i32 [[D:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], %class.anon nonnull align 8 dereferenceable(40) [[L:%.*]]) #[[ATTR1]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[ARGC_ADDR:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[B_ADDR:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[C_ADDR:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[D_ADDR:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[L_ADDR:%.]] = alloca %class.anon, align 8
				// CHECK3-NEXT: [[TMP:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[_TMP1:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[_TMP2:%.]] = alloca %class.anon, align 8
				// CHECK3-NEXT: [[L3:%.]] = alloca [[CLASS_ANON:%.]], align 8
				// CHECK3-NEXT: [[_TMP4:%.]] = alloca %class.anon, align 8
				// CHECK3-NEXT: [[ARGC5:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[B6:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[_TMP7:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[C8:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[_TMP9:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[A10:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK3-NEXT: store i32* [[ARGC]], i32** [[ARGC_ADDR]], align 8
				// CHECK3-NEXT: store i32* [[B]], i32** [[B_ADDR]], align 8
				// CHECK3-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 8
				// CHECK3-NEXT: store i32* [[D]], i32** [[D_ADDR]], align 8
				// CHECK3-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK3-NEXT: store %class.anon* [[L]], %class.anon** [[L_ADDR]], align 8
				// CHECK3-NEXT: [[TMP0:%.]] = load i32, i32** [[ARGC_ADDR]], align 8
				// CHECK3-NEXT: [[TMP1:%.]] = load i32, i32** [[B_ADDR]], align 8
				// CHECK3-NEXT: [[TMP2:%.]] = load i32, i32** [[C_ADDR]], align 8
				// CHECK3-NEXT: [[TMP3:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK3-NEXT: [[TMP4:%.]] = load %class.anon, %class.anon** [[L_ADDR]], align 8
				// CHECK3-NEXT: store i32* [[TMP1]], i32** [[TMP]], align 8
				// CHECK3-NEXT: store i32* [[TMP2]], i32** [[_TMP1]], align 8
				// CHECK3-NEXT: store %class.anon* [[TMP4]], %class.anon** [[_TMP2]], align 8
				// CHECK3-NEXT: [[TMP5:%.]] = load %class.anon, %class.anon** [[_TMP2]], align 8
				// CHECK3-NEXT: [[TMP6:%.]] = bitcast %class.anon [[L3]] to i8*
				// CHECK3-NEXT: [[TMP7:%.]] = bitcast %class.anon [[TMP5]] to i8*
				// CHECK3-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP6]], i8* align 8 [[TMP7]], i64 40, i1 false)
				// CHECK3-NEXT: store %class.anon* [[L3]], %class.anon** [[_TMP4]], align 8
				// CHECK3-NEXT: [[TMP8:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK3-NEXT: store i32 [[TMP8]], i32* [[ARGC5]], align 4
				// CHECK3-NEXT: [[TMP9:%.]] = load i32, i32** [[TMP]], align 8
				// CHECK3-NEXT: [[TMP10:%.]] = load i32, i32 [[TMP9]], align 4
				// CHECK3-NEXT: store i32 [[TMP10]], i32* [[B6]], align 4
				// CHECK3-NEXT: store i32* [[B6]], i32** [[_TMP7]], align 8
				// CHECK3-NEXT: [[TMP11:%.]] = load i32, i32** [[_TMP1]], align 8
				// CHECK3-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP11]], align 4
				// CHECK3-NEXT: store i32 [[TMP12]], i32* [[C8]], align 4
				// CHECK3-NEXT: store i32* [[C8]], i32** [[_TMP9]], align 8
				// CHECK3-NEXT: [[TMP13:%.]] = load i32, i32 [[TMP3]], align 4
				// CHECK3-NEXT: store i32 [[TMP13]], i32* [[A10]], align 4
				// CHECK3-NEXT: [[TMP14:%.]] = load %class.anon, %class.anon** [[_TMP4]], align 8
				// CHECK3-NEXT: [[TMP15:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP14]], i32 0, i32 0
				// CHECK3-NEXT: store i32* [[ARGC5]], i32** [[TMP15]], align 8
				// CHECK3-NEXT: [[TMP16:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP14]], i32 0, i32 1
				// CHECK3-NEXT: [[TMP17:%.]] = load i32, i32** [[_TMP7]], align 8
				// CHECK3-NEXT: store i32* [[TMP17]], i32** [[TMP16]], align 8
				// CHECK3-NEXT: [[TMP18:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP14]], i32 0, i32 2
				// CHECK3-NEXT: [[TMP19:%.]] = load i32, i32** [[_TMP9]], align 8
				// CHECK3-NEXT: store i32* [[TMP19]], i32** [[TMP18]], align 8
				// CHECK3-NEXT: [[TMP20:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP14]], i32 0, i32 3
				// CHECK3-NEXT: store i32 [[D_ADDR]], i32* [[TMP20]], align 8
				// CHECK3-NEXT: [[TMP21:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP14]], i32 0, i32 4
				// CHECK3-NEXT: store i32* [[A10]], i32** [[TMP21]], align 8
				// CHECK3-NEXT: [[TMP22:%.]] = load %class.anon, %class.anon** [[_TMP4]], align 8
				// CHECK3-NEXT: [[CALL:%.]] = call i64 @"_ZZ4mainENK3$_0clEv"(%class.anon nonnull dereferenceable(40) [[TMP22]]) #[[ATTR7]]
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__ZN1S3fooEv_l27_worker
				// CHECK3-SAME: () #[[ATTR0]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[WORK_FN:%.]] = alloca i8, align 8
				// CHECK3-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK3-NEXT: store i8* null, i8** [[WORK_FN]], align 8
				// CHECK3-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK3: .await.work:
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK3-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK3-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK3-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK3-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK3: .select.workers:
				// CHECK3-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK3-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK3: .execute.parallel:
				// CHECK3-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK3-NEXT: [[TMP5:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK3-NEXT: call void [[TMP5]](i16 0, i32 [[TMP4]])
				// CHECK3-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK3: .terminate.parallel:
				// CHECK3-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK3-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK3: .barrier.parallel:
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__ZN1S3fooEv_l27
				// CHECK3-SAME: (%struct.S* [[THIS:%.]], %class.anon.0 nonnull align 8 dereferenceable(8) [[L:%.*]]) #[[ATTR1]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[THIS_ADDR:%.]] = alloca %struct.S, align 8
				// CHECK3-NEXT: [[L_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK3-NEXT: [[TMP:%.]] = alloca %class.anon.0, align 8
				// CHECK3-NEXT: [[L7:%.]] = alloca [[CLASS_ANON_0:%.]], align 8
				// CHECK3-NEXT: [[_TMP8:%.]] = alloca %class.anon.0, align 8
				// CHECK3-NEXT: store %struct.S* [[THIS]], %struct.S** [[THIS_ADDR]], align 8
				// CHECK3-NEXT: store %class.anon.0* [[L]], %class.anon.0** [[L_ADDR]], align 8
				// CHECK3-NEXT: [[TMP0:%.]] = load %struct.S, %struct.S** [[THIS_ADDR]], align 8
				// CHECK3-NEXT: [[TMP1:%.]] = load %class.anon.0, %class.anon.0** [[L_ADDR]], align 8
				// CHECK3-NEXT: store %class.anon.0* [[TMP1]], %class.anon.0** [[TMP]], align 8
				// CHECK3-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK3-NEXT: [[TMP2:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK3-NEXT: br i1 [[TMP2]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK3: .worker:
				// CHECK3-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__ZN1S3fooEv_l27_worker() #[[ATTR6]]
				// CHECK3-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK3: .mastercheck:
				// CHECK3-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[TMP3:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK3-NEXT: [[TMP4:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK3-NEXT: [[TMP5:%.*]] = xor i32 [[TMP3]], -1
				// CHECK3-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP4]], [[TMP5]]
				// CHECK3-NEXT: [[TMP6:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK3-NEXT: br i1 [[TMP6]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK3: .master:
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK3-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK3-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK3-NEXT: [[TMP7:%.]] = load %class.anon.0, %class.anon.0** [[TMP]], align 8
				// CHECK3-NEXT: [[TMP8:%.]] = bitcast %class.anon.0 [[L7]] to i8*
				// CHECK3-NEXT: [[TMP9:%.]] = bitcast %class.anon.0 [[TMP7]] to i8*
				// CHECK3-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP8]], i8* align 8 [[TMP9]], i64 8, i1 false)
				// CHECK3-NEXT: store %class.anon.0* [[L7]], %class.anon.0** [[_TMP8]], align 8
				// CHECK3-NEXT: [[TMP10:%.]] = load %class.anon.0, %class.anon.0** [[_TMP8]], align 8
				// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [[CLASS_ANON_0]], %class.anon.0 [[TMP10]], i32 0, i32 0
				// CHECK3-NEXT: store %struct.S* [[TMP0]], %struct.S** [[TMP11]], align 8
				// CHECK3-NEXT: [[TMP12:%.]] = load %class.anon.0, %class.anon.0** [[_TMP8]], align 8
				// CHECK3-NEXT: [[CALL:%.]] = call i32 @_ZZN1S3fooEvENKUlvE_clEv(%class.anon.0 nonnull dereferenceable(8) [[TMP12]]) #[[ATTR7]]
				// CHECK3-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK3: .termination.notifier:
				// CHECK3-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: br label [[DOTEXIT]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@_ZZN1S3fooEvENKUlvE_clEv
				// CHECK3-SAME: (%class.anon.0* nonnull dereferenceable(8) [[THIS:%.*]]) #[[ATTR4:[0-9]+]] comdat align 2 {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[THIS_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK3-NEXT: store %class.anon.0* [[THIS]], %class.anon.0** [[THIS_ADDR]], align 8
				// CHECK3-NEXT: [[THIS1:%.]] = load %class.anon.0, %class.anon.0** [[THIS_ADDR]], align 8
				// CHECK3-NEXT: [[TMP0:%.]] = getelementptr inbounds [[CLASS_ANON_0:%.]], %class.anon.0* [[THIS1]], i32 0, i32 0
				// CHECK3-NEXT: [[TMP1:%.]] = load %struct.S, %struct.S** [[TMP0]], align 8
				// CHECK3-NEXT: [[A:%.]] = getelementptr inbounds [[STRUCT_S:%.]], %struct.S* [[TMP1]], i32 0, i32 0
				// CHECK3-NEXT: [[TMP2:%.]] = load i32, i32 [[A]], align 4
				// CHECK3-NEXT: ret i32 [[TMP2]]
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__ZN1S3fooEv_l29
				// CHECK3-SAME: (%struct.S* [[THIS:%.]], %class.anon.0 nonnull align 8 dereferenceable(8) [[L:%.*]]) #[[ATTR1]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[THIS_ADDR:%.]] = alloca %struct.S, align 8
				// CHECK3-NEXT: [[L_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK3-NEXT: [[TMP:%.]] = alloca %class.anon.0, align 8
				// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [2 x i8], align 8
				// CHECK3-NEXT: store %struct.S* [[THIS]], %struct.S** [[THIS_ADDR]], align 8
				// CHECK3-NEXT: store %class.anon.0* [[L]], %class.anon.0** [[L_ADDR]], align 8
				// CHECK3-NEXT: [[TMP0:%.]] = load %struct.S, %struct.S** [[THIS_ADDR]], align 8
				// CHECK3-NEXT: [[TMP1:%.]] = load %class.anon.0, %class.anon.0** [[L_ADDR]], align 8
				// CHECK3-NEXT: store %class.anon.0* [[TMP1]], %class.anon.0** [[TMP]], align 8
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK3-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK3-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK3: .execute:
				// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				// CHECK3-NEXT: [[TMP3:%.]] = load %class.anon.0, %class.anon.0** [[TMP]], align 8
				// CHECK3-NEXT: [[TMP4:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK3-NEXT: [[TMP5:%.]] = bitcast %struct.S [[TMP0]] to i8*
				// CHECK3-NEXT: store i8* [[TMP5]], i8** [[TMP4]], align 8
				// CHECK3-NEXT: [[TMP6:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1
				// CHECK3-NEXT: [[TMP7:%.]] = bitcast %class.anon.0 [[TMP3]] to i8*
				// CHECK3-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 8
				// CHECK3-NEXT: [[TMP8:%.]] = bitcast [2 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK3-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, %struct.S, %class.anon.0)* @__omp_outlined__1 to i8), i8 null, i8** [[TMP8]], i64 2)
				// CHECK3-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK3: .omp.deinit:
				// CHECK3-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK3-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], %struct.S [[THIS:%.]], %class.anon.0 nonnull align 8 dereferenceable(8) [[L:%.*]]) #[[ATTR1]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[THIS_ADDR:%.]] = alloca %struct.S, align 8
				// CHECK3-NEXT: [[L_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK3-NEXT: [[TMP:%.]] = alloca %class.anon.0, align 8
				// CHECK3-NEXT: [[L1:%.]] = alloca [[CLASS_ANON_0:%.]], align 8
				// CHECK3-NEXT: [[_TMP2:%.]] = alloca %class.anon.0, align 8
				// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK3-NEXT: store %struct.S* [[THIS]], %struct.S** [[THIS_ADDR]], align 8
				// CHECK3-NEXT: store %class.anon.0* [[L]], %class.anon.0** [[L_ADDR]], align 8
				// CHECK3-NEXT: [[TMP0:%.]] = load %struct.S, %struct.S** [[THIS_ADDR]], align 8
				// CHECK3-NEXT: [[TMP1:%.]] = load %class.anon.0, %class.anon.0** [[L_ADDR]], align 8
				// CHECK3-NEXT: store %class.anon.0* [[TMP1]], %class.anon.0** [[TMP]], align 8
				// CHECK3-NEXT: [[TMP2:%.]] = load %class.anon.0, %class.anon.0** [[TMP]], align 8
				// CHECK3-NEXT: [[TMP3:%.]] = bitcast %class.anon.0 [[L1]] to i8*
				// CHECK3-NEXT: [[TMP4:%.]] = bitcast %class.anon.0 [[TMP2]] to i8*
				// CHECK3-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP3]], i8* align 8 [[TMP4]], i64 8, i1 false)
				// CHECK3-NEXT: store %class.anon.0* [[L1]], %class.anon.0** [[_TMP2]], align 8
				// CHECK3-NEXT: [[TMP5:%.]] = load %class.anon.0, %class.anon.0** [[_TMP2]], align 8
				// CHECK3-NEXT: [[TMP6:%.]] = getelementptr inbounds [[CLASS_ANON_0]], %class.anon.0 [[TMP5]], i32 0, i32 0
				// CHECK3-NEXT: store %struct.S* [[TMP0]], %struct.S** [[TMP6]], align 8
				// CHECK3-NEXT: [[TMP7:%.]] = load %class.anon.0, %class.anon.0** [[_TMP2]], align 8
				// CHECK3-NEXT: [[CALL:%.]] = call i32 @_ZZN1S3fooEvENKUlvE_clEv(%class.anon.0 nonnull dereferenceable(8) [[TMP7]]) #[[ATTR7]]
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z3fooIZN1S3fooEvEUlvE_EiRKT__l18
				// CHECK3-SAME: (%class.anon.0* nonnull align 8 dereferenceable(8) [[T:%.*]]) #[[ATTR1]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[T_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK3-NEXT: [[TMP:%.]] = alloca %class.anon.0, align 8
				// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
				// CHECK3-NEXT: store %class.anon.0* [[T]], %class.anon.0** [[T_ADDR]], align 8
				// CHECK3-NEXT: [[TMP0:%.]] = load %class.anon.0, %class.anon.0** [[T_ADDR]], align 8
				// CHECK3-NEXT: store %class.anon.0* [[TMP0]], %class.anon.0** [[TMP]], align 8
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK3-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK3-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK3: .execute:
				// CHECK3-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				// CHECK3-NEXT: [[TMP2:%.]] = load %class.anon.0, %class.anon.0** [[TMP]], align 8
				// CHECK3-NEXT: [[TMP3:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK3-NEXT: [[TMP4:%.]] = bitcast %class.anon.0 [[TMP2]] to i8*
				// CHECK3-NEXT: store i8* [[TMP4]], i8** [[TMP3]], align 8
				// CHECK3-NEXT: [[TMP5:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK3-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP1]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, %class.anon.0) @__omp_outlined__2 to i8), i8 null, i8** [[TMP5]], i64 1)
				// CHECK3-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK3: .omp.deinit:
				// CHECK3-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK3-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__2
				// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], %class.anon.0 nonnull align 8 dereferenceable(8) [[T:%.*]]) #[[ATTR1]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK3-NEXT: [[T_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK3-NEXT: [[TMP:%.]] = alloca %class.anon.0, align 8
				// CHECK3-NEXT: [[T1:%.]] = alloca [[CLASS_ANON_0:%.]], align 8
				// CHECK3-NEXT: [[_TMP2:%.]] = alloca %class.anon.0, align 8
				// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK3-NEXT: store %class.anon.0* [[T]], %class.anon.0** [[T_ADDR]], align 8
				// CHECK3-NEXT: [[TMP0:%.]] = load %class.anon.0, %class.anon.0** [[T_ADDR]], align 8
				// CHECK3-NEXT: store %class.anon.0* [[TMP0]], %class.anon.0** [[TMP]], align 8
				// CHECK3-NEXT: [[TMP1:%.]] = load %class.anon.0, %class.anon.0** [[TMP]], align 8
				// CHECK3-NEXT: [[TMP2:%.]] = bitcast %class.anon.0 [[T1]] to i8*
				// CHECK3-NEXT: [[TMP3:%.]] = bitcast %class.anon.0 [[TMP1]] to i8*
				// CHECK3-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP2]], i8* align 8 [[TMP3]], i64 8, i1 false)
				// CHECK3-NEXT: store %class.anon.0* [[T1]], %class.anon.0** [[_TMP2]], align 8
				// CHECK3-NEXT: [[TMP4:%.]] = load %class.anon.0, %class.anon.0** [[_TMP2]], align 8
				// CHECK3-NEXT: [[TMP5:%.]] = load %class.anon.0, %class.anon.0** [[_TMP2]], align 8
				// CHECK3-NEXT: [[CALL:%.]] = call i32 @_ZZN1S3fooEvENKUlvE_clEv(%class.anon.0 nonnull dereferenceable(8) [[TMP5]]) #[[ATTR7]]
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l41_worker
				// CHECK4-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[WORK_FN:%.]] = alloca i8, align 8
				// CHECK4-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK4-NEXT: store i8* null, i8** [[WORK_FN]], align 8
				// CHECK4-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK4-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK4: .await.work:
				// CHECK4-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK4-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK4-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK4-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK4-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK4-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK4-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK4: .select.workers:
				// CHECK4-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK4-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK4-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK4: .execute.parallel:
				// CHECK4-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK4-NEXT: [[TMP5:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK4-NEXT: call void [[TMP5]](i16 0, i32 [[TMP4]])
				// CHECK4-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK4: .terminate.parallel:
				// CHECK4-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK4-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK4: .barrier.parallel:
				// CHECK4-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK4-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK4: .exit:
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l41
				// CHECK4-SAME: (i64 [[ARGC:%.]], i32 nonnull align 4 dereferenceable(4) [[B:%.]], i32 nonnull align 4 dereferenceable(4) [[C:%.]], i32 [[D:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], %class.anon nonnull align 8 dereferenceable(40) [[L:%.*]]) #[[ATTR1:[0-9]+]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[ARGC_ADDR:%.*]] = alloca i64, align 8
				// CHECK4-NEXT: [[B_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[C_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[D_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[L_ADDR:%.]] = alloca %class.anon, align 8
				// CHECK4-NEXT: [[TMP:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[_TMP1:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[_TMP2:%.]] = alloca %class.anon, align 8
				// CHECK4-NEXT: [[L9:%.]] = alloca [[CLASS_ANON:%.]], align 8
				// CHECK4-NEXT: [[_TMP10:%.]] = alloca %class.anon, align 8
				// CHECK4-NEXT: [[B11:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[_TMP12:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[C13:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[_TMP14:%.]] = alloca i32, align 8
				// CHECK4-NEXT: store i64 [[ARGC]], i64* [[ARGC_ADDR]], align 8
				// CHECK4-NEXT: store i32* [[B]], i32** [[B_ADDR]], align 8
				// CHECK4-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 8
				// CHECK4-NEXT: store i32* [[D]], i32** [[D_ADDR]], align 8
				// CHECK4-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK4-NEXT: store %class.anon* [[L]], %class.anon** [[L_ADDR]], align 8
				// CHECK4-NEXT: [[CONV:%.]] = bitcast i64 [[ARGC_ADDR]] to i32*
				// CHECK4-NEXT: [[TMP0:%.]] = load i32, i32** [[B_ADDR]], align 8
				// CHECK4-NEXT: [[TMP1:%.]] = load i32, i32** [[C_ADDR]], align 8
				// CHECK4-NEXT: [[TMP2:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK4-NEXT: [[TMP3:%.]] = load %class.anon, %class.anon** [[L_ADDR]], align 8
				// CHECK4-NEXT: store i32* [[TMP0]], i32** [[TMP]], align 8
				// CHECK4-NEXT: store i32* [[TMP1]], i32** [[_TMP1]], align 8
				// CHECK4-NEXT: store %class.anon* [[TMP3]], %class.anon** [[_TMP2]], align 8
				// CHECK4-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK4-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK4-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK4-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK4-NEXT: [[TMP4:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK4-NEXT: br i1 [[TMP4]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK4: .worker:
				// CHECK4-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l41_worker() #[[ATTR6:[0-9]+]]
				// CHECK4-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK4: .mastercheck:
				// CHECK4-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK4-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK4-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK4-NEXT: [[TMP5:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE5]], 1
				// CHECK4-NEXT: [[TMP6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], 1
				// CHECK4-NEXT: [[TMP7:%.*]] = xor i32 [[TMP5]], -1
				// CHECK4-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP6]], [[TMP7]]
				// CHECK4-NEXT: [[TMP8:%.*]] = icmp eq i32 [[NVPTX_TID3]], [[MASTER_TID]]
				// CHECK4-NEXT: br i1 [[TMP8]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK4: .master:
				// CHECK4-NEXT: [[NVPTX_NUM_THREADS6:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK4-NEXT: [[NVPTX_WARP_SIZE7:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK4-NEXT: [[THREAD_LIMIT8:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS6]], [[NVPTX_WARP_SIZE7]]
				// CHECK4-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT8]], i16 1)
				// CHECK4-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK4-NEXT: [[TMP9:%.]] = load %class.anon, %class.anon** [[_TMP2]], align 8
				// CHECK4-NEXT: [[TMP10:%.]] = bitcast %class.anon [[L9]] to i8*
				// CHECK4-NEXT: [[TMP11:%.]] = bitcast %class.anon [[TMP9]] to i8*
				// CHECK4-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP10]], i8* align 8 [[TMP11]], i64 40, i1 false)
				// CHECK4-NEXT: store %class.anon* [[L9]], %class.anon** [[_TMP10]], align 8
				// CHECK4-NEXT: [[TMP12:%.]] = load i32, i32** [[TMP]], align 8
				// CHECK4-NEXT: [[TMP13:%.]] = load i32, i32 [[TMP12]], align 4
				// CHECK4-NEXT: store i32 [[TMP13]], i32* [[B11]], align 4
				// CHECK4-NEXT: store i32* [[B11]], i32** [[_TMP12]], align 8
				// CHECK4-NEXT: [[TMP14:%.]] = load i32, i32** [[_TMP1]], align 8
				// CHECK4-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP14]], align 4
				// CHECK4-NEXT: store i32 [[TMP15]], i32* [[C13]], align 4
				// CHECK4-NEXT: store i32* [[C13]], i32** [[_TMP14]], align 8
				// CHECK4-NEXT: [[TMP16:%.]] = load %class.anon, %class.anon** [[_TMP10]], align 8
				// CHECK4-NEXT: [[TMP17:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP16]], i32 0, i32 0
				// CHECK4-NEXT: store i32* [[CONV]], i32** [[TMP17]], align 8
				// CHECK4-NEXT: [[TMP18:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP16]], i32 0, i32 1
				// CHECK4-NEXT: [[TMP19:%.]] = load i32, i32** [[_TMP12]], align 8
				// CHECK4-NEXT: store i32* [[TMP19]], i32** [[TMP18]], align 8
				// CHECK4-NEXT: [[TMP20:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP16]], i32 0, i32 2
				// CHECK4-NEXT: [[TMP21:%.]] = load i32, i32** [[_TMP14]], align 8
				// CHECK4-NEXT: store i32* [[TMP21]], i32** [[TMP20]], align 8
				// CHECK4-NEXT: [[TMP22:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP16]], i32 0, i32 3
				// CHECK4-NEXT: store i32 [[D_ADDR]], i32* [[TMP22]], align 8
				// CHECK4-NEXT: [[TMP23:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP16]], i32 0, i32 4
				// CHECK4-NEXT: store i32* [[TMP2]], i32** [[TMP23]], align 8
				// CHECK4-NEXT: [[TMP24:%.]] = load %class.anon, %class.anon** [[_TMP10]], align 8
				// CHECK4-NEXT: [[CALL:%.]] = call i64 @"_ZZ4mainENK3$_0clEv"(%class.anon nonnull dereferenceable(40) [[TMP24]]) #[[ATTR7:[0-9]+]]
				// CHECK4-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK4: .termination.notifier:
				// CHECK4-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK4-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK4-NEXT: br label [[DOTEXIT]]
				// CHECK4: .exit:
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l43
				// CHECK4-SAME: (i32* nonnull align 4 dereferenceable(4) [[ARGC:%.]], i32 nonnull align 4 dereferenceable(4) [[B:%.]], i32 nonnull align 4 dereferenceable(4) [[C:%.]], i32 [[D:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], %class.anon nonnull align 8 dereferenceable(40) [[L:%.*]]) #[[ATTR1]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[ARGC_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[B_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[C_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[D_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[L_ADDR:%.]] = alloca %class.anon, align 8
				// CHECK4-NEXT: [[TMP:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[_TMP1:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[_TMP2:%.]] = alloca %class.anon, align 8
				// CHECK4-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [6 x i8], align 8
				// CHECK4-NEXT: store i32* [[ARGC]], i32** [[ARGC_ADDR]], align 8
				// CHECK4-NEXT: store i32* [[B]], i32** [[B_ADDR]], align 8
				// CHECK4-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 8
				// CHECK4-NEXT: store i32* [[D]], i32** [[D_ADDR]], align 8
				// CHECK4-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK4-NEXT: store %class.anon* [[L]], %class.anon** [[L_ADDR]], align 8
				// CHECK4-NEXT: [[TMP0:%.]] = load i32, i32** [[ARGC_ADDR]], align 8
				// CHECK4-NEXT: [[TMP1:%.]] = load i32, i32** [[B_ADDR]], align 8
				// CHECK4-NEXT: [[TMP2:%.]] = load i32, i32** [[C_ADDR]], align 8
				// CHECK4-NEXT: [[TMP3:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK4-NEXT: [[TMP4:%.]] = load %class.anon, %class.anon** [[L_ADDR]], align 8
				// CHECK4-NEXT: store i32* [[TMP1]], i32** [[TMP]], align 8
				// CHECK4-NEXT: store i32* [[TMP2]], i32** [[_TMP1]], align 8
				// CHECK4-NEXT: store %class.anon* [[TMP4]], %class.anon** [[_TMP2]], align 8
				// CHECK4-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK4-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK4-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK4-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK4: .execute:
				// CHECK4-NEXT: [[TMP5:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2:[0-9]+]])
				// CHECK4-NEXT: [[TMP6:%.]] = load i32, i32** [[TMP]], align 8
				// CHECK4-NEXT: [[TMP7:%.]] = load i32, i32** [[_TMP1]], align 8
				// CHECK4-NEXT: [[TMP8:%.]] = load i32, i32** [[D_ADDR]], align 8
				// CHECK4-NEXT: [[TMP9:%.]] = load %class.anon, %class.anon** [[_TMP2]], align 8
				// CHECK4-NEXT: [[TMP10:%.]] = getelementptr inbounds [6 x i8], [6 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK4-NEXT: [[TMP11:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK4-NEXT: store i8* [[TMP11]], i8** [[TMP10]], align 8
				// CHECK4-NEXT: [[TMP12:%.]] = getelementptr inbounds [6 x i8], [6 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1
				// CHECK4-NEXT: [[TMP13:%.]] = bitcast i32 [[TMP6]] to i8*
				// CHECK4-NEXT: store i8* [[TMP13]], i8** [[TMP12]], align 8
				// CHECK4-NEXT: [[TMP14:%.]] = getelementptr inbounds [6 x i8], [6 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 2
				// CHECK4-NEXT: [[TMP15:%.]] = bitcast i32 [[TMP7]] to i8*
				// CHECK4-NEXT: store i8* [[TMP15]], i8** [[TMP14]], align 8
				// CHECK4-NEXT: [[TMP16:%.]] = getelementptr inbounds [6 x i8], [6 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 3
				// CHECK4-NEXT: [[TMP17:%.]] = bitcast i32 [[TMP8]] to i8*
				// CHECK4-NEXT: store i8* [[TMP17]], i8** [[TMP16]], align 8
				// CHECK4-NEXT: [[TMP18:%.]] = getelementptr inbounds [6 x i8], [6 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 4
				// CHECK4-NEXT: [[TMP19:%.]] = bitcast i32 [[TMP3]] to i8*
				// CHECK4-NEXT: store i8* [[TMP19]], i8** [[TMP18]], align 8
				// CHECK4-NEXT: [[TMP20:%.]] = getelementptr inbounds [6 x i8], [6 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 5
				// CHECK4-NEXT: [[TMP21:%.]] = bitcast %class.anon [[TMP9]] to i8*
				// CHECK4-NEXT: store i8* [[TMP21]], i8** [[TMP20]], align 8
				// CHECK4-NEXT: [[TMP22:%.]] = bitcast [6 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK4-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP5]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i32, i32, i32, i32, %class.anon)* @__omp_outlined__ to i8), i8 null, i8** [[TMP22]], i64 6)
				// CHECK4-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK4: .omp.deinit:
				// CHECK4-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK4-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK4: .exit:
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK4-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[ARGC:%.]], i32 nonnull align 4 dereferenceable(4) [[B:%.]], i32 nonnull align 4 dereferenceable(4) [[C:%.]], i32 [[D:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], %class.anon nonnull align 8 dereferenceable(40) [[L:%.*]]) #[[ATTR1]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[ARGC_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[B_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[C_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[D_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[L_ADDR:%.]] = alloca %class.anon, align 8
				// CHECK4-NEXT: [[TMP:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[_TMP1:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[_TMP2:%.]] = alloca %class.anon, align 8
				// CHECK4-NEXT: [[L3:%.]] = alloca [[CLASS_ANON:%.]], align 8
				// CHECK4-NEXT: [[_TMP4:%.]] = alloca %class.anon, align 8
				// CHECK4-NEXT: [[ARGC5:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[B6:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[_TMP7:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[C8:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[_TMP9:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[A10:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK4-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK4-NEXT: store i32* [[ARGC]], i32** [[ARGC_ADDR]], align 8
				// CHECK4-NEXT: store i32* [[B]], i32** [[B_ADDR]], align 8
				// CHECK4-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 8
				// CHECK4-NEXT: store i32* [[D]], i32** [[D_ADDR]], align 8
				// CHECK4-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK4-NEXT: store %class.anon* [[L]], %class.anon** [[L_ADDR]], align 8
				// CHECK4-NEXT: [[TMP0:%.]] = load i32, i32** [[ARGC_ADDR]], align 8
				// CHECK4-NEXT: [[TMP1:%.]] = load i32, i32** [[B_ADDR]], align 8
				// CHECK4-NEXT: [[TMP2:%.]] = load i32, i32** [[C_ADDR]], align 8
				// CHECK4-NEXT: [[TMP3:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK4-NEXT: [[TMP4:%.]] = load %class.anon, %class.anon** [[L_ADDR]], align 8
				// CHECK4-NEXT: store i32* [[TMP1]], i32** [[TMP]], align 8
				// CHECK4-NEXT: store i32* [[TMP2]], i32** [[_TMP1]], align 8
				// CHECK4-NEXT: store %class.anon* [[TMP4]], %class.anon** [[_TMP2]], align 8
				// CHECK4-NEXT: [[TMP5:%.]] = load %class.anon, %class.anon** [[_TMP2]], align 8
				// CHECK4-NEXT: [[TMP6:%.]] = bitcast %class.anon [[L3]] to i8*
				// CHECK4-NEXT: [[TMP7:%.]] = bitcast %class.anon [[TMP5]] to i8*
				// CHECK4-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP6]], i8* align 8 [[TMP7]], i64 40, i1 false)
				// CHECK4-NEXT: store %class.anon* [[L3]], %class.anon** [[_TMP4]], align 8
				// CHECK4-NEXT: [[TMP8:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK4-NEXT: store i32 [[TMP8]], i32* [[ARGC5]], align 4
				// CHECK4-NEXT: [[TMP9:%.]] = load i32, i32** [[TMP]], align 8
				// CHECK4-NEXT: [[TMP10:%.]] = load i32, i32 [[TMP9]], align 4
				// CHECK4-NEXT: store i32 [[TMP10]], i32* [[B6]], align 4
				// CHECK4-NEXT: store i32* [[B6]], i32** [[_TMP7]], align 8
				// CHECK4-NEXT: [[TMP11:%.]] = load i32, i32** [[_TMP1]], align 8
				// CHECK4-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP11]], align 4
				// CHECK4-NEXT: store i32 [[TMP12]], i32* [[C8]], align 4
				// CHECK4-NEXT: store i32* [[C8]], i32** [[_TMP9]], align 8
				// CHECK4-NEXT: [[TMP13:%.]] = load i32, i32 [[TMP3]], align 4
				// CHECK4-NEXT: store i32 [[TMP13]], i32* [[A10]], align 4
				// CHECK4-NEXT: [[TMP14:%.]] = load %class.anon, %class.anon** [[_TMP4]], align 8
				// CHECK4-NEXT: [[TMP15:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP14]], i32 0, i32 0
				// CHECK4-NEXT: store i32* [[ARGC5]], i32** [[TMP15]], align 8
				// CHECK4-NEXT: [[TMP16:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP14]], i32 0, i32 1
				// CHECK4-NEXT: [[TMP17:%.]] = load i32, i32** [[_TMP7]], align 8
				// CHECK4-NEXT: store i32* [[TMP17]], i32** [[TMP16]], align 8
				// CHECK4-NEXT: [[TMP18:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP14]], i32 0, i32 2
				// CHECK4-NEXT: [[TMP19:%.]] = load i32, i32** [[_TMP9]], align 8
				// CHECK4-NEXT: store i32* [[TMP19]], i32** [[TMP18]], align 8
				// CHECK4-NEXT: [[TMP20:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP14]], i32 0, i32 3
				// CHECK4-NEXT: store i32 [[D_ADDR]], i32* [[TMP20]], align 8
				// CHECK4-NEXT: [[TMP21:%.]] = getelementptr inbounds [[CLASS_ANON]], %class.anon [[TMP14]], i32 0, i32 4
				// CHECK4-NEXT: store i32* [[A10]], i32** [[TMP21]], align 8
				// CHECK4-NEXT: [[TMP22:%.]] = load %class.anon, %class.anon** [[_TMP4]], align 8
				// CHECK4-NEXT: [[CALL:%.]] = call i64 @"_ZZ4mainENK3$_0clEv"(%class.anon nonnull dereferenceable(40) [[TMP22]]) #[[ATTR7]]
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__ZN1S3fooEv_l27_worker
				// CHECK4-SAME: () #[[ATTR0]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[WORK_FN:%.]] = alloca i8, align 8
				// CHECK4-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK4-NEXT: store i8* null, i8** [[WORK_FN]], align 8
				// CHECK4-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK4-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK4: .await.work:
				// CHECK4-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK4-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK4-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK4-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK4-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK4-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK4-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK4: .select.workers:
				// CHECK4-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK4-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK4-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK4: .execute.parallel:
				// CHECK4-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK4-NEXT: [[TMP5:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK4-NEXT: call void [[TMP5]](i16 0, i32 [[TMP4]])
				// CHECK4-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK4: .terminate.parallel:
				// CHECK4-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK4-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK4: .barrier.parallel:
				// CHECK4-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK4-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK4: .exit:
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__ZN1S3fooEv_l27
				// CHECK4-SAME: (%struct.S* [[THIS:%.]], %class.anon.0 nonnull align 8 dereferenceable(8) [[L:%.*]]) #[[ATTR1]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[THIS_ADDR:%.]] = alloca %struct.S, align 8
				// CHECK4-NEXT: [[L_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK4-NEXT: [[TMP:%.]] = alloca %class.anon.0, align 8
				// CHECK4-NEXT: [[L7:%.]] = alloca [[CLASS_ANON_0:%.]], align 8
				// CHECK4-NEXT: [[_TMP8:%.]] = alloca %class.anon.0, align 8
				// CHECK4-NEXT: store %struct.S* [[THIS]], %struct.S** [[THIS_ADDR]], align 8
				// CHECK4-NEXT: store %class.anon.0* [[L]], %class.anon.0** [[L_ADDR]], align 8
				// CHECK4-NEXT: [[TMP0:%.]] = load %struct.S, %struct.S** [[THIS_ADDR]], align 8
				// CHECK4-NEXT: [[TMP1:%.]] = load %class.anon.0, %class.anon.0** [[L_ADDR]], align 8
				// CHECK4-NEXT: store %class.anon.0* [[TMP1]], %class.anon.0** [[TMP]], align 8
				// CHECK4-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK4-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK4-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK4-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK4-NEXT: [[TMP2:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK4-NEXT: br i1 [[TMP2]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK4: .worker:
				// CHECK4-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__ZN1S3fooEv_l27_worker() #[[ATTR6]]
				// CHECK4-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK4: .mastercheck:
				// CHECK4-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK4-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK4-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK4-NEXT: [[TMP3:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK4-NEXT: [[TMP4:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK4-NEXT: [[TMP5:%.*]] = xor i32 [[TMP3]], -1
				// CHECK4-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP4]], [[TMP5]]
				// CHECK4-NEXT: [[TMP6:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK4-NEXT: br i1 [[TMP6]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK4: .master:
				// CHECK4-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK4-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK4-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK4-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK4-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK4-NEXT: [[TMP7:%.]] = load %class.anon.0, %class.anon.0** [[TMP]], align 8
				// CHECK4-NEXT: [[TMP8:%.]] = bitcast %class.anon.0 [[L7]] to i8*
				// CHECK4-NEXT: [[TMP9:%.]] = bitcast %class.anon.0 [[TMP7]] to i8*
				// CHECK4-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP8]], i8* align 8 [[TMP9]], i64 8, i1 false)
				// CHECK4-NEXT: store %class.anon.0* [[L7]], %class.anon.0** [[_TMP8]], align 8
				// CHECK4-NEXT: [[TMP10:%.]] = load %class.anon.0, %class.anon.0** [[_TMP8]], align 8
				// CHECK4-NEXT: [[TMP11:%.]] = getelementptr inbounds [[CLASS_ANON_0]], %class.anon.0 [[TMP10]], i32 0, i32 0
				// CHECK4-NEXT: store %struct.S* [[TMP0]], %struct.S** [[TMP11]], align 8
				// CHECK4-NEXT: [[TMP12:%.]] = load %class.anon.0, %class.anon.0** [[_TMP8]], align 8
				// CHECK4-NEXT: [[CALL:%.]] = call i32 @_ZZN1S3fooEvENKUlvE_clEv(%class.anon.0 nonnull dereferenceable(8) [[TMP12]]) #[[ATTR7]]
				// CHECK4-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK4: .termination.notifier:
				// CHECK4-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK4-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK4-NEXT: br label [[DOTEXIT]]
				// CHECK4: .exit:
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@_ZZN1S3fooEvENKUlvE_clEv
				// CHECK4-SAME: (%class.anon.0* nonnull dereferenceable(8) [[THIS:%.*]]) #[[ATTR4:[0-9]+]] comdat align 2 {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[THIS_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK4-NEXT: store %class.anon.0* [[THIS]], %class.anon.0** [[THIS_ADDR]], align 8
				// CHECK4-NEXT: [[THIS1:%.]] = load %class.anon.0, %class.anon.0** [[THIS_ADDR]], align 8
				// CHECK4-NEXT: [[TMP0:%.]] = getelementptr inbounds [[CLASS_ANON_0:%.]], %class.anon.0* [[THIS1]], i32 0, i32 0
				// CHECK4-NEXT: [[TMP1:%.]] = load %struct.S, %struct.S** [[TMP0]], align 8
				// CHECK4-NEXT: [[A:%.]] = getelementptr inbounds [[STRUCT_S:%.]], %struct.S* [[TMP1]], i32 0, i32 0
				// CHECK4-NEXT: [[TMP2:%.]] = load i32, i32 [[A]], align 4
				// CHECK4-NEXT: ret i32 [[TMP2]]
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__ZN1S3fooEv_l29
				// CHECK4-SAME: (%struct.S* [[THIS:%.]], %class.anon.0 nonnull align 8 dereferenceable(8) [[L:%.*]]) #[[ATTR1]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[THIS_ADDR:%.]] = alloca %struct.S, align 8
				// CHECK4-NEXT: [[L_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK4-NEXT: [[TMP:%.]] = alloca %class.anon.0, align 8
				// CHECK4-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [2 x i8], align 8
				// CHECK4-NEXT: store %struct.S* [[THIS]], %struct.S** [[THIS_ADDR]], align 8
				// CHECK4-NEXT: store %class.anon.0* [[L]], %class.anon.0** [[L_ADDR]], align 8
				// CHECK4-NEXT: [[TMP0:%.]] = load %struct.S, %struct.S** [[THIS_ADDR]], align 8
				// CHECK4-NEXT: [[TMP1:%.]] = load %class.anon.0, %class.anon.0** [[L_ADDR]], align 8
				// CHECK4-NEXT: store %class.anon.0* [[TMP1]], %class.anon.0** [[TMP]], align 8
				// CHECK4-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK4-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK4-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK4-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK4: .execute:
				// CHECK4-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				// CHECK4-NEXT: [[TMP3:%.]] = load %class.anon.0, %class.anon.0** [[TMP]], align 8
				// CHECK4-NEXT: [[TMP4:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK4-NEXT: [[TMP5:%.]] = bitcast %struct.S [[TMP0]] to i8*
				// CHECK4-NEXT: store i8* [[TMP5]], i8** [[TMP4]], align 8
				// CHECK4-NEXT: [[TMP6:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1
				// CHECK4-NEXT: [[TMP7:%.]] = bitcast %class.anon.0 [[TMP3]] to i8*
				// CHECK4-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 8
				// CHECK4-NEXT: [[TMP8:%.]] = bitcast [2 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK4-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, %struct.S, %class.anon.0)* @__omp_outlined__1 to i8), i8 null, i8** [[TMP8]], i64 2)
				// CHECK4-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK4: .omp.deinit:
				// CHECK4-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK4-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK4: .exit:
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK4-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], %struct.S [[THIS:%.]], %class.anon.0 nonnull align 8 dereferenceable(8) [[L:%.*]]) #[[ATTR1]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[THIS_ADDR:%.]] = alloca %struct.S, align 8
				// CHECK4-NEXT: [[L_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK4-NEXT: [[TMP:%.]] = alloca %class.anon.0, align 8
				// CHECK4-NEXT: [[L1:%.]] = alloca [[CLASS_ANON_0:%.]], align 8
				// CHECK4-NEXT: [[_TMP2:%.]] = alloca %class.anon.0, align 8
				// CHECK4-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK4-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK4-NEXT: store %struct.S* [[THIS]], %struct.S** [[THIS_ADDR]], align 8
				// CHECK4-NEXT: store %class.anon.0* [[L]], %class.anon.0** [[L_ADDR]], align 8
				// CHECK4-NEXT: [[TMP0:%.]] = load %struct.S, %struct.S** [[THIS_ADDR]], align 8
				// CHECK4-NEXT: [[TMP1:%.]] = load %class.anon.0, %class.anon.0** [[L_ADDR]], align 8
				// CHECK4-NEXT: store %class.anon.0* [[TMP1]], %class.anon.0** [[TMP]], align 8
				// CHECK4-NEXT: [[TMP2:%.]] = load %class.anon.0, %class.anon.0** [[TMP]], align 8
				// CHECK4-NEXT: [[TMP3:%.]] = bitcast %class.anon.0 [[L1]] to i8*
				// CHECK4-NEXT: [[TMP4:%.]] = bitcast %class.anon.0 [[TMP2]] to i8*
				// CHECK4-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP3]], i8* align 8 [[TMP4]], i64 8, i1 false)
				// CHECK4-NEXT: store %class.anon.0* [[L1]], %class.anon.0** [[_TMP2]], align 8
				// CHECK4-NEXT: [[TMP5:%.]] = load %class.anon.0, %class.anon.0** [[_TMP2]], align 8
				// CHECK4-NEXT: [[TMP6:%.]] = getelementptr inbounds [[CLASS_ANON_0]], %class.anon.0 [[TMP5]], i32 0, i32 0
				// CHECK4-NEXT: store %struct.S* [[TMP0]], %struct.S** [[TMP6]], align 8
				// CHECK4-NEXT: [[TMP7:%.]] = load %class.anon.0, %class.anon.0** [[_TMP2]], align 8
				// CHECK4-NEXT: [[CALL:%.]] = call i32 @_ZZN1S3fooEvENKUlvE_clEv(%class.anon.0 nonnull dereferenceable(8) [[TMP7]]) #[[ATTR7]]
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z3fooIZN1S3fooEvEUlvE_EiRKT__l18
				// CHECK4-SAME: (%class.anon.0* nonnull align 8 dereferenceable(8) [[T:%.*]]) #[[ATTR1]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[T_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK4-NEXT: [[TMP:%.]] = alloca %class.anon.0, align 8
				// CHECK4-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
				// CHECK4-NEXT: store %class.anon.0* [[T]], %class.anon.0** [[T_ADDR]], align 8
				// CHECK4-NEXT: [[TMP0:%.]] = load %class.anon.0, %class.anon.0** [[T_ADDR]], align 8
				// CHECK4-NEXT: store %class.anon.0* [[TMP0]], %class.anon.0** [[TMP]], align 8
				// CHECK4-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK4-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK4-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK4-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK4: .execute:
				// CHECK4-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				// CHECK4-NEXT: [[TMP2:%.]] = load %class.anon.0, %class.anon.0** [[TMP]], align 8
				// CHECK4-NEXT: [[TMP3:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK4-NEXT: [[TMP4:%.]] = bitcast %class.anon.0 [[TMP2]] to i8*
				// CHECK4-NEXT: store i8* [[TMP4]], i8** [[TMP3]], align 8
				// CHECK4-NEXT: [[TMP5:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK4-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP1]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, %class.anon.0) @__omp_outlined__2 to i8), i8 null, i8** [[TMP5]], i64 1)
				// CHECK4-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK4: .omp.deinit:
				// CHECK4-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK4-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK4: .exit:
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@__omp_outlined__2
				// CHECK4-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], %class.anon.0 nonnull align 8 dereferenceable(8) [[T:%.*]]) #[[ATTR1]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[T_ADDR:%.]] = alloca %class.anon.0, align 8
				// CHECK4-NEXT: [[TMP:%.]] = alloca %class.anon.0, align 8
				// CHECK4-NEXT: [[T1:%.]] = alloca [[CLASS_ANON_0:%.]], align 8
				// CHECK4-NEXT: [[_TMP2:%.]] = alloca %class.anon.0, align 8
				// CHECK4-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK4-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK4-NEXT: store %class.anon.0* [[T]], %class.anon.0** [[T_ADDR]], align 8
				// CHECK4-NEXT: [[TMP0:%.]] = load %class.anon.0, %class.anon.0** [[T_ADDR]], align 8
				// CHECK4-NEXT: store %class.anon.0* [[TMP0]], %class.anon.0** [[TMP]], align 8
				// CHECK4-NEXT: [[TMP1:%.]] = load %class.anon.0, %class.anon.0** [[TMP]], align 8
				// CHECK4-NEXT: [[TMP2:%.]] = bitcast %class.anon.0 [[T1]] to i8*
				// CHECK4-NEXT: [[TMP3:%.]] = bitcast %class.anon.0 [[TMP1]] to i8*
				// CHECK4-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP2]], i8* align 8 [[TMP3]], i64 8, i1 false)
				// CHECK4-NEXT: store %class.anon.0* [[T1]], %class.anon.0** [[_TMP2]], align 8
				// CHECK4-NEXT: [[TMP4:%.]] = load %class.anon.0, %class.anon.0** [[_TMP2]], align 8
				// CHECK4-NEXT: [[TMP5:%.]] = load %class.anon.0, %class.anon.0** [[_TMP2]], align 8
				// CHECK4-NEXT: [[CALL:%.]] = call i32 @_ZZN1S3fooEvENKUlvE_clEv(%class.anon.0 nonnull dereferenceable(8) [[TMP5]]) #[[ATTR7]]
				// CHECK4-NEXT: ret void
				//

clang/test/OpenMP/nvptx_multi_target_parallel_codegen.cpp

This file was added.

				// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py UTC_ARGS: --function-signature --include-generated-funcs --replace-function-regex "__omp_offloading_[0-9a-z]+_[0-9a-z]+"
				// Test target codegen - host bc file has to be created first.
				// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
				// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK1
				// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc
				// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK2
				// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK3

				// expected-no-diagnostics
				#ifndef HEADER
				#define HEADER

				void work();

				void use() {
				#pragma omp parallel
				work();
				}

				int main() {
				#pragma omp target parallel
				{ use(); }
				#pragma omp target
				{ use(); }
				}

				#endif
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l21
				// CHECK1-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK1-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK1-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK1: .execute:
				// CHECK1-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK1-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK1-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__ to i8), i8 null, i8** [[TMP1]], i64 0)
				// CHECK1-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK1: .omp.deinit:
				// CHECK1-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK1-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: call void @_Z3usev() #[[ATTR7:[0-9]+]]
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@_Z3usev
				// CHECK1-SAME: () #[[ATTR2:[0-9]+]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK1-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK1-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__1 to i8), i8 null, i8** [[TMP1]], i64 0)
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: call void @_Z4workv() #[[ATTR7]]
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l23_worker
				// CHECK1-SAME: () #[[ATTR5:[0-9]+]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[WORK_FN:%.]] = alloca i8, align 8
				// CHECK1-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK1-NEXT: store i8* null, i8** [[WORK_FN]], align 8
				// CHECK1-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK1: .await.work:
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK1-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK1-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK1-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK1-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK1: .select.workers:
				// CHECK1-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK1-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK1: .execute.parallel:
				// CHECK1-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2:[0-9]+]])
				// CHECK1-NEXT: [[TMP5:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK1-NEXT: call void [[TMP5]](i16 0, i32 [[TMP4]])
				// CHECK1-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK1: .terminate.parallel:
				// CHECK1-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK1-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK1: .barrier.parallel:
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l23
				// CHECK1-SAME: () #[[ATTR0]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK1-NEXT: [[TMP0:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK1-NEXT: br i1 [[TMP0]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK1: .worker:
				// CHECK1-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l23_worker() #[[ATTR4:[0-9]+]]
				// CHECK1-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK1: .mastercheck:
				// CHECK1-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[TMP1:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK1-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK1-NEXT: [[TMP3:%.*]] = xor i32 [[TMP1]], -1
				// CHECK1-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP2]], [[TMP3]]
				// CHECK1-NEXT: [[TMP4:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK1-NEXT: br i1 [[TMP4]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK1: .master:
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK1-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK1-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK1-NEXT: call void @_Z3usev() #[[ATTR7]]
				// CHECK1-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK1: .termination.notifier:
				// CHECK1-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: br label [[DOTEXIT]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l21
				// CHECK2-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 4
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK2-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK2-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK2: .execute:
				// CHECK2-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK2-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK2-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__ to i8), i8 null, i8** [[TMP1]], i32 0)
				// CHECK2-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK2: .omp.deinit:
				// CHECK2-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK2-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK2-NEXT: call void @_Z3usev() #[[ATTR7:[0-9]+]]
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@_Z3usev
				// CHECK2-SAME: () #[[ATTR2:[0-9]+]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 4
				// CHECK2-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK2-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK2-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__1 to i8), i8 null, i8** [[TMP1]], i32 0)
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK2-NEXT: call void @_Z4workv() #[[ATTR7]]
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l23_worker
				// CHECK2-SAME: () #[[ATTR5:[0-9]+]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[WORK_FN:%.]] = alloca i8, align 4
				// CHECK2-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK2-NEXT: store i8* null, i8** [[WORK_FN]], align 4
				// CHECK2-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK2: .await.work:
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK2-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK2-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 4
				// CHECK2-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK2-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK2: .select.workers:
				// CHECK2-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK2-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK2: .execute.parallel:
				// CHECK2-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2:[0-9]+]])
				// CHECK2-NEXT: [[TMP5:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK2-NEXT: call void [[TMP5]](i16 0, i32 [[TMP4]])
				// CHECK2-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK2: .terminate.parallel:
				// CHECK2-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK2-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK2: .barrier.parallel:
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l23
				// CHECK2-SAME: () #[[ATTR0]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK2-NEXT: [[TMP0:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK2-NEXT: br i1 [[TMP0]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK2: .worker:
				// CHECK2-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l23_worker() #[[ATTR4:[0-9]+]]
				// CHECK2-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK2: .mastercheck:
				// CHECK2-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[TMP1:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK2-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK2-NEXT: [[TMP3:%.*]] = xor i32 [[TMP1]], -1
				// CHECK2-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP2]], [[TMP3]]
				// CHECK2-NEXT: [[TMP4:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK2-NEXT: br i1 [[TMP4]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK2: .master:
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK2-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK2-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK2-NEXT: call void @_Z3usev() #[[ATTR7]]
				// CHECK2-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK2: .termination.notifier:
				// CHECK2-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: br label [[DOTEXIT]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l21
				// CHECK3-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 4
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK3-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK3-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK3: .execute:
				// CHECK3-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK3-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK3-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__ to i8), i8 null, i8** [[TMP1]], i32 0)
				// CHECK3-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK3: .omp.deinit:
				// CHECK3-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK3-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK3-NEXT: call void @_Z3usev() #[[ATTR7:[0-9]+]]
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@_Z3usev
				// CHECK3-SAME: () #[[ATTR2:[0-9]+]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK3-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK3-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__1 to i8), i8 null, i8** [[TMP1]], i32 0)
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK3-NEXT: call void @_Z4workv() #[[ATTR7]]
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l23_worker
				// CHECK3-SAME: () #[[ATTR5:[0-9]+]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[WORK_FN:%.]] = alloca i8, align 4
				// CHECK3-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK3-NEXT: store i8* null, i8** [[WORK_FN]], align 4
				// CHECK3-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK3: .await.work:
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK3-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK3-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 4
				// CHECK3-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK3-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK3: .select.workers:
				// CHECK3-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK3-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK3: .execute.parallel:
				// CHECK3-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2:[0-9]+]])
				// CHECK3-NEXT: [[TMP5:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK3-NEXT: call void [[TMP5]](i16 0, i32 [[TMP4]])
				// CHECK3-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK3: .terminate.parallel:
				// CHECK3-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK3-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK3: .barrier.parallel:
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l23
				// CHECK3-SAME: () #[[ATTR0]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK3-NEXT: [[TMP0:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK3-NEXT: br i1 [[TMP0]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK3: .worker:
				// CHECK3-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l23_worker() #[[ATTR4:[0-9]+]]
				// CHECK3-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK3: .mastercheck:
				// CHECK3-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[TMP1:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK3-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK3-NEXT: [[TMP3:%.*]] = xor i32 [[TMP1]], -1
				// CHECK3-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP2]], [[TMP3]]
				// CHECK3-NEXT: [[TMP4:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK3-NEXT: br i1 [[TMP4]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK3: .master:
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK3-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK3-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK3-NEXT: call void @_Z3usev() #[[ATTR7]]
				// CHECK3-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK3: .termination.notifier:
				// CHECK3-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: br label [[DOTEXIT]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//

clang/test/OpenMP/nvptx_nested_parallel_codegen.cpp

This file was added.

				// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py UTC_ARGS: --function-signature --include-generated-funcs --replace-function-regex "__omp_offloading_[0-9a-z]+_[0-9a-z]+"
				// Test target codegen - host bc file has to be created first.
				// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
				// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK1
				// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc
				// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK2
				// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK3

				// expected-no-diagnostics
				#ifndef HEADER
				#define HEADER

				void work(int *C) {
				#pragma omp atomic
				++(*C);
				}

				void use(int *C) {
				#pragma omp parallel num_threads(2)
				work(C);
				}

				int main() {
				int C = 0;
				#pragma omp target map(C)
				{
				use(&C);
				#pragma omp parallel num_threads(2)
				use(&C);
				}

				return C;
				}

				#endif
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l25_worker
				// CHECK1-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[WORK_FN:%.]] = alloca i8, align 8
				// CHECK1-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK1-NEXT: store i8* null, i8** [[WORK_FN]], align 8
				// CHECK1-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK1: .await.work:
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK1-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK1-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK1-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK1-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK1: .select.workers:
				// CHECK1-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK1-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK1: .execute.parallel:
				// CHECK1-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK1-NEXT: [[TMP5:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK1-NEXT: [[WORK_MATCH:%.]] = icmp eq i8 [[TMP5]], bitcast (void (i16, i32)* @__omp_outlined___wrapper to i8*)
				// CHECK1-NEXT: br i1 [[WORK_MATCH]], label [[DOTEXECUTE_FN:%.]], label [[DOTCHECK_NEXT:%.]]
				// CHECK1: .execute.fn:
				// CHECK1-NEXT: call void @__omp_outlined___wrapper(i16 0, i32 [[TMP4]]) #[[ATTR5:[0-9]+]]
				// CHECK1-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK1: .check.next:
				// CHECK1-NEXT: [[TMP6:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK1-NEXT: [[WORK_MATCH1:%.]] = icmp eq i8 [[TMP6]], bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8*)
				// CHECK1-NEXT: br i1 [[WORK_MATCH1]], label [[DOTEXECUTE_FN2:%.]], label [[DOTCHECK_NEXT3:%.]]
				// CHECK1: .execute.fn2:
				// CHECK1-NEXT: call void @__omp_outlined__1_wrapper(i16 0, i32 [[TMP4]]) #[[ATTR5]]
				// CHECK1-NEXT: br label [[DOTTERMINATE_PARALLEL]]
				// CHECK1: .check.next3:
				// CHECK1-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK1-NEXT: call void [[TMP7]](i16 0, i32 [[TMP4]])
				// CHECK1-NEXT: br label [[DOTTERMINATE_PARALLEL]]
				// CHECK1: .terminate.parallel:
				// CHECK1-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK1-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK1: .barrier.parallel:
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l25
				// CHECK1-SAME: (i32* nonnull align 4 dereferenceable(4) [[C:%.*]]) #[[ATTR1:[0-9]+]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[C_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
				// CHECK1-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[C_ADDR]], align 8
				// CHECK1-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK1-NEXT: [[TMP1:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK1-NEXT: br i1 [[TMP1]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK1: .worker:
				// CHECK1-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l25_worker() #[[ATTR5]]
				// CHECK1-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK1: .mastercheck:
				// CHECK1-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK1-NEXT: [[TMP3:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK1-NEXT: [[TMP4:%.*]] = xor i32 [[TMP2]], -1
				// CHECK1-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP3]], [[TMP4]]
				// CHECK1-NEXT: [[TMP5:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK1-NEXT: br i1 [[TMP5]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK1: .master:
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK1-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK1-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK1-NEXT: [[TMP6:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK1-NEXT: call void @_Z3usePi(i32* [[TMP0]]) #[[ATTR7:[0-9]+]]
				// CHECK1-NEXT: call void @__kmpc_push_num_threads(%struct.ident_t* @[[GLOB1]], i32 [[TMP6]], i32 2)
				// CHECK1-NEXT: [[TMP7:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK1-NEXT: [[TMP8:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK1-NEXT: store i8* [[TMP8]], i8** [[TMP7]], align 8
				// CHECK1-NEXT: [[TMP9:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK1-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP6]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32) @__omp_outlined__1 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8), i8* [[TMP9]], i64 1)
				// CHECK1-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK1: .termination.notifier:
				// CHECK1-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: br label [[DOTEXIT]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@_Z3usePi
				// CHECK1-SAME: (i32* [[C:%.*]]) #[[ATTR3:[0-9]+]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[C_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK1-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 8
				// CHECK1-NEXT: call void @__kmpc_push_num_threads(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]], i32 2)
				// CHECK1-NEXT: [[TMP1:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK1-NEXT: [[TMP2:%.]] = bitcast i32* [[C_ADDR]] to i8*
				// CHECK1-NEXT: store i8* [[TMP2]], i8** [[TMP1]], align 8
				// CHECK1-NEXT: [[TMP3:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK1-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32*) @__omp_outlined__ to i8), i8 bitcast (void (i16, i32)* @__omp_outlined___wrapper to i8), i8* [[TMP3]], i64 1)
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32* nonnull align 8 dereferenceable(8) [[C:%.*]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[C_ADDR:%.]] = alloca i32*, align 8
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32 [[C]], i32* [[C_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[C_ADDR]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32** [[TMP0]], align 8
				// CHECK1-NEXT: call void @_Z4workPi(i32* [[TMP1]]) #[[ATTR7]]
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@_Z4workPi
				// CHECK1-SAME: (i32* [[C:%.*]]) #[[ATTR3]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[C_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[ATOMIC_TEMP:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[ATOMIC_TEMP1:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[C_ADDR]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK1-NEXT: [[TMP2:%.]] = bitcast i32 [[ATOMIC_TEMP]] to i8*
				// CHECK1-NEXT: call void @__atomic_load(i64 4, i8* [[TMP1]], i8* [[TMP2]], i32 0) #[[ATTR7]]
				// CHECK1-NEXT: br label [[ATOMIC_CONT:%.*]]
				// CHECK1: atomic_cont:
				// CHECK1-NEXT: [[TMP3:%.]] = load i32, i32 [[ATOMIC_TEMP]], align 4
				// CHECK1-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP3]], 1
				// CHECK1-NEXT: store i32 [[ADD]], i32* [[ATOMIC_TEMP1]], align 4
				// CHECK1-NEXT: [[TMP4:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK1-NEXT: [[TMP5:%.]] = bitcast i32 [[ATOMIC_TEMP]] to i8*
				// CHECK1-NEXT: [[TMP6:%.]] = bitcast i32 [[ATOMIC_TEMP1]] to i8*
				// CHECK1-NEXT: [[CALL:%.]] = call zeroext i1 @__atomic_compare_exchange(i64 4, i8 [[TMP4]], i8* [[TMP5]], i8* [[TMP6]], i32 0, i32 0) #[[ATTR7]]
				// CHECK1-NEXT: br i1 [[CALL]], label [[ATOMIC_EXIT:%.*]], label [[ATOMIC_CONT]]
				// CHECK1: atomic_exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined___wrapper
				// CHECK1-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK1-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				// CHECK1-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				// CHECK1-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8
				// CHECK1-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0
				// CHECK1-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32***
				// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 8
				// CHECK1-NEXT: call void @__omp_outlined__(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32** [[TMP5]]) #[[ATTR5]]
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[C:%.*]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[C_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[C_ADDR]], align 8
				// CHECK1-NEXT: call void @_Z3usePi(i32* [[TMP0]]) #[[ATTR7]]
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
				// CHECK1-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK1-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				// CHECK1-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				// CHECK1-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8
				// CHECK1-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0
				// CHECK1-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
				// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 8
				// CHECK1-NEXT: call void @__omp_outlined__1(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR5]]
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l25_worker
				// CHECK2-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[WORK_FN:%.]] = alloca i8, align 4
				// CHECK2-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK2-NEXT: store i8* null, i8** [[WORK_FN]], align 4
				// CHECK2-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK2: .await.work:
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK2-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK2-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 4
				// CHECK2-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK2-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK2: .select.workers:
				// CHECK2-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK2-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK2: .execute.parallel:
				// CHECK2-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK2-NEXT: [[TMP5:%.]] = load i8, i8** [[WORK_FN]], align 4
				// CHECK2-NEXT: [[WORK_MATCH:%.]] = icmp eq i8 [[TMP5]], bitcast (void (i16, i32)* @__omp_outlined___wrapper to i8*)
				// CHECK2-NEXT: br i1 [[WORK_MATCH]], label [[DOTEXECUTE_FN:%.]], label [[DOTCHECK_NEXT:%.]]
				// CHECK2: .execute.fn:
				// CHECK2-NEXT: call void @__omp_outlined___wrapper(i16 0, i32 [[TMP4]]) #[[ATTR5:[0-9]+]]
				// CHECK2-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK2: .check.next:
				// CHECK2-NEXT: [[TMP6:%.]] = load i8, i8** [[WORK_FN]], align 4
				// CHECK2-NEXT: [[WORK_MATCH1:%.]] = icmp eq i8 [[TMP6]], bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8*)
				// CHECK2-NEXT: br i1 [[WORK_MATCH1]], label [[DOTEXECUTE_FN2:%.]], label [[DOTCHECK_NEXT3:%.]]
				// CHECK2: .execute.fn2:
				// CHECK2-NEXT: call void @__omp_outlined__1_wrapper(i16 0, i32 [[TMP4]]) #[[ATTR5]]
				// CHECK2-NEXT: br label [[DOTTERMINATE_PARALLEL]]
				// CHECK2: .check.next3:
				// CHECK2-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK2-NEXT: call void [[TMP7]](i16 0, i32 [[TMP4]])
				// CHECK2-NEXT: br label [[DOTTERMINATE_PARALLEL]]
				// CHECK2: .terminate.parallel:
				// CHECK2-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK2-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK2: .barrier.parallel:
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l25
				// CHECK2-SAME: (i32* nonnull align 4 dereferenceable(4) [[C:%.*]]) #[[ATTR1:[0-9]+]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[C_ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
				// CHECK2-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 4
				// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[C_ADDR]], align 4
				// CHECK2-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK2-NEXT: [[TMP1:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK2-NEXT: br i1 [[TMP1]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK2: .worker:
				// CHECK2-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l25_worker() #[[ATTR5]]
				// CHECK2-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK2: .mastercheck:
				// CHECK2-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK2-NEXT: [[TMP3:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK2-NEXT: [[TMP4:%.*]] = xor i32 [[TMP2]], -1
				// CHECK2-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP3]], [[TMP4]]
				// CHECK2-NEXT: [[TMP5:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK2-NEXT: br i1 [[TMP5]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK2: .master:
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK2-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK2-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK2-NEXT: [[TMP6:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK2-NEXT: call void @_Z3usePi(i32* [[TMP0]]) #[[ATTR7:[0-9]+]]
				// CHECK2-NEXT: call void @__kmpc_push_num_threads(%struct.ident_t* @[[GLOB1]], i32 [[TMP6]], i32 2)
				// CHECK2-NEXT: [[TMP7:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK2-NEXT: [[TMP8:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK2-NEXT: store i8* [[TMP8]], i8** [[TMP7]], align 4
				// CHECK2-NEXT: [[TMP9:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK2-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP6]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32) @__omp_outlined__1 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8), i8* [[TMP9]], i32 1)
				// CHECK2-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK2: .termination.notifier:
				// CHECK2-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: br label [[DOTEXIT]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@_Z3usePi
				// CHECK2-SAME: (i32* [[C:%.*]]) #[[ATTR3:[0-9]+]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[C_ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
				// CHECK2-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK2-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 4
				// CHECK2-NEXT: call void @__kmpc_push_num_threads(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]], i32 2)
				// CHECK2-NEXT: [[TMP1:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK2-NEXT: [[TMP2:%.]] = bitcast i32* [[C_ADDR]] to i8*
				// CHECK2-NEXT: store i8* [[TMP2]], i8** [[TMP1]], align 4
				// CHECK2-NEXT: [[TMP3:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK2-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32*) @__omp_outlined__ to i8), i8 bitcast (void (i16, i32)* @__omp_outlined___wrapper to i8), i8* [[TMP3]], i32 1)
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32* nonnull align 4 dereferenceable(4) [[C:%.*]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[C_ADDR:%.]] = alloca i32*, align 4
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32 [[C]], i32* [[C_ADDR]], align 4
				// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[C_ADDR]], align 4
				// CHECK2-NEXT: [[TMP1:%.]] = load i32, i32** [[TMP0]], align 4
				// CHECK2-NEXT: call void @_Z4workPi(i32* [[TMP1]]) #[[ATTR7]]
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@_Z4workPi
				// CHECK2-SAME: (i32* [[C:%.*]]) #[[ATTR3]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[C_ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[ATOMIC_TEMP:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[ATOMIC_TEMP1:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 4
				// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[C_ADDR]], align 4
				// CHECK2-NEXT: [[TMP1:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK2-NEXT: [[TMP2:%.]] = bitcast i32 [[ATOMIC_TEMP]] to i8*
				// CHECK2-NEXT: call void @__atomic_load(i32 4, i8* [[TMP1]], i8* [[TMP2]], i32 0) #[[ATTR7]]
				// CHECK2-NEXT: br label [[ATOMIC_CONT:%.*]]
				// CHECK2: atomic_cont:
				// CHECK2-NEXT: [[TMP3:%.]] = load i32, i32 [[ATOMIC_TEMP]], align 4
				// CHECK2-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP3]], 1
				// CHECK2-NEXT: store i32 [[ADD]], i32* [[ATOMIC_TEMP1]], align 4
				// CHECK2-NEXT: [[TMP4:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK2-NEXT: [[TMP5:%.]] = bitcast i32 [[ATOMIC_TEMP]] to i8*
				// CHECK2-NEXT: [[TMP6:%.]] = bitcast i32 [[ATOMIC_TEMP1]] to i8*
				// CHECK2-NEXT: [[CALL:%.]] = call zeroext i1 @__atomic_compare_exchange(i32 4, i8 [[TMP4]], i8* [[TMP5]], i8* [[TMP6]], i32 0, i32 0) #[[ATTR7]]
				// CHECK2-NEXT: br i1 [[CALL]], label [[ATOMIC_EXIT:%.*]], label [[ATOMIC_CONT]]
				// CHECK2: atomic_exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined___wrapper
				// CHECK2-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 4
				// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK2-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				// CHECK2-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				// CHECK2-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 4
				// CHECK2-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i32 0
				// CHECK2-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32***
				// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 4
				// CHECK2-NEXT: call void @__omp_outlined__(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32** [[TMP5]]) #[[ATTR5]]
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[C:%.*]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[C_ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 4
				// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[C_ADDR]], align 4
				// CHECK2-NEXT: call void @_Z3usePi(i32* [[TMP0]]) #[[ATTR7]]
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
				// CHECK2-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 4
				// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK2-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				// CHECK2-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				// CHECK2-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 4
				// CHECK2-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i32 0
				// CHECK2-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
				// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 4
				// CHECK2-NEXT: call void @__omp_outlined__1(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR5]]
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l25_worker
				// CHECK3-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[WORK_FN:%.]] = alloca i8, align 4
				// CHECK3-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK3-NEXT: store i8* null, i8** [[WORK_FN]], align 4
				// CHECK3-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK3: .await.work:
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK3-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK3-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 4
				// CHECK3-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK3-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK3: .select.workers:
				// CHECK3-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK3-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK3: .execute.parallel:
				// CHECK3-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK3-NEXT: [[TMP5:%.]] = load i8, i8** [[WORK_FN]], align 4
				// CHECK3-NEXT: [[WORK_MATCH:%.]] = icmp eq i8 [[TMP5]], bitcast (void (i16, i32)* @__omp_outlined___wrapper to i8*)
				// CHECK3-NEXT: br i1 [[WORK_MATCH]], label [[DOTEXECUTE_FN:%.]], label [[DOTCHECK_NEXT:%.]]
				// CHECK3: .execute.fn:
				// CHECK3-NEXT: call void @__omp_outlined___wrapper(i16 0, i32 [[TMP4]]) #[[ATTR5:[0-9]+]]
				// CHECK3-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK3: .check.next:
				// CHECK3-NEXT: [[TMP6:%.]] = load i8, i8** [[WORK_FN]], align 4
				// CHECK3-NEXT: [[WORK_MATCH1:%.]] = icmp eq i8 [[TMP6]], bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8*)
				// CHECK3-NEXT: br i1 [[WORK_MATCH1]], label [[DOTEXECUTE_FN2:%.]], label [[DOTCHECK_NEXT3:%.]]
				// CHECK3: .execute.fn2:
				// CHECK3-NEXT: call void @__omp_outlined__1_wrapper(i16 0, i32 [[TMP4]]) #[[ATTR5]]
				// CHECK3-NEXT: br label [[DOTTERMINATE_PARALLEL]]
				// CHECK3: .check.next3:
				// CHECK3-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK3-NEXT: call void [[TMP7]](i16 0, i32 [[TMP4]])
				// CHECK3-NEXT: br label [[DOTTERMINATE_PARALLEL]]
				// CHECK3: .terminate.parallel:
				// CHECK3-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK3-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK3: .barrier.parallel:
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l25
				// CHECK3-SAME: (i32* nonnull align 4 dereferenceable(4) [[C:%.*]]) #[[ATTR1:[0-9]+]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[C_ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
				// CHECK3-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = load i32, i32** [[C_ADDR]], align 4
				// CHECK3-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK3-NEXT: [[TMP1:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK3-NEXT: br i1 [[TMP1]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK3: .worker:
				// CHECK3-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l25_worker() #[[ATTR5]]
				// CHECK3-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK3: .mastercheck:
				// CHECK3-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK3-NEXT: [[TMP3:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK3-NEXT: [[TMP4:%.*]] = xor i32 [[TMP2]], -1
				// CHECK3-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP3]], [[TMP4]]
				// CHECK3-NEXT: [[TMP5:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK3-NEXT: br i1 [[TMP5]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK3: .master:
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK3-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK3-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK3-NEXT: [[TMP6:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK3-NEXT: call void @_Z3usePi(i32* [[TMP0]]) #[[ATTR7:[0-9]+]]
				// CHECK3-NEXT: call void @__kmpc_push_num_threads(%struct.ident_t* @[[GLOB1]], i32 [[TMP6]], i32 2)
				// CHECK3-NEXT: [[TMP7:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK3-NEXT: [[TMP8:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK3-NEXT: store i8* [[TMP8]], i8** [[TMP7]], align 4
				// CHECK3-NEXT: [[TMP9:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK3-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP6]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32) @__omp_outlined__1 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8), i8* [[TMP9]], i32 1)
				// CHECK3-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK3: .termination.notifier:
				// CHECK3-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: br label [[DOTEXIT]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@_Z3usePi
				// CHECK3-SAME: (i32* [[C:%.*]]) #[[ATTR3:[0-9]+]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[C_ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK3-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 4
				// CHECK3-NEXT: call void @__kmpc_push_num_threads(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]], i32 2)
				// CHECK3-NEXT: [[TMP1:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK3-NEXT: [[TMP2:%.]] = bitcast i32* [[C_ADDR]] to i8*
				// CHECK3-NEXT: store i8* [[TMP2]], i8** [[TMP1]], align 4
				// CHECK3-NEXT: [[TMP3:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK3-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32*) @__omp_outlined__ to i8), i8 bitcast (void (i16, i32)* @__omp_outlined___wrapper to i8), i8* [[TMP3]], i32 1)
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32* nonnull align 4 dereferenceable(4) [[C:%.*]]) #[[ATTR1]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[C_ADDR:%.]] = alloca i32*, align 4
				// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32 [[C]], i32* [[C_ADDR]], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = load i32, i32** [[C_ADDR]], align 4
				// CHECK3-NEXT: [[TMP1:%.]] = load i32, i32** [[TMP0]], align 4
				// CHECK3-NEXT: call void @_Z4workPi(i32* [[TMP1]]) #[[ATTR7]]
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@_Z4workPi
				// CHECK3-SAME: (i32* [[C:%.*]]) #[[ATTR3]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[C_ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[ATOMIC_TEMP:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[ATOMIC_TEMP1:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = load i32, i32** [[C_ADDR]], align 4
				// CHECK3-NEXT: [[TMP1:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK3-NEXT: [[TMP2:%.]] = bitcast i32 [[ATOMIC_TEMP]] to i8*
				// CHECK3-NEXT: call void @__atomic_load(i32 4, i8* [[TMP1]], i8* [[TMP2]], i32 0) #[[ATTR7]]
				// CHECK3-NEXT: br label [[ATOMIC_CONT:%.*]]
				// CHECK3: atomic_cont:
				// CHECK3-NEXT: [[TMP3:%.]] = load i32, i32 [[ATOMIC_TEMP]], align 4
				// CHECK3-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP3]], 1
				// CHECK3-NEXT: store i32 [[ADD]], i32* [[ATOMIC_TEMP1]], align 4
				// CHECK3-NEXT: [[TMP4:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK3-NEXT: [[TMP5:%.]] = bitcast i32 [[ATOMIC_TEMP]] to i8*
				// CHECK3-NEXT: [[TMP6:%.]] = bitcast i32 [[ATOMIC_TEMP1]] to i8*
				// CHECK3-NEXT: [[CALL:%.]] = call zeroext i1 @__atomic_compare_exchange(i32 4, i8 [[TMP4]], i8* [[TMP5]], i8* [[TMP6]], i32 0, i32 0) #[[ATTR7]]
				// CHECK3-NEXT: br i1 [[CALL]], label [[ATOMIC_EXIT:%.*]], label [[ATOMIC_CONT]]
				// CHECK3: atomic_exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined___wrapper
				// CHECK3-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 4
				// CHECK3-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK3-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				// CHECK3-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				// CHECK3-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 4
				// CHECK3-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i32 0
				// CHECK3-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32***
				// CHECK3-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 4
				// CHECK3-NEXT: call void @__omp_outlined__(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32** [[TMP5]]) #[[ATTR5]]
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[C:%.*]]) #[[ATTR1]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[C_ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[C]], i32** [[C_ADDR]], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = load i32, i32** [[C_ADDR]], align 4
				// CHECK3-NEXT: call void @_Z3usePi(i32* [[TMP0]]) #[[ATTR7]]
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
				// CHECK3-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 4
				// CHECK3-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK3-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				// CHECK3-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				// CHECK3-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 4
				// CHECK3-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i32 0
				// CHECK3-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
				// CHECK3-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 4
				// CHECK3-NEXT: call void @__omp_outlined__1(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR5]]
				// CHECK3-NEXT: ret void
				//

clang/test/OpenMP/nvptx_parallel_codegen.cpp

This file has a very large number of changes (2,761 lines). Show File Contents

clang/test/OpenMP/nvptx_parallel_for_codegen.cpp

				// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py UTC_ARGS: --function-signature --include-generated-funcs --replace-function-regex "__omp_offloading_[0-9a-z]+_[0-9a-z]+"
	// Test target codegen - host bc file has to be created first.			// Test target codegen - host bc file has to be created first.
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64 --check-prefix SEQ			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK1
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64 --check-prefix PAR			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK2
	// expected-no-diagnostics			// expected-no-diagnostics
	#ifndef HEADER			#ifndef HEADER
	#define HEADER			#define HEADER

	template<typename tx>			template<typename tx>
	tx ftemplate(int n) {			tx ftemplate(int n) {
	tx b[10];			tx b[10];

	Show All 13 Lines
	int bar(int n){			int bar(int n){
	int a = 0;			int a = 0;

	a += ftemplate<int>(n);			a += ftemplate<int>(n);

	return a;			return a;
	}			}

	// SEQ: [[MEM_TY:%.+]] = type { [128 x i8] }
	// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = weak addrspace(3) global [[MEM_TY]] undef
	// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* undef
	// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 4
	// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1

	// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l13}}_worker()
	// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CHECK: call i1 @__kmpc_kernel_parallel(
	// CHECK: call void @__omp_outlined___wrapper(

	// CHECK: define weak void @__omp_offloading_{{.*}}l13(
	// CHECK: call void @__omp_offloading_{{.*}}l13_worker()
	// CHECK: call void @__kmpc_kernel_init(
	// CHECK: call void @__kmpc_data_sharing_init_stack()
	// SEQ: [[IS_SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],
	// SEQ: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE]],
	// SEQ: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i64 %7, i16 %6, i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))
	// SEQ: [[KERNEL_RD:%.+]] = load i8, i8 addrspace(3)* [[KERNEL_PTR]],
	// SEQ: [[STACK:%.+]] = getelementptr inbounds i8, i8* [[KERNEL_RD]], i{{64\|32}} 0
	// PAR: [[STACK:%.+]] = call i8* @__kmpc_data_sharing_push_stack(i{{32\|64}} 4, i16 1)
	// CHECK: call void @__kmpc_kernel_prepare_parallel(
	// CHECK: call void @__kmpc_begin_sharing_variables({{.*}}, i64 2)
	// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CHECK: call void @__kmpc_end_sharing_variables()
	// SEQ: [[IS_SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],
	// SEQ: call void @__kmpc_restore_team_static_memory(i16 0, i16 [[IS_SHARED]])
	// PAR: call void @__kmpc_data_sharing_pop_stack(i8* [[STACK]])
	// CHECK: call void @__kmpc_kernel_deinit(i16 1)

	// CHECK: define internal void @__omp_outlined__(
	// CHECK: alloca
	// CHECK: alloca
	// CHECK: alloca
	// CHECK: alloca
	// CHECK: [[OMP_IV:%.*]] = alloca i32
	// CHECK: store i32 0, {{.*}} [[OMP_LB:%.+]],
	// CHECK: store i32 9, {{.*}} [[OMP_UB:%.+]],
	// CHECK: store i32 1, {{.*}} [[OMP_ST:%.+]],
	// CHECK: call void @__kmpc_for_static_init_4({{.}} i32 33, {{.}} [[OMP_LB]], {{.}} [[OMP_UB]], {{.}} [[OMP_ST]], i32 1, i32 1)
	// CHECK: br label %[[OMP_DISPATCH_COND:.+]]

	// CHECK: [[OMP_DISPATCH_COND]]
	// CHECK: [[OMP_UB_1:%.+]] = load {{.*}} [[OMP_UB]]
	// CHECK: [[COMP_1:%.+]] = icmp sgt {{.*}} [[OMP_UB_1]]
	// CHECK: br i1 [[COMP_1]], label %[[COND_TRUE:.+]], label %[[COND_FALSE:.+]]

	// CHECK: [[COND_TRUE]]
	// CHECK: br label %[[COND_END:.+]]

	// CHECK: [[COND_FALSE]]
	// CHECK: [[OMP_UB_2:%.+]] = load {{.}} [[OMP_UB]]
	// CHECK: br label %[[COND_END]]

	// CHECK: [[COND_END]]
	// CHECK: [[COND_RES:%.+]] = phi i32 [ 9, %[[COND_TRUE]] ], [ [[OMP_UB_2]], %[[COND_FALSE]] ]
	// CHECK: store i32 [[COND_RES]], i32* [[OMP_UB]]
	// CHECK: [[OMP_LB_1:%.+]] = load i32, i32* [[OMP_LB]]
	// CHECK: store i32 [[OMP_LB_1]], i32* [[OMP_IV]]
	// CHECK: [[OMP_IV_1:%.+]] = load i32, i32* [[OMP_IV]]
	// CHECK: [[OMP_UB_3:%.+]] = load i32, i32* [[OMP_UB]]
	// CHECK: [[COMP_2:%.+]] = icmp sle i32 [[OMP_IV_1]], [[OMP_UB_3]]
	// CHECK: br i1 [[COMP_2]], label %[[DISPATCH_BODY:.+]], label %[[DISPATCH_END:.+]]

	// CHECK: [[DISPATCH_BODY]]
	// CHECK: br label %[[OMP_INNER_FOR_COND:.+]]

	// CHECK: [[OMP_INNER_FOR_COND]]
	// CHECK: [[OMP_IV_2:%.+]] = load i32, i32* [[OMP_IV]]
	// CHECK: [[OMP_UB_4:%.+]] = load i32, i32* [[OMP_UB]]
	// CHECK: [[COMP_3:%.+]] = icmp sle i32 [[OMP_IV_2]], [[OMP_UB_4]]
	// CHECK: br i1 [[COMP_3]], label %[[OMP_INNER_FOR_BODY:.+]], label %[[OMP_INNER_FOR_END:.+]]

	// CHECK: [[OMP_INNER_FOR_BODY]]
	// CHECK: br label %[[OMP_BODY_CONTINUE:.+]]

	// CHECK: [[OMP_BODY_CONTINUE]]
	// CHECK: br label %[[OMP_INNER_FOR_INC:.+]]

	// CHECK: [[OMP_INNER_FOR_INC]]
	// CHECK: [[OMP_IV_3:%.+]] = load i32, i32* [[OMP_IV]]
	// CHECK: [[ADD_1:%.+]] = add nsw i32 [[OMP_IV_3]], 1
	// CHECK: store i32 [[ADD_1]], i32* [[OMP_IV]]
	// CHECK: br label %[[OMP_INNER_FOR_COND]]

	// CHECK: [[OMP_INNER_FOR_COND]]
	// CHECK: br label %[[OMP_DISPATCH_INC:.+]]

	// CHECK: [[OMP_DISPATCH_INC]]
	// CHECK: [[OMP_LB_2:%.+]] = load i32, i32* [[OMP_LB]]
	// CHECK: [[OMP_ST_1:%.+]] = load i32, i32* [[OMP_ST]]
	// CHECK: [[ADD_2:%.+]] = add nsw i32 [[OMP_LB_2]], [[OMP_ST_1]]
	// CHECK: store i32 [[ADD_2]], i32* [[OMP_LB]]
	// CHECK: [[OMP_UB_5:%.+]] = load i32, i32* [[OMP_UB]]
	// CHECK: [[OMP_ST_2:%.+]] = load i32, i32* [[OMP_ST]]
	// CHECK: [[ADD_3:%.+]] = add nsw i32 [[OMP_UB_5]], [[OMP_ST_2]]
	// CHECK: store i32 [[ADD_3]], i32* [[OMP_UB]]

	// CHECK: [[DISPATCH_END]]
	// CHECK: call void @__kmpc_for_static_fini(
	// CHECK: ret void

	#endif			#endif
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l14_worker
				// CHECK1-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[WORK_FN:%.]] = alloca i8, align 8
				// CHECK1-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK1-NEXT: store i8* null, i8** [[WORK_FN]], align 8
				// CHECK1-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK1: .await.work:
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK1-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK1-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK1-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK1-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK1: .select.workers:
				// CHECK1-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK1-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK1: .execute.parallel:
				// CHECK1-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2:[0-9]+]])
				// CHECK1-NEXT: [[TMP5:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK1-NEXT: [[WORK_MATCH:%.]] = icmp eq i8 [[TMP5]], bitcast (void (i16, i32)* @__omp_outlined___wrapper to i8*)
				// CHECK1-NEXT: br i1 [[WORK_MATCH]], label [[DOTEXECUTE_FN:%.]], label [[DOTCHECK_NEXT:%.]]
				// CHECK1: .execute.fn:
				// CHECK1-NEXT: call void @__omp_outlined___wrapper(i16 0, i32 [[TMP4]]) #[[ATTR3:[0-9]+]]
				// CHECK1-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK1: .check.next:
				// CHECK1-NEXT: [[TMP6:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK1-NEXT: call void [[TMP6]](i16 0, i32 [[TMP4]])
				// CHECK1-NEXT: br label [[DOTTERMINATE_PARALLEL]]
				// CHECK1: .terminate.parallel:
				// CHECK1-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK1-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK1: .barrier.parallel:
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l14
				// CHECK1-SAME: (i64 [[N:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.*]]) #[[ATTR1:[0-9]+]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[N_ADDR:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 8
				// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [2 x i8], align 8
				// CHECK1-NEXT: store i64 [[N]], i64* [[N_ADDR]], align 8
				// CHECK1-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 8
				// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[N_ADDR]] to i32*
				// CHECK1-NEXT: [[TMP0:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 8
				// CHECK1-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK1-NEXT: [[TMP1:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK1-NEXT: br i1 [[TMP1]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK1: .worker:
				// CHECK1-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l14_worker() #[[ATTR3]]
				// CHECK1-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK1: .mastercheck:
				// CHECK1-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK1-NEXT: [[TMP3:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK1-NEXT: [[TMP4:%.*]] = xor i32 [[TMP2]], -1
				// CHECK1-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP3]], [[TMP4]]
				// CHECK1-NEXT: [[TMP5:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK1-NEXT: br i1 [[TMP5]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK1: .master:
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK1-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK1-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK1-NEXT: [[TMP6:%.]] = load i16, i16 @"_openmp_static_kernel$is_shared", align 2
				// CHECK1-NEXT: [[TMP7:%.]] = load i64, i64 @"_openmp_static_kernel$size", align 8
				// CHECK1-NEXT: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds (%"union._shared_openmp_static_memory_type_$_", %"union._shared_openmp_static_memory_type_$_" addrspace(3)* @"_openmp_shared_static_glob_rd_$_", i32 0, i32 0, i32 0) to i8), i64 [[TMP7]], i16 [[TMP6]], i8* addrspacecast (i8* addrspace(3)* @"_openmp_kernel_static_glob_rd$ptr" to i8**))
				// CHECK1-NEXT: [[TMP8:%.]] = load i8, i8* addrspace(3)* @"_openmp_kernel_static_glob_rd$ptr", align 8
				// CHECK1-NEXT: [[TMP9:%.]] = getelementptr inbounds i8, i8 [[TMP8]], i64 0
				// CHECK1-NEXT: [[TMP10:%.]] = bitcast i8 [[TMP9]] to %struct._globalized_locals_ty*
				// CHECK1-NEXT: [[D:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP10]], i32 0, i32 0
				// CHECK1-NEXT: [[TMP11:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				// CHECK1-NEXT: [[TMP12:%.]] = load i32, i32 [[CONV]], align 8
				// CHECK1-NEXT: store i32 [[TMP12]], i32* [[D]], align 4
				// CHECK1-NEXT: [[TMP13:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK1-NEXT: [[TMP14:%.]] = bitcast [10 x i32] [[TMP0]] to i8*
				// CHECK1-NEXT: store i8* [[TMP14]], i8** [[TMP13]], align 8
				// CHECK1-NEXT: [[TMP15:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1
				// CHECK1-NEXT: [[TMP16:%.]] = bitcast i32 [[D]] to i8*
				// CHECK1-NEXT: store i8* [[TMP16]], i8** [[TMP15]], align 8
				// CHECK1-NEXT: [[TMP17:%.]] = bitcast [2 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK1-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP11]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, [10 x i32], i32)* @__omp_outlined__ to i8), i8 bitcast (void (i16, i32)* @__omp_outlined___wrapper to i8), i8* [[TMP17]], i64 2)
				// CHECK1-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[TMP0]], i64 0, i64 3
				// CHECK1-NEXT: [[TMP18:%.]] = load i32, i32 [[ARRAYIDX]], align 4
				// CHECK1-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP18]], 1
				// CHECK1-NEXT: store i32 [[ADD]], i32* [[ARRAYIDX]], align 4
				// CHECK1-NEXT: [[TMP19:%.]] = load i16, i16 @"_openmp_static_kernel$is_shared", align 2
				// CHECK1-NEXT: call void @__kmpc_restore_team_static_memory(i16 0, i16 [[TMP19]])
				// CHECK1-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK1: .termination.notifier:
				// CHECK1-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: br label [[DOTEXIT]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.]], i32 nonnull align 4 dereferenceable(4) [[D:%.*]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 8
				// CHECK1-NEXT: [[D_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[TMP:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[I:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[D]], i32** [[D_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32** [[D_ADDR]], align 8
				// CHECK1-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4
				// CHECK1-NEXT: store i32 9, i32* [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
				// CHECK1-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
				// CHECK1-NEXT: [[TMP2:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP2]], align 4
				// CHECK1-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB1:[0-9]+]], i32 [[TMP3]], i32 33, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 1)
				// CHECK1-NEXT: br label [[OMP_DISPATCH_COND:%.*]]
				// CHECK1: omp.dispatch.cond:
				// CHECK1-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: [[CMP:%.*]] = icmp sgt i32 [[TMP4]], 9
				// CHECK1-NEXT: br i1 [[CMP]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]]
				// CHECK1: cond.true:
				// CHECK1-NEXT: br label [[COND_END:%.*]]
				// CHECK1: cond.false:
				// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: br label [[COND_END]]
				// CHECK1: cond.end:
				// CHECK1-NEXT: [[COND:%.*]] = phi i32 [ 9, [[COND_TRUE]] ], [ [[TMP5]], [[COND_FALSE]] ]
				// CHECK1-NEXT: store i32 [[COND]], i32* [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: [[TMP6:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK1-NEXT: store i32 [[TMP6]], i32* [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: [[TMP7:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: [[CMP1:%.*]] = icmp sle i32 [[TMP7]], [[TMP8]]
				// CHECK1-NEXT: br i1 [[CMP1]], label [[OMP_DISPATCH_BODY:%.]], label [[OMP_DISPATCH_END:%.]]
				// CHECK1: omp.dispatch.body:
				// CHECK1-NEXT: br label [[OMP_INNER_FOR_COND:%.*]]
				// CHECK1: omp.inner.for.cond:
				// CHECK1-NEXT: [[TMP9:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: [[CMP2:%.*]] = icmp sle i32 [[TMP9]], [[TMP10]]
				// CHECK1-NEXT: br i1 [[CMP2]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]]
				// CHECK1: omp.inner.for.body:
				// CHECK1-NEXT: [[TMP11:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: [[MUL:%.*]] = mul nsw i32 [[TMP11]], 1
				// CHECK1-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]
				// CHECK1-NEXT: store i32 [[ADD]], i32* [[I]], align 4
				// CHECK1-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP1]], align 4
				// CHECK1-NEXT: [[TMP13:%.]] = load i32, i32 [[I]], align 4
				// CHECK1-NEXT: [[IDXPROM:%.*]] = sext i32 [[TMP13]] to i64
				// CHECK1-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[TMP0]], i64 0, i64 [[IDXPROM]]
				// CHECK1-NEXT: [[TMP14:%.]] = load i32, i32 [[ARRAYIDX]], align 4
				// CHECK1-NEXT: [[ADD3:%.*]] = add nsw i32 [[TMP14]], [[TMP12]]
				// CHECK1-NEXT: store i32 [[ADD3]], i32* [[ARRAYIDX]], align 4
				// CHECK1-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]
				// CHECK1: omp.body.continue:
				// CHECK1-NEXT: br label [[OMP_INNER_FOR_INC:%.*]]
				// CHECK1: omp.inner.for.inc:
				// CHECK1-NEXT: [[TMP15:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: [[ADD4:%.*]] = add nsw i32 [[TMP15]], 1
				// CHECK1-NEXT: store i32 [[ADD4]], i32* [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: br label [[OMP_INNER_FOR_COND]]
				// CHECK1: omp.inner.for.end:
				// CHECK1-NEXT: br label [[OMP_DISPATCH_INC:%.*]]
				// CHECK1: omp.dispatch.inc:
				// CHECK1-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK1-NEXT: [[TMP17:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK1-NEXT: [[ADD5:%.*]] = add nsw i32 [[TMP16]], [[TMP17]]
				// CHECK1-NEXT: store i32 [[ADD5]], i32* [[DOTOMP_LB]], align 4
				// CHECK1-NEXT: [[TMP18:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: [[TMP19:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK1-NEXT: [[ADD6:%.*]] = add nsw i32 [[TMP18]], [[TMP19]]
				// CHECK1-NEXT: store i32 [[ADD6]], i32* [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: br label [[OMP_DISPATCH_COND]]
				// CHECK1: omp.dispatch.end:
				// CHECK1-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB1]], i32 [[TMP3]])
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined___wrapper
				// CHECK1-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK1-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				// CHECK1-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				// CHECK1-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8
				// CHECK1-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0
				// CHECK1-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to [10 x i32]**
				// CHECK1-NEXT: [[TMP5:%.]] = load [10 x i32], [10 x i32]** [[TMP4]], align 8
				// CHECK1-NEXT: [[TMP6:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 1
				// CHECK1-NEXT: [[TMP7:%.]] = bitcast i8* [[TMP6]] to i32**
				// CHECK1-NEXT: [[TMP8:%.]] = load i32, i32** [[TMP7]], align 8
				// CHECK1-NEXT: call void @__omp_outlined__(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], [10 x i32]* [[TMP5]], i32* [[TMP8]]) #[[ATTR3]]
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l14_worker
				// CHECK2-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[WORK_FN:%.]] = alloca i8, align 8
				// CHECK2-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK2-NEXT: store i8* null, i8** [[WORK_FN]], align 8
				// CHECK2-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK2: .await.work:
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK2-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK2-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK2-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK2-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK2: .select.workers:
				// CHECK2-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK2-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK2: .execute.parallel:
				// CHECK2-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2:[0-9]+]])
				// CHECK2-NEXT: [[TMP5:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK2-NEXT: [[WORK_MATCH:%.]] = icmp eq i8 [[TMP5]], bitcast (void (i16, i32)* @__omp_outlined___wrapper to i8*)
				// CHECK2-NEXT: br i1 [[WORK_MATCH]], label [[DOTEXECUTE_FN:%.]], label [[DOTCHECK_NEXT:%.]]
				// CHECK2: .execute.fn:
				// CHECK2-NEXT: call void @__omp_outlined___wrapper(i16 0, i32 [[TMP4]]) #[[ATTR3:[0-9]+]]
				// CHECK2-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK2: .check.next:
				// CHECK2-NEXT: [[TMP6:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK2-NEXT: call void [[TMP6]](i16 0, i32 [[TMP4]])
				// CHECK2-NEXT: br label [[DOTTERMINATE_PARALLEL]]
				// CHECK2: .terminate.parallel:
				// CHECK2-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK2-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK2: .barrier.parallel:
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l14
				// CHECK2-SAME: (i64 [[N:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.*]]) #[[ATTR1:[0-9]+]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[N_ADDR:%.*]] = alloca i64, align 8
				// CHECK2-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 8
				// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [2 x i8], align 8
				// CHECK2-NEXT: store i64 [[N]], i64* [[N_ADDR]], align 8
				// CHECK2-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 8
				// CHECK2-NEXT: [[CONV:%.]] = bitcast i64 [[N_ADDR]] to i32*
				// CHECK2-NEXT: [[TMP0:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 8
				// CHECK2-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK2-NEXT: [[TMP1:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK2-NEXT: br i1 [[TMP1]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK2: .worker:
				// CHECK2-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l14_worker() #[[ATTR3]]
				// CHECK2-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK2: .mastercheck:
				// CHECK2-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK2-NEXT: [[TMP3:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK2-NEXT: [[TMP4:%.*]] = xor i32 [[TMP2]], -1
				// CHECK2-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP3]], [[TMP4]]
				// CHECK2-NEXT: [[TMP5:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK2-NEXT: br i1 [[TMP5]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK2: .master:
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK2-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK2-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK2-NEXT: [[TMP6:%.]] = call i8 @__kmpc_data_sharing_push_stack(i64 4, i16 1)
				// CHECK2-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to %struct._globalized_locals_ty*
				// CHECK2-NEXT: [[D:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP7]], i32 0, i32 0
				// CHECK2-NEXT: [[TMP8:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				// CHECK2-NEXT: [[TMP9:%.]] = load i32, i32 [[CONV]], align 8
				// CHECK2-NEXT: store i32 [[TMP9]], i32* [[D]], align 4
				// CHECK2-NEXT: [[TMP10:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK2-NEXT: [[TMP11:%.]] = bitcast [10 x i32] [[TMP0]] to i8*
				// CHECK2-NEXT: store i8* [[TMP11]], i8** [[TMP10]], align 8
				// CHECK2-NEXT: [[TMP12:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1
				// CHECK2-NEXT: [[TMP13:%.]] = bitcast i32 [[D]] to i8*
				// CHECK2-NEXT: store i8* [[TMP13]], i8** [[TMP12]], align 8
				// CHECK2-NEXT: [[TMP14:%.]] = bitcast [2 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK2-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP8]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, [10 x i32], i32)* @__omp_outlined__ to i8), i8 bitcast (void (i16, i32)* @__omp_outlined___wrapper to i8), i8* [[TMP14]], i64 2)
				// CHECK2-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[TMP0]], i64 0, i64 3
				// CHECK2-NEXT: [[TMP15:%.]] = load i32, i32 [[ARRAYIDX]], align 4
				// CHECK2-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP15]], 1
				// CHECK2-NEXT: store i32 [[ADD]], i32* [[ARRAYIDX]], align 4
				// CHECK2-NEXT: call void @__kmpc_data_sharing_pop_stack(i8* [[TMP6]])
				// CHECK2-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK2: .termination.notifier:
				// CHECK2-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: br label [[DOTEXIT]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.]], i32 nonnull align 4 dereferenceable(4) [[D:%.*]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 8
				// CHECK2-NEXT: [[D_ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[TMP:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[I:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK2-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 8
				// CHECK2-NEXT: store i32* [[D]], i32** [[D_ADDR]], align 8
				// CHECK2-NEXT: [[TMP0:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 8
				// CHECK2-NEXT: [[TMP1:%.]] = load i32, i32** [[D_ADDR]], align 8
				// CHECK2-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4
				// CHECK2-NEXT: store i32 9, i32* [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
				// CHECK2-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
				// CHECK2-NEXT: [[TMP2:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK2-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP2]], align 4
				// CHECK2-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB1:[0-9]+]], i32 [[TMP3]], i32 33, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 1)
				// CHECK2-NEXT: br label [[OMP_DISPATCH_COND:%.*]]
				// CHECK2: omp.dispatch.cond:
				// CHECK2-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: [[CMP:%.*]] = icmp sgt i32 [[TMP4]], 9
				// CHECK2-NEXT: br i1 [[CMP]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]]
				// CHECK2: cond.true:
				// CHECK2-NEXT: br label [[COND_END:%.*]]
				// CHECK2: cond.false:
				// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: br label [[COND_END]]
				// CHECK2: cond.end:
				// CHECK2-NEXT: [[COND:%.*]] = phi i32 [ 9, [[COND_TRUE]] ], [ [[TMP5]], [[COND_FALSE]] ]
				// CHECK2-NEXT: store i32 [[COND]], i32* [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: [[TMP6:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK2-NEXT: store i32 [[TMP6]], i32* [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: [[TMP7:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: [[CMP1:%.*]] = icmp sle i32 [[TMP7]], [[TMP8]]
				// CHECK2-NEXT: br i1 [[CMP1]], label [[OMP_DISPATCH_BODY:%.]], label [[OMP_DISPATCH_END:%.]]
				// CHECK2: omp.dispatch.body:
				// CHECK2-NEXT: br label [[OMP_INNER_FOR_COND:%.*]]
				// CHECK2: omp.inner.for.cond:
				// CHECK2-NEXT: [[TMP9:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: [[CMP2:%.*]] = icmp sle i32 [[TMP9]], [[TMP10]]
				// CHECK2-NEXT: br i1 [[CMP2]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]]
				// CHECK2: omp.inner.for.body:
				// CHECK2-NEXT: [[TMP11:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: [[MUL:%.*]] = mul nsw i32 [[TMP11]], 1
				// CHECK2-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]
				// CHECK2-NEXT: store i32 [[ADD]], i32* [[I]], align 4
				// CHECK2-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP1]], align 4
				// CHECK2-NEXT: [[TMP13:%.]] = load i32, i32 [[I]], align 4
				// CHECK2-NEXT: [[IDXPROM:%.*]] = sext i32 [[TMP13]] to i64
				// CHECK2-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[TMP0]], i64 0, i64 [[IDXPROM]]
				// CHECK2-NEXT: [[TMP14:%.]] = load i32, i32 [[ARRAYIDX]], align 4
				// CHECK2-NEXT: [[ADD3:%.*]] = add nsw i32 [[TMP14]], [[TMP12]]
				// CHECK2-NEXT: store i32 [[ADD3]], i32* [[ARRAYIDX]], align 4
				// CHECK2-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]
				// CHECK2: omp.body.continue:
				// CHECK2-NEXT: br label [[OMP_INNER_FOR_INC:%.*]]
				// CHECK2: omp.inner.for.inc:
				// CHECK2-NEXT: [[TMP15:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: [[ADD4:%.*]] = add nsw i32 [[TMP15]], 1
				// CHECK2-NEXT: store i32 [[ADD4]], i32* [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: br label [[OMP_INNER_FOR_COND]]
				// CHECK2: omp.inner.for.end:
				// CHECK2-NEXT: br label [[OMP_DISPATCH_INC:%.*]]
				// CHECK2: omp.dispatch.inc:
				// CHECK2-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK2-NEXT: [[TMP17:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK2-NEXT: [[ADD5:%.*]] = add nsw i32 [[TMP16]], [[TMP17]]
				// CHECK2-NEXT: store i32 [[ADD5]], i32* [[DOTOMP_LB]], align 4
				// CHECK2-NEXT: [[TMP18:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: [[TMP19:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK2-NEXT: [[ADD6:%.*]] = add nsw i32 [[TMP18]], [[TMP19]]
				// CHECK2-NEXT: store i32 [[ADD6]], i32* [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: br label [[OMP_DISPATCH_COND]]
				// CHECK2: omp.dispatch.end:
				// CHECK2-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB1]], i32 [[TMP3]])
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined___wrapper
				// CHECK2-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK2-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				// CHECK2-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				// CHECK2-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8
				// CHECK2-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0
				// CHECK2-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to [10 x i32]**
				// CHECK2-NEXT: [[TMP5:%.]] = load [10 x i32], [10 x i32]** [[TMP4]], align 8
				// CHECK2-NEXT: [[TMP6:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 1
				// CHECK2-NEXT: [[TMP7:%.]] = bitcast i8* [[TMP6]] to i32**
				// CHECK2-NEXT: [[TMP8:%.]] = load i32, i32** [[TMP7]], align 8
				// CHECK2-NEXT: call void @__omp_outlined__(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], [10 x i32]* [[TMP5]], i32* [[TMP8]]) #[[ATTR3]]
				// CHECK2-NEXT: ret void
				//

clang/test/OpenMP/nvptx_target_codegen.cpp

This file has a very large number of changes (3,079 lines). Show File Contents

clang/test/OpenMP/nvptx_target_parallel_codegen.cpp

				// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py UTC_ARGS: --function-signature --include-generated-funcs --replace-function-regex "__omp_offloading_[0-9a-z]+_[0-9a-z]+"
	// Test target codegen - host bc file has to be created first.			// Test target codegen - host bc file has to be created first.
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK1
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK2
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK3

	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK4
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK5
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK6

	// expected-no-diagnostics			// expected-no-diagnostics
	#ifndef HEADER			#ifndef HEADER
	#define HEADER			#define HEADER

	// Check that the execution mode of all 2 target regions on the gpu is set to SPMD Mode.
	// CHECK-DAG: {{@__omp_offloading_.+l33}}_exec_mode = weak constant i8 0
	// CHECK-DAG: {{@__omp_offloading_.+l38}}_exec_mode = weak constant i8 0

	template<typename tx>			template<typename tx>
	tx ftemplate(int n) {			tx ftemplate(int n) {
	tx a = 0;			tx a = 0;
	short aa = 0;			short aa = 0;
	tx b[10];			tx b[10];

	#pragma omp target parallel if(target: 0)			#pragma omp target parallel if(target: 0)
	{			{
	Show All 18 Lines
	int bar(int n){			int bar(int n){
	int a = 0;			int a = 0;

	a += ftemplate<int>(n);			a += ftemplate<int>(n);

	return a;			return a;
	}			}

	// CHECK-NOT: define {{.*}}void {{@__omp_offloading_.+template.+l17}}

	// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l33}}(
	// CHECK: [[AA_ADDR:%.+]] = alloca i16*, align
	// CHECK-NOT: call i8* @__kmpc_data_sharing_push_stack
	// CHECK: store i16* {{%.+}}, i16** [[AA_ADDR]], align
	// CHECK: [[AA:%.+]] = load i16, i16* [[AA_ADDR]], align
	// CHECK: [[THREAD_LIMIT:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
	// CHECK: call void @__kmpc_spmd_kernel_init(i32 [[THREAD_LIMIT]], i16 1)
	// CHECK: call void @__kmpc_data_sharing_init_stack_spmd
	// CHECK: br label {{%?}}[[EXEC:.+]]
	//
	// CHECK: [[EXEC]]
	// CHECK: {{call\|invoke}} void [[OP1:@.+]]({{.+}}, {{.+}}, i16* [[AA]])
	// CHECK: br label {{%?}}[[DONE:.+]]
	//
	// CHECK: [[DONE]]
	// CHECK: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
	// CHECK: br label {{%?}}[[EXIT:.+]]
	//
	// CHECK: [[EXIT]]
	// CHECK: ret void
	// CHECK: }

	// CHECK: define internal void [[OP1]](i32* noalias %.global_tid., i32* noalias %.bound_tid., i16* {{[^%]*}}[[ARG:%.+]])
	// CHECK: = alloca i32*, align
	// CHECK: = alloca i32*, align
	// CHECK: [[AA_ADDR:%.+]] = alloca i16*, align
	// CHECK: store i16* [[ARG]], i16** [[AA_ADDR]], align
	// CHECK: [[AA:%.+]] = load i16, i16* [[AA_ADDR]], align
	// CHECK: [[VAL:%.+]] = load i16, i16* [[AA]], align
	// CHECK: store i16 {{%.+}}, i16* [[AA]], align
	// CHECK: ret void
	// CHECK: }

	// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l38}}(
	// CHECK: [[A_ADDR:%.+]] = alloca i32*, align
	// CHECK: [[AA_ADDR:%.+]] = alloca i16*, align
	// CHECK: [[B_ADDR:%.+]] = alloca [10 x i32]*, align
	// CHECK: store i32* {{%.+}}, i32** [[A_ADDR]], align
	// CHECK: store i16* {{%.+}}, i16** [[AA_ADDR]], align
	// CHECK: store [10 x i32]* {{%.+}}, [10 x i32]** [[B_ADDR]], align
	// CHECK: [[A:%.+]] = load i32, i32* [[A_ADDR]], align
	// CHECK: [[AA:%.+]] = load i16, i16* [[AA_ADDR]], align
	// CHECK: [[B:%.+]] = load [10 x i32], [10 x i32]* [[B_ADDR]], align
	// CHECK: [[THREAD_LIMIT:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
	// CHECK: call void @__kmpc_spmd_kernel_init(i32 [[THREAD_LIMIT]], i16 1)
	// CHECK: call void @__kmpc_data_sharing_init_stack_spmd
	// CHECK: br label {{%?}}[[EXEC:.+]]
	//
	// CHECK: [[EXEC]]
	// CHECK: {{call\|invoke}} void [[OP2:@.+]]({{.+}}, {{.+}}, i32* [[A]], i16* [[AA]], [10 x i32]* [[B]])
	// CHECK: br label {{%?}}[[DONE:.+]]
	//
	// CHECK: [[DONE]]
	// CHECK: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
	// CHECK: br label {{%?}}[[EXIT:.+]]
	//
	// CHECK: [[EXIT]]
	// CHECK: ret void
	// CHECK: }

	// CHECK: define internal void [[OP2]](i32* noalias %.global_tid., i32* noalias %.bound_tid., i32* {{[^%]}}[[ARG1:%.+]], i16 {{[^%]}}[[ARG2:%.+]], [10 x i32] {{[^%]*}}[[ARG3:%.+]])
	// CHECK: = alloca i32*, align
	// CHECK: = alloca i32*, align
	// CHECK: [[A_ADDR:%.+]] = alloca i32*, align
	// CHECK: [[AA_ADDR:%.+]] = alloca i16*, align
	// CHECK: [[B_ADDR:%.+]] = alloca [10 x i32]*, align
	// CHECK: store i32* [[ARG1]], i32** [[A_ADDR]], align
	// CHECK: store i16* [[ARG2]], i16** [[AA_ADDR]], align
	// CHECK: store [10 x i32]* [[ARG3]], [10 x i32]** [[B_ADDR]], align
	// CHECK: [[A:%.+]] = load i32, i32* [[A_ADDR]], align
	// CHECK: [[AA:%.+]] = load i16, i16* [[AA_ADDR]], align
	// CHECK: [[B:%.+]] = load [10 x i32], [10 x i32]* [[B_ADDR]], align
	// CHECK: store i32 {{%.+}}, i32* [[A]], align
	// CHECK: store i16 {{%.+}}, i16* [[AA]], align
	// CHECK: [[ELT:%.+]] = getelementptr inbounds [10 x i32], [10 x i32]* [[B]],
	// CHECK: store i32 {{%.+}}, i32* [[ELT]], align
	// CHECK: ret void
	// CHECK: }
	#endif			#endif
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l30
				// CHECK1-SAME: (i16* nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0:[0-9]+]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[AA_ADDR:%.]] = alloca i16, align 8
				// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
				// CHECK1-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 8
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK1-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK1-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK1: .execute:
				// CHECK1-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK1-NEXT: [[TMP2:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK1-NEXT: [[TMP3:%.]] = bitcast i16 [[TMP0]] to i8*
				// CHECK1-NEXT: store i8* [[TMP3]], i8** [[TMP2]], align 8
				// CHECK1-NEXT: [[TMP4:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK1-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP1]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i16) @__omp_outlined__ to i8), i8 null, i8** [[TMP4]], i64 1)
				// CHECK1-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK1: .omp.deinit:
				// CHECK1-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK1-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[AA_ADDR:%.]] = alloca i16, align 8
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = load i16, i16 [[TMP0]], align 2
				// CHECK1-NEXT: [[CONV:%.*]] = sext i16 [[TMP1]] to i32
				// CHECK1-NEXT: [[ADD:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK1-NEXT: [[CONV1:%.*]] = trunc i32 [[ADD]] to i16
				// CHECK1-NEXT: store i16 [[CONV1]], i16* [[TMP0]], align 2
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l35
				// CHECK1-SAME: (i32* nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.*]]) #[[ATTR0]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[AA_ADDR:%.]] = alloca i16, align 8
				// CHECK1-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 8
				// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 8
				// CHECK1-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 8
				// CHECK1-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 8
				// CHECK1-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 8
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK1-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK1-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK1: .execute:
				// CHECK1-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK1-NEXT: [[TMP4:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK1-NEXT: [[TMP5:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK1-NEXT: store i8* [[TMP5]], i8** [[TMP4]], align 8
				// CHECK1-NEXT: [[TMP6:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1
				// CHECK1-NEXT: [[TMP7:%.]] = bitcast i16 [[TMP1]] to i8*
				// CHECK1-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 8
				// CHECK1-NEXT: [[TMP8:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 2
				// CHECK1-NEXT: [[TMP9:%.]] = bitcast [10 x i32] [[TMP2]] to i8*
				// CHECK1-NEXT: store i8* [[TMP9]], i8** [[TMP8]], align 8
				// CHECK1-NEXT: [[TMP10:%.]] = bitcast [3 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK1-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP3]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i16, [10 x i32]) @__omp_outlined__1 to i8), i8 null, i8** [[TMP10]], i64 3)
				// CHECK1-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK1: .omp.deinit:
				// CHECK1-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK1-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.*]]) #[[ATTR0]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[AA_ADDR:%.]] = alloca i16, align 8
				// CHECK1-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 8
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 8
				// CHECK1-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 8
				// CHECK1-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 8
				// CHECK1-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK1-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP3]], 1
				// CHECK1-NEXT: store i32 [[ADD]], i32* [[TMP0]], align 4
				// CHECK1-NEXT: [[TMP4:%.]] = load i16, i16 [[TMP1]], align 2
				// CHECK1-NEXT: [[CONV:%.*]] = sext i16 [[TMP4]] to i32
				// CHECK1-NEXT: [[ADD1:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK1-NEXT: [[CONV2:%.*]] = trunc i32 [[ADD1]] to i16
				// CHECK1-NEXT: store i16 [[CONV2]], i16* [[TMP1]], align 2
				// CHECK1-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[TMP2]], i64 0, i64 2
				// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32 [[ARRAYIDX]], align 4
				// CHECK1-NEXT: [[ADD3:%.*]] = add nsw i32 [[TMP5]], 1
				// CHECK1-NEXT: store i32 [[ADD3]], i32* [[ARRAYIDX]], align 4
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l30
				// CHECK2-SAME: (i16* nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0:[0-9]+]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
				// CHECK2-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK2-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK2-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK2-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK2: .execute:
				// CHECK2-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK2-NEXT: [[TMP2:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK2-NEXT: [[TMP3:%.]] = bitcast i16 [[TMP0]] to i8*
				// CHECK2-NEXT: store i8* [[TMP3]], i8** [[TMP2]], align 4
				// CHECK2-NEXT: [[TMP4:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK2-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP1]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i16) @__omp_outlined__ to i8), i8 null, i8** [[TMP4]], i32 1)
				// CHECK2-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK2: .omp.deinit:
				// CHECK2-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK2-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK2-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK2-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK2-NEXT: [[TMP1:%.]] = load i16, i16 [[TMP0]], align 2
				// CHECK2-NEXT: [[CONV:%.*]] = sext i16 [[TMP1]] to i32
				// CHECK2-NEXT: [[ADD:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK2-NEXT: [[CONV1:%.*]] = trunc i32 [[ADD]] to i16
				// CHECK2-NEXT: store i16 [[CONV1]], i16* [[TMP0]], align 2
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l35
				// CHECK2-SAME: (i32* nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.*]]) #[[ATTR0]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK2-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 4
				// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 4
				// CHECK2-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK2-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK2-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 4
				// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK2-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK2-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 4
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK2-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK2-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK2: .execute:
				// CHECK2-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK2-NEXT: [[TMP4:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK2-NEXT: [[TMP5:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK2-NEXT: store i8* [[TMP5]], i8** [[TMP4]], align 4
				// CHECK2-NEXT: [[TMP6:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 1
				// CHECK2-NEXT: [[TMP7:%.]] = bitcast i16 [[TMP1]] to i8*
				// CHECK2-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 4
				// CHECK2-NEXT: [[TMP8:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 2
				// CHECK2-NEXT: [[TMP9:%.]] = bitcast [10 x i32] [[TMP2]] to i8*
				// CHECK2-NEXT: store i8* [[TMP9]], i8** [[TMP8]], align 4
				// CHECK2-NEXT: [[TMP10:%.]] = bitcast [3 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK2-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP3]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i16, [10 x i32]) @__omp_outlined__1 to i8), i8 null, i8** [[TMP10]], i32 3)
				// CHECK2-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK2: .omp.deinit:
				// CHECK2-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK2-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.*]]) #[[ATTR0]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK2-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 4
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK2-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK2-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 4
				// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK2-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK2-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 4
				// CHECK2-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK2-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP3]], 1
				// CHECK2-NEXT: store i32 [[ADD]], i32* [[TMP0]], align 4
				// CHECK2-NEXT: [[TMP4:%.]] = load i16, i16 [[TMP1]], align 2
				// CHECK2-NEXT: [[CONV:%.*]] = sext i16 [[TMP4]] to i32
				// CHECK2-NEXT: [[ADD1:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK2-NEXT: [[CONV2:%.*]] = trunc i32 [[ADD1]] to i16
				// CHECK2-NEXT: store i16 [[CONV2]], i16* [[TMP1]], align 2
				// CHECK2-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[TMP2]], i32 0, i32 2
				// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32 [[ARRAYIDX]], align 4
				// CHECK2-NEXT: [[ADD3:%.*]] = add nsw i32 [[TMP5]], 1
				// CHECK2-NEXT: store i32 [[ADD3]], i32* [[ARRAYIDX]], align 4
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l30
				// CHECK3-SAME: (i16* nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0:[0-9]+]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
				// CHECK3-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK3-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK3-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK3: .execute:
				// CHECK3-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK3-NEXT: [[TMP2:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK3-NEXT: [[TMP3:%.]] = bitcast i16 [[TMP0]] to i8*
				// CHECK3-NEXT: store i8* [[TMP3]], i8** [[TMP2]], align 4
				// CHECK3-NEXT: [[TMP4:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK3-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP1]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i16) @__omp_outlined__ to i8), i8 null, i8** [[TMP4]], i32 1)
				// CHECK3-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK3: .omp.deinit:
				// CHECK3-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK3-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK3-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK3-NEXT: [[TMP1:%.]] = load i16, i16 [[TMP0]], align 2
				// CHECK3-NEXT: [[CONV:%.*]] = sext i16 [[TMP1]] to i32
				// CHECK3-NEXT: [[ADD:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK3-NEXT: [[CONV1:%.*]] = trunc i32 [[ADD]] to i16
				// CHECK3-NEXT: store i16 [[CONV1]], i16* [[TMP0]], align 2
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l35
				// CHECK3-SAME: (i32* nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.*]]) #[[ATTR0]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK3-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 4
				// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 4
				// CHECK3-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK3-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK3-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK3-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK3-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 4
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK3-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK3-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK3: .execute:
				// CHECK3-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK3-NEXT: [[TMP4:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK3-NEXT: [[TMP5:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK3-NEXT: store i8* [[TMP5]], i8** [[TMP4]], align 4
				// CHECK3-NEXT: [[TMP6:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 1
				// CHECK3-NEXT: [[TMP7:%.]] = bitcast i16 [[TMP1]] to i8*
				// CHECK3-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 4
				// CHECK3-NEXT: [[TMP8:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 2
				// CHECK3-NEXT: [[TMP9:%.]] = bitcast [10 x i32] [[TMP2]] to i8*
				// CHECK3-NEXT: store i8* [[TMP9]], i8** [[TMP8]], align 4
				// CHECK3-NEXT: [[TMP10:%.]] = bitcast [3 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK3-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP3]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i16, [10 x i32]) @__omp_outlined__1 to i8), i8 null, i8** [[TMP10]], i32 3)
				// CHECK3-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK3: .omp.deinit:
				// CHECK3-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK3-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.*]]) #[[ATTR0]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK3-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 4
				// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK3-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK3-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK3-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK3-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 4
				// CHECK3-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK3-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP3]], 1
				// CHECK3-NEXT: store i32 [[ADD]], i32* [[TMP0]], align 4
				// CHECK3-NEXT: [[TMP4:%.]] = load i16, i16 [[TMP1]], align 2
				// CHECK3-NEXT: [[CONV:%.*]] = sext i16 [[TMP4]] to i32
				// CHECK3-NEXT: [[ADD1:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK3-NEXT: [[CONV2:%.*]] = trunc i32 [[ADD1]] to i16
				// CHECK3-NEXT: store i16 [[CONV2]], i16* [[TMP1]], align 2
				// CHECK3-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[TMP2]], i32 0, i32 2
				// CHECK3-NEXT: [[TMP5:%.]] = load i32, i32 [[ARRAYIDX]], align 4
				// CHECK3-NEXT: [[ADD3:%.*]] = add nsw i32 [[TMP5]], 1
				// CHECK3-NEXT: store i32 [[ADD3]], i32* [[ARRAYIDX]], align 4
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l30
				// CHECK4-SAME: (i16* nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0:[0-9]+]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[AA_ADDR:%.]] = alloca i16, align 8
				// CHECK4-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
				// CHECK4-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 8
				// CHECK4-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 8
				// CHECK4-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK4-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK4-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK4-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK4: .execute:
				// CHECK4-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK4-NEXT: [[TMP2:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK4-NEXT: [[TMP3:%.]] = bitcast i16 [[TMP0]] to i8*
				// CHECK4-NEXT: store i8* [[TMP3]], i8** [[TMP2]], align 8
				// CHECK4-NEXT: [[TMP4:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK4-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP1]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i16) @__omp_outlined__ to i8), i8 null, i8** [[TMP4]], i64 1)
				// CHECK4-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK4: .omp.deinit:
				// CHECK4-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK4-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK4: .exit:
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK4-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[AA_ADDR:%.]] = alloca i16, align 8
				// CHECK4-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK4-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK4-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 8
				// CHECK4-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 8
				// CHECK4-NEXT: [[TMP1:%.]] = load i16, i16 [[TMP0]], align 2
				// CHECK4-NEXT: [[CONV:%.*]] = sext i16 [[TMP1]] to i32
				// CHECK4-NEXT: [[ADD:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK4-NEXT: [[CONV1:%.*]] = trunc i32 [[ADD]] to i16
				// CHECK4-NEXT: store i16 [[CONV1]], i16* [[TMP0]], align 2
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l35
				// CHECK4-SAME: (i32* nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.*]]) #[[ATTR0]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[AA_ADDR:%.]] = alloca i16, align 8
				// CHECK4-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 8
				// CHECK4-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 8
				// CHECK4-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK4-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 8
				// CHECK4-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 8
				// CHECK4-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK4-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 8
				// CHECK4-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 8
				// CHECK4-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK4-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK4-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK4-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK4: .execute:
				// CHECK4-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK4-NEXT: [[TMP4:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK4-NEXT: [[TMP5:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK4-NEXT: store i8* [[TMP5]], i8** [[TMP4]], align 8
				// CHECK4-NEXT: [[TMP6:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1
				// CHECK4-NEXT: [[TMP7:%.]] = bitcast i16 [[TMP1]] to i8*
				// CHECK4-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 8
				// CHECK4-NEXT: [[TMP8:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 2
				// CHECK4-NEXT: [[TMP9:%.]] = bitcast [10 x i32] [[TMP2]] to i8*
				// CHECK4-NEXT: store i8* [[TMP9]], i8** [[TMP8]], align 8
				// CHECK4-NEXT: [[TMP10:%.]] = bitcast [3 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK4-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP3]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i16, [10 x i32]) @__omp_outlined__1 to i8), i8 null, i8** [[TMP10]], i64 3)
				// CHECK4-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK4: .omp.deinit:
				// CHECK4-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK4-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK4: .exit:
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK4-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.*]]) #[[ATTR0]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[AA_ADDR:%.]] = alloca i16, align 8
				// CHECK4-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 8
				// CHECK4-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK4-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK4-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK4-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 8
				// CHECK4-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 8
				// CHECK4-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK4-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 8
				// CHECK4-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 8
				// CHECK4-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK4-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP3]], 1
				// CHECK4-NEXT: store i32 [[ADD]], i32* [[TMP0]], align 4
				// CHECK4-NEXT: [[TMP4:%.]] = load i16, i16 [[TMP1]], align 2
				// CHECK4-NEXT: [[CONV:%.*]] = sext i16 [[TMP4]] to i32
				// CHECK4-NEXT: [[ADD1:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK4-NEXT: [[CONV2:%.*]] = trunc i32 [[ADD1]] to i16
				// CHECK4-NEXT: store i16 [[CONV2]], i16* [[TMP1]], align 2
				// CHECK4-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[TMP2]], i64 0, i64 2
				// CHECK4-NEXT: [[TMP5:%.]] = load i32, i32 [[ARRAYIDX]], align 4
				// CHECK4-NEXT: [[ADD3:%.*]] = add nsw i32 [[TMP5]], 1
				// CHECK4-NEXT: store i32 [[ADD3]], i32* [[ARRAYIDX]], align 4
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK5-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l30
				// CHECK5-SAME: (i16* nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0:[0-9]+]] {
				// CHECK5-NEXT: entry:
				// CHECK5-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK5-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
				// CHECK5-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK5-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK5-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK5-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK5-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK5-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK5: .execute:
				// CHECK5-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK5-NEXT: [[TMP2:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK5-NEXT: [[TMP3:%.]] = bitcast i16 [[TMP0]] to i8*
				// CHECK5-NEXT: store i8* [[TMP3]], i8** [[TMP2]], align 4
				// CHECK5-NEXT: [[TMP4:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK5-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP1]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i16) @__omp_outlined__ to i8), i8 null, i8** [[TMP4]], i32 1)
				// CHECK5-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK5: .omp.deinit:
				// CHECK5-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK5-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK5: .exit:
				// CHECK5-NEXT: ret void
				//
				//
				// CHECK5-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK5-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0]] {
				// CHECK5-NEXT: entry:
				// CHECK5-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK5-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK5-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK5-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK5-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK5-NEXT: [[TMP1:%.]] = load i16, i16 [[TMP0]], align 2
				// CHECK5-NEXT: [[CONV:%.*]] = sext i16 [[TMP1]] to i32
				// CHECK5-NEXT: [[ADD:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK5-NEXT: [[CONV1:%.*]] = trunc i32 [[ADD]] to i16
				// CHECK5-NEXT: store i16 [[CONV1]], i16* [[TMP0]], align 2
				// CHECK5-NEXT: ret void
				//
				//
				// CHECK5-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l35
				// CHECK5-SAME: (i32* nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.*]]) #[[ATTR0]] {
				// CHECK5-NEXT: entry:
				// CHECK5-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK5-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 4
				// CHECK5-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 4
				// CHECK5-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK5-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK5-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 4
				// CHECK5-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK5-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK5-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 4
				// CHECK5-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK5-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK5-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK5-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK5: .execute:
				// CHECK5-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK5-NEXT: [[TMP4:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK5-NEXT: [[TMP5:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK5-NEXT: store i8* [[TMP5]], i8** [[TMP4]], align 4
				// CHECK5-NEXT: [[TMP6:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 1
				// CHECK5-NEXT: [[TMP7:%.]] = bitcast i16 [[TMP1]] to i8*
				// CHECK5-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 4
				// CHECK5-NEXT: [[TMP8:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 2
				// CHECK5-NEXT: [[TMP9:%.]] = bitcast [10 x i32] [[TMP2]] to i8*
				// CHECK5-NEXT: store i8* [[TMP9]], i8** [[TMP8]], align 4
				// CHECK5-NEXT: [[TMP10:%.]] = bitcast [3 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK5-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP3]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i16, [10 x i32]) @__omp_outlined__1 to i8), i8 null, i8** [[TMP10]], i32 3)
				// CHECK5-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK5: .omp.deinit:
				// CHECK5-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK5-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK5: .exit:
				// CHECK5-NEXT: ret void
				//
				//
				// CHECK5-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK5-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.*]]) #[[ATTR0]] {
				// CHECK5-NEXT: entry:
				// CHECK5-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK5-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 4
				// CHECK5-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK5-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK5-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK5-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK5-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 4
				// CHECK5-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK5-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK5-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 4
				// CHECK5-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK5-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP3]], 1
				// CHECK5-NEXT: store i32 [[ADD]], i32* [[TMP0]], align 4
				// CHECK5-NEXT: [[TMP4:%.]] = load i16, i16 [[TMP1]], align 2
				// CHECK5-NEXT: [[CONV:%.*]] = sext i16 [[TMP4]] to i32
				// CHECK5-NEXT: [[ADD1:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK5-NEXT: [[CONV2:%.*]] = trunc i32 [[ADD1]] to i16
				// CHECK5-NEXT: store i16 [[CONV2]], i16* [[TMP1]], align 2
				// CHECK5-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[TMP2]], i32 0, i32 2
				// CHECK5-NEXT: [[TMP5:%.]] = load i32, i32 [[ARRAYIDX]], align 4
				// CHECK5-NEXT: [[ADD3:%.*]] = add nsw i32 [[TMP5]], 1
				// CHECK5-NEXT: store i32 [[ADD3]], i32* [[ARRAYIDX]], align 4
				// CHECK5-NEXT: ret void
				//
				//
				// CHECK6-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l30
				// CHECK6-SAME: (i16* nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0:[0-9]+]] {
				// CHECK6-NEXT: entry:
				// CHECK6-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK6-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
				// CHECK6-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK6-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK6-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK6-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK6-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK6-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK6: .execute:
				// CHECK6-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK6-NEXT: [[TMP2:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK6-NEXT: [[TMP3:%.]] = bitcast i16 [[TMP0]] to i8*
				// CHECK6-NEXT: store i8* [[TMP3]], i8** [[TMP2]], align 4
				// CHECK6-NEXT: [[TMP4:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK6-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP1]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i16) @__omp_outlined__ to i8), i8 null, i8** [[TMP4]], i32 1)
				// CHECK6-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK6: .omp.deinit:
				// CHECK6-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK6-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK6: .exit:
				// CHECK6-NEXT: ret void
				//
				//
				// CHECK6-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK6-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0]] {
				// CHECK6-NEXT: entry:
				// CHECK6-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK6-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK6-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK6-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK6-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK6-NEXT: [[TMP1:%.]] = load i16, i16 [[TMP0]], align 2
				// CHECK6-NEXT: [[CONV:%.*]] = sext i16 [[TMP1]] to i32
				// CHECK6-NEXT: [[ADD:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK6-NEXT: [[CONV1:%.*]] = trunc i32 [[ADD]] to i16
				// CHECK6-NEXT: store i16 [[CONV1]], i16* [[TMP0]], align 2
				// CHECK6-NEXT: ret void
				//
				//
				// CHECK6-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l35
				// CHECK6-SAME: (i32* nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.*]]) #[[ATTR0]] {
				// CHECK6-NEXT: entry:
				// CHECK6-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK6-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 4
				// CHECK6-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 4
				// CHECK6-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK6-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK6-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 4
				// CHECK6-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK6-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK6-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 4
				// CHECK6-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK6-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK6-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK6-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK6: .execute:
				// CHECK6-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK6-NEXT: [[TMP4:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK6-NEXT: [[TMP5:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK6-NEXT: store i8* [[TMP5]], i8** [[TMP4]], align 4
				// CHECK6-NEXT: [[TMP6:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 1
				// CHECK6-NEXT: [[TMP7:%.]] = bitcast i16 [[TMP1]] to i8*
				// CHECK6-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 4
				// CHECK6-NEXT: [[TMP8:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 2
				// CHECK6-NEXT: [[TMP9:%.]] = bitcast [10 x i32] [[TMP2]] to i8*
				// CHECK6-NEXT: store i8* [[TMP9]], i8** [[TMP8]], align 4
				// CHECK6-NEXT: [[TMP10:%.]] = bitcast [3 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK6-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP3]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i16, [10 x i32]) @__omp_outlined__1 to i8), i8 null, i8** [[TMP10]], i32 3)
				// CHECK6-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK6: .omp.deinit:
				// CHECK6-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK6-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK6: .exit:
				// CHECK6-NEXT: ret void
				//
				//
				// CHECK6-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK6-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.*]]) #[[ATTR0]] {
				// CHECK6-NEXT: entry:
				// CHECK6-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK6-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 4
				// CHECK6-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK6-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK6-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK6-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK6-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 4
				// CHECK6-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK6-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK6-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 4
				// CHECK6-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK6-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP3]], 1
				// CHECK6-NEXT: store i32 [[ADD]], i32* [[TMP0]], align 4
				// CHECK6-NEXT: [[TMP4:%.]] = load i16, i16 [[TMP1]], align 2
				// CHECK6-NEXT: [[CONV:%.*]] = sext i16 [[TMP4]] to i32
				// CHECK6-NEXT: [[ADD1:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK6-NEXT: [[CONV2:%.*]] = trunc i32 [[ADD1]] to i16
				// CHECK6-NEXT: store i16 [[CONV2]], i16* [[TMP1]], align 2
				// CHECK6-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[TMP2]], i32 0, i32 2
				// CHECK6-NEXT: [[TMP5:%.]] = load i32, i32 [[ARRAYIDX]], align 4
				// CHECK6-NEXT: [[ADD3:%.*]] = add nsw i32 [[TMP5]], 1
				// CHECK6-NEXT: store i32 [[ADD3]], i32* [[ARRAYIDX]], align 4
				// CHECK6-NEXT: ret void
				//

clang/test/OpenMP/nvptx_target_parallel_num_threads_codegen.cpp

				// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py UTC_ARGS: --function-signature --include-generated-funcs --replace-function-regex "__omp_offloading_[0-9a-z]+_[0-9a-z]+"
	// Test target codegen - host bc file has to be created first.			// Test target codegen - host bc file has to be created first.
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK1
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK2
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fopenmp-cuda-mode -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK3

	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK4
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK5
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -disable-llvm-optzns \| FileCheck %s --check-prefix CHECK6

	// expected-no-diagnostics			// expected-no-diagnostics
	#ifndef HEADER			#ifndef HEADER
	#define HEADER			#define HEADER

	// Check that the execution mode of all 2 target regions on the gpu is set to non-SPMD Mode.
	// CHECK-DAG: {{@__omp_offloading_.+l28}}_exec_mode = weak constant i8 0
	// CHECK-DAG: {{@__omp_offloading_.+l33}}_exec_mode = weak constant i8 0

	template<typename tx>			template<typename tx>
	tx ftemplate(int n) {			tx ftemplate(int n) {
	tx a = 0;			tx a = 0;
	short aa = 0;			short aa = 0;
	tx b[10];			tx b[10];

	#pragma omp target parallel map(tofrom: aa) num_threads(1024)			#pragma omp target parallel map(tofrom: aa) num_threads(1024)
	{			{
	Show All 13 Lines
	int bar(int n){			int bar(int n){
	int a = 0;			int a = 0;

	a += ftemplate<int>(n);			a += ftemplate<int>(n);

	return a;			return a;
	}			}

	// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l28}}(
	// CHECK: [[AA_ADDR:%.+]] = alloca i16*, align
	// CHECK: store i16* {{%.+}}, i16** [[AA_ADDR]], align
	// CHECK: [[AA:%.+]] = load i16, i16* [[AA_ADDR]], align
	// CHECK: [[THREAD_LIMIT:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
	// CHECK: call void @__kmpc_spmd_kernel_init(i32 [[THREAD_LIMIT]], i16 1)
	// CHECK: call void @__kmpc_data_sharing_init_stack_spmd()
	// CHECK: [[GTID:%.+]] = call i32 @__kmpc_global_thread_num(%struct.ident_t* @{{.+}})
	// CHECK: store i32 [[GTID]], i32* [[THREADID:%.+]],
	// CHECK: call void [[OUTLINED:@.+]](i32* [[THREADID]], i32* %{{.+}}, i16* [[AA]])
	// CHECK: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
	// CHECK: ret void
	// CHECK: }

	// CHECK: define internal void [[OUTLINED]](i32* noalias %{{.+}}, i32* noalias %{{.+}}, i16* {{[^%]*}}[[ARG:%.+]])
	// CHECK: = alloca i32*, align
	// CHECK: = alloca i32*, align
	// CHECK: [[AA_ADDR:%.+]] = alloca i16*, align
	// CHECK: store i16* [[ARG]], i16** [[AA_ADDR]], align
	// CHECK: [[AA:%.+]] = load i16, i16* [[AA_ADDR]], align
	// CHECK: [[VAL:%.+]] = load i16, i16* [[AA]], align
	// CHECK: store i16 {{%.+}}, i16* [[AA]], align
	// CHECK: ret void
	// CHECK: }

	// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l33}}(
	// CHECK: [[A_ADDR:%.+]] = alloca i32*, align
	// CHECK: [[AA_ADDR:%.+]] = alloca i16*, align
	// CHECK: [[B_ADDR:%.+]] = alloca [10 x i32]*, align
	// CHECK: store i32* {{%.+}}, i32** [[A_ADDR]], align
	// CHECK: store i16* {{%.+}}, i16** [[AA_ADDR]], align
	// CHECK: store [10 x i32]* {{%.+}}, [10 x i32]** [[B_ADDR]], align
	// CHECK: [[A:%.+]] = load i32, i32* [[A_ADDR]], align
	// CHECK: [[AA:%.+]] = load i16, i16* [[AA_ADDR]], align
	// CHECK: [[B:%.+]] = load [10 x i32], [10 x i32]* [[B_ADDR]], align
	// CHECK: [[THREAD_LIMIT:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
	// CHECK: call void @__kmpc_spmd_kernel_init(i32 [[THREAD_LIMIT]], i16 1)
	// CHECK: call void @__kmpc_data_sharing_init_stack_spmd()
	// CHECK: [[GTID:%.+]] = call i32 @__kmpc_global_thread_num(%struct.ident_t* @{{.+}})
	// CHECK: store i32 [[GTID]], i32* [[THREADID:%.+]],
	// CHECK: call void [[OUTLINED:@.+]](i32* [[THREADID]], i32* %{{.+}}, i32* [[A]], i16* [[AA]], [10 x i32]* [[B]])
	// CHECK: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
	// CHECK: ret void
	// CHECK: }

	// CHECK: define internal void [[OUTLINED]](i32* noalias %{{.+}}, i32* noalias %{{.+}}, i32* {{[^%]}}[[ARG1:%.+]], i16 {{[^%]}}[[ARG2:%.+]], [10 x i32] {{[^%]*}}[[ARG3:%.+]])
	// CHECK: = alloca i32*, align
	// CHECK: = alloca i32*, align
	// CHECK: [[A_ADDR:%.+]] = alloca i32*, align
	// CHECK: [[AA_ADDR:%.+]] = alloca i16*, align
	// CHECK: [[B_ADDR:%.+]] = alloca [10 x i32]*, align
	// CHECK: store i32* [[ARG1]], i32** [[A_ADDR]], align
	// CHECK: store i16* [[ARG2]], i16** [[AA_ADDR]], align
	// CHECK: store [10 x i32]* [[ARG3]], [10 x i32]** [[B_ADDR]], align
	// CHECK: [[A:%.+]] = load i32, i32* [[A_ADDR]], align
	// CHECK: [[AA:%.+]] = load i16, i16* [[AA_ADDR]], align
	// CHECK: [[B:%.+]] = load [10 x i32], [10 x i32]* [[B_ADDR]], align
	// CHECK: store i32 {{%.+}}, i32* [[A]], align
	// CHECK: store i16 {{%.+}}, i16* [[AA]], align
	// CHECK: [[ELT:%.+]] = getelementptr inbounds [10 x i32], [10 x i32]* [[B]],
	// CHECK: store i32 {{%.+}}, i32* [[ELT]], align
	// CHECK: ret void
	// CHECK: }
	#endif			#endif
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l25
				// CHECK1-SAME: (i16* nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0:[0-9]+]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[AA_ADDR:%.]] = alloca i16, align 8
				// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
				// CHECK1-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 8
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK1-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK1-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK1: .execute:
				// CHECK1-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK1-NEXT: [[TMP2:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK1-NEXT: [[TMP3:%.]] = bitcast i16 [[TMP0]] to i8*
				// CHECK1-NEXT: store i8* [[TMP3]], i8** [[TMP2]], align 8
				// CHECK1-NEXT: [[TMP4:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK1-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP1]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i16) @__omp_outlined__ to i8), i8 null, i8** [[TMP4]], i64 1)
				// CHECK1-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK1: .omp.deinit:
				// CHECK1-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK1-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[AA_ADDR:%.]] = alloca i16, align 8
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = load i16, i16 [[TMP0]], align 2
				// CHECK1-NEXT: [[CONV:%.*]] = sext i16 [[TMP1]] to i32
				// CHECK1-NEXT: [[ADD:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK1-NEXT: [[CONV1:%.*]] = trunc i32 [[ADD]] to i16
				// CHECK1-NEXT: store i16 [[CONV1]], i16* [[TMP0]], align 2
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l30
				// CHECK1-SAME: (i32* nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.]], i64 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[AA_ADDR:%.]] = alloca i16, align 8
				// CHECK1-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 8
				// CHECK1-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 8
				// CHECK1-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 8
				// CHECK1-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 8
				// CHECK1-NEXT: store i64 [[DOTCAPTURE_EXPR_]], i64* [[DOTCAPTURE_EXPR__ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 8
				// CHECK1-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 8
				// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[DOTCAPTURE_EXPR__ADDR]] to i32*
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK1-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK1-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK1: .execute:
				// CHECK1-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK1-NEXT: [[TMP4:%.]] = load i32, i32 [[CONV]], align 8
				// CHECK1-NEXT: [[TMP5:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK1-NEXT: [[TMP6:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK1-NEXT: store i8* [[TMP6]], i8** [[TMP5]], align 8
				// CHECK1-NEXT: [[TMP7:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1
				// CHECK1-NEXT: [[TMP8:%.]] = bitcast i16 [[TMP1]] to i8*
				// CHECK1-NEXT: store i8* [[TMP8]], i8** [[TMP7]], align 8
				// CHECK1-NEXT: [[TMP9:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 2
				// CHECK1-NEXT: [[TMP10:%.]] = bitcast [10 x i32] [[TMP2]] to i8*
				// CHECK1-NEXT: store i8* [[TMP10]], i8** [[TMP9]], align 8
				// CHECK1-NEXT: [[TMP11:%.]] = bitcast [3 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK1-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP3]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i16, [10 x i32]) @__omp_outlined__1 to i8), i8 null, i8** [[TMP11]], i64 3)
				// CHECK1-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK1: .omp.deinit:
				// CHECK1-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK1-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.*]]) #[[ATTR0]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[AA_ADDR:%.]] = alloca i16, align 8
				// CHECK1-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 8
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 8
				// CHECK1-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 8
				// CHECK1-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 8
				// CHECK1-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK1-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP3]], 1
				// CHECK1-NEXT: store i32 [[ADD]], i32* [[TMP0]], align 4
				// CHECK1-NEXT: [[TMP4:%.]] = load i16, i16 [[TMP1]], align 2
				// CHECK1-NEXT: [[CONV:%.*]] = sext i16 [[TMP4]] to i32
				// CHECK1-NEXT: [[ADD1:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK1-NEXT: [[CONV2:%.*]] = trunc i32 [[ADD1]] to i16
				// CHECK1-NEXT: store i16 [[CONV2]], i16* [[TMP1]], align 2
				// CHECK1-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[TMP2]], i64 0, i64 2
				// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32 [[ARRAYIDX]], align 4
				// CHECK1-NEXT: [[ADD3:%.*]] = add nsw i32 [[TMP5]], 1
				// CHECK1-NEXT: store i32 [[ADD3]], i32* [[ARRAYIDX]], align 4
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l25
				// CHECK2-SAME: (i16* nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0:[0-9]+]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
				// CHECK2-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK2-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK2-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK2-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK2: .execute:
				// CHECK2-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK2-NEXT: [[TMP2:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK2-NEXT: [[TMP3:%.]] = bitcast i16 [[TMP0]] to i8*
				// CHECK2-NEXT: store i8* [[TMP3]], i8** [[TMP2]], align 4
				// CHECK2-NEXT: [[TMP4:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK2-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP1]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i16) @__omp_outlined__ to i8), i8 null, i8** [[TMP4]], i32 1)
				// CHECK2-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK2: .omp.deinit:
				// CHECK2-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK2-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK2-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK2-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK2-NEXT: [[TMP1:%.]] = load i16, i16 [[TMP0]], align 2
				// CHECK2-NEXT: [[CONV:%.*]] = sext i16 [[TMP1]] to i32
				// CHECK2-NEXT: [[ADD:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK2-NEXT: [[CONV1:%.*]] = trunc i32 [[ADD]] to i16
				// CHECK2-NEXT: store i16 [[CONV1]], i16* [[TMP0]], align 2
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l30
				// CHECK2-SAME: (i32* nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.]], i32 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK2-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 4
				// CHECK2-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 4
				// CHECK2-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK2-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK2-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 4
				// CHECK2-NEXT: store i32 [[DOTCAPTURE_EXPR_]], i32* [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK2-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK2-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 4
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK2-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK2-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK2: .execute:
				// CHECK2-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK2-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK2-NEXT: [[TMP5:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK2-NEXT: [[TMP6:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK2-NEXT: store i8* [[TMP6]], i8** [[TMP5]], align 4
				// CHECK2-NEXT: [[TMP7:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 1
				// CHECK2-NEXT: [[TMP8:%.]] = bitcast i16 [[TMP1]] to i8*
				// CHECK2-NEXT: store i8* [[TMP8]], i8** [[TMP7]], align 4
				// CHECK2-NEXT: [[TMP9:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 2
				// CHECK2-NEXT: [[TMP10:%.]] = bitcast [10 x i32] [[TMP2]] to i8*
				// CHECK2-NEXT: store i8* [[TMP10]], i8** [[TMP9]], align 4
				// CHECK2-NEXT: [[TMP11:%.]] = bitcast [3 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK2-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP3]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i16, [10 x i32]) @__omp_outlined__1 to i8), i8 null, i8** [[TMP11]], i32 3)
				// CHECK2-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK2: .omp.deinit:
				// CHECK2-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK2-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.*]]) #[[ATTR0]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK2-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 4
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK2-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK2-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 4
				// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK2-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK2-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 4
				// CHECK2-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK2-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP3]], 1
				// CHECK2-NEXT: store i32 [[ADD]], i32* [[TMP0]], align 4
				// CHECK2-NEXT: [[TMP4:%.]] = load i16, i16 [[TMP1]], align 2
				// CHECK2-NEXT: [[CONV:%.*]] = sext i16 [[TMP4]] to i32
				// CHECK2-NEXT: [[ADD1:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK2-NEXT: [[CONV2:%.*]] = trunc i32 [[ADD1]] to i16
				// CHECK2-NEXT: store i16 [[CONV2]], i16* [[TMP1]], align 2
				// CHECK2-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[TMP2]], i32 0, i32 2
				// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32 [[ARRAYIDX]], align 4
				// CHECK2-NEXT: [[ADD3:%.*]] = add nsw i32 [[TMP5]], 1
				// CHECK2-NEXT: store i32 [[ADD3]], i32* [[ARRAYIDX]], align 4
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l25
				// CHECK3-SAME: (i16* nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0:[0-9]+]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
				// CHECK3-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK3-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK3-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK3: .execute:
				// CHECK3-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK3-NEXT: [[TMP2:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK3-NEXT: [[TMP3:%.]] = bitcast i16 [[TMP0]] to i8*
				// CHECK3-NEXT: store i8* [[TMP3]], i8** [[TMP2]], align 4
				// CHECK3-NEXT: [[TMP4:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK3-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP1]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i16) @__omp_outlined__ to i8), i8 null, i8** [[TMP4]], i32 1)
				// CHECK3-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK3: .omp.deinit:
				// CHECK3-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK3-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK3-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK3-NEXT: [[TMP1:%.]] = load i16, i16 [[TMP0]], align 2
				// CHECK3-NEXT: [[CONV:%.*]] = sext i16 [[TMP1]] to i32
				// CHECK3-NEXT: [[ADD:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK3-NEXT: [[CONV1:%.*]] = trunc i32 [[ADD]] to i16
				// CHECK3-NEXT: store i16 [[CONV1]], i16* [[TMP0]], align 2
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l30
				// CHECK3-SAME: (i32* nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.]], i32 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK3-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 4
				// CHECK3-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 4
				// CHECK3-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK3-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK3-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 4
				// CHECK3-NEXT: store i32 [[DOTCAPTURE_EXPR_]], i32* [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK3-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK3-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 4
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK3-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK3-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK3: .execute:
				// CHECK3-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK3-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK3-NEXT: [[TMP5:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK3-NEXT: [[TMP6:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK3-NEXT: store i8* [[TMP6]], i8** [[TMP5]], align 4
				// CHECK3-NEXT: [[TMP7:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 1
				// CHECK3-NEXT: [[TMP8:%.]] = bitcast i16 [[TMP1]] to i8*
				// CHECK3-NEXT: store i8* [[TMP8]], i8** [[TMP7]], align 4
				// CHECK3-NEXT: [[TMP9:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 2
				// CHECK3-NEXT: [[TMP10:%.]] = bitcast [10 x i32] [[TMP2]] to i8*
				// CHECK3-NEXT: store i8* [[TMP10]], i8** [[TMP9]], align 4
				// CHECK3-NEXT: [[TMP11:%.]] = bitcast [3 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK3-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP3]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i16, [10 x i32]) @__omp_outlined__1 to i8), i8 null, i8** [[TMP11]], i32 3)
				// CHECK3-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK3: .omp.deinit:
				// CHECK3-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK3-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.*]]) #[[ATTR0]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK3-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 4
				// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK3-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK3-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK3-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK3-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 4
				// CHECK3-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK3-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP3]], 1
				// CHECK3-NEXT: store i32 [[ADD]], i32* [[TMP0]], align 4
				// CHECK3-NEXT: [[TMP4:%.]] = load i16, i16 [[TMP1]], align 2
				// CHECK3-NEXT: [[CONV:%.*]] = sext i16 [[TMP4]] to i32
				// CHECK3-NEXT: [[ADD1:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK3-NEXT: [[CONV2:%.*]] = trunc i32 [[ADD1]] to i16
				// CHECK3-NEXT: store i16 [[CONV2]], i16* [[TMP1]], align 2
				// CHECK3-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[TMP2]], i32 0, i32 2
				// CHECK3-NEXT: [[TMP5:%.]] = load i32, i32 [[ARRAYIDX]], align 4
				// CHECK3-NEXT: [[ADD3:%.*]] = add nsw i32 [[TMP5]], 1
				// CHECK3-NEXT: store i32 [[ADD3]], i32* [[ARRAYIDX]], align 4
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l25
				// CHECK4-SAME: (i16* nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0:[0-9]+]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[AA_ADDR:%.]] = alloca i16, align 8
				// CHECK4-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
				// CHECK4-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 8
				// CHECK4-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 8
				// CHECK4-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK4-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK4-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK4-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK4: .execute:
				// CHECK4-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK4-NEXT: [[TMP2:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK4-NEXT: [[TMP3:%.]] = bitcast i16 [[TMP0]] to i8*
				// CHECK4-NEXT: store i8* [[TMP3]], i8** [[TMP2]], align 8
				// CHECK4-NEXT: [[TMP4:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK4-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP1]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i16) @__omp_outlined__ to i8), i8 null, i8** [[TMP4]], i64 1)
				// CHECK4-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK4: .omp.deinit:
				// CHECK4-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK4-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK4: .exit:
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK4-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[AA_ADDR:%.]] = alloca i16, align 8
				// CHECK4-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK4-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK4-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 8
				// CHECK4-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 8
				// CHECK4-NEXT: [[TMP1:%.]] = load i16, i16 [[TMP0]], align 2
				// CHECK4-NEXT: [[CONV:%.*]] = sext i16 [[TMP1]] to i32
				// CHECK4-NEXT: [[ADD:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK4-NEXT: [[CONV1:%.*]] = trunc i32 [[ADD]] to i16
				// CHECK4-NEXT: store i16 [[CONV1]], i16* [[TMP0]], align 2
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l30
				// CHECK4-SAME: (i32* nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.]], i64 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[AA_ADDR:%.]] = alloca i16, align 8
				// CHECK4-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 8
				// CHECK4-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i64, align 8
				// CHECK4-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 8
				// CHECK4-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK4-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 8
				// CHECK4-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 8
				// CHECK4-NEXT: store i64 [[DOTCAPTURE_EXPR_]], i64* [[DOTCAPTURE_EXPR__ADDR]], align 8
				// CHECK4-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK4-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 8
				// CHECK4-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 8
				// CHECK4-NEXT: [[CONV:%.]] = bitcast i64 [[DOTCAPTURE_EXPR__ADDR]] to i32*
				// CHECK4-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK4-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK4-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK4-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK4: .execute:
				// CHECK4-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK4-NEXT: [[TMP4:%.]] = load i32, i32 [[CONV]], align 8
				// CHECK4-NEXT: [[TMP5:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK4-NEXT: [[TMP6:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK4-NEXT: store i8* [[TMP6]], i8** [[TMP5]], align 8
				// CHECK4-NEXT: [[TMP7:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1
				// CHECK4-NEXT: [[TMP8:%.]] = bitcast i16 [[TMP1]] to i8*
				// CHECK4-NEXT: store i8* [[TMP8]], i8** [[TMP7]], align 8
				// CHECK4-NEXT: [[TMP9:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 2
				// CHECK4-NEXT: [[TMP10:%.]] = bitcast [10 x i32] [[TMP2]] to i8*
				// CHECK4-NEXT: store i8* [[TMP10]], i8** [[TMP9]], align 8
				// CHECK4-NEXT: [[TMP11:%.]] = bitcast [3 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK4-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP3]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i16, [10 x i32]) @__omp_outlined__1 to i8), i8 null, i8** [[TMP11]], i64 3)
				// CHECK4-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK4: .omp.deinit:
				// CHECK4-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK4-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK4: .exit:
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK4-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.*]]) #[[ATTR0]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[AA_ADDR:%.]] = alloca i16, align 8
				// CHECK4-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 8
				// CHECK4-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK4-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK4-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK4-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 8
				// CHECK4-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 8
				// CHECK4-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK4-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 8
				// CHECK4-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 8
				// CHECK4-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK4-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP3]], 1
				// CHECK4-NEXT: store i32 [[ADD]], i32* [[TMP0]], align 4
				// CHECK4-NEXT: [[TMP4:%.]] = load i16, i16 [[TMP1]], align 2
				// CHECK4-NEXT: [[CONV:%.*]] = sext i16 [[TMP4]] to i32
				// CHECK4-NEXT: [[ADD1:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK4-NEXT: [[CONV2:%.*]] = trunc i32 [[ADD1]] to i16
				// CHECK4-NEXT: store i16 [[CONV2]], i16* [[TMP1]], align 2
				// CHECK4-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[TMP2]], i64 0, i64 2
				// CHECK4-NEXT: [[TMP5:%.]] = load i32, i32 [[ARRAYIDX]], align 4
				// CHECK4-NEXT: [[ADD3:%.*]] = add nsw i32 [[TMP5]], 1
				// CHECK4-NEXT: store i32 [[ADD3]], i32* [[ARRAYIDX]], align 4
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK5-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l25
				// CHECK5-SAME: (i16* nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0:[0-9]+]] {
				// CHECK5-NEXT: entry:
				// CHECK5-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK5-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
				// CHECK5-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK5-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK5-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK5-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK5-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK5-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK5: .execute:
				// CHECK5-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK5-NEXT: [[TMP2:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK5-NEXT: [[TMP3:%.]] = bitcast i16 [[TMP0]] to i8*
				// CHECK5-NEXT: store i8* [[TMP3]], i8** [[TMP2]], align 4
				// CHECK5-NEXT: [[TMP4:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK5-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP1]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i16) @__omp_outlined__ to i8), i8 null, i8** [[TMP4]], i32 1)
				// CHECK5-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK5: .omp.deinit:
				// CHECK5-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK5-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK5: .exit:
				// CHECK5-NEXT: ret void
				//
				//
				// CHECK5-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK5-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0]] {
				// CHECK5-NEXT: entry:
				// CHECK5-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK5-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK5-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK5-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK5-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK5-NEXT: [[TMP1:%.]] = load i16, i16 [[TMP0]], align 2
				// CHECK5-NEXT: [[CONV:%.*]] = sext i16 [[TMP1]] to i32
				// CHECK5-NEXT: [[ADD:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK5-NEXT: [[CONV1:%.*]] = trunc i32 [[ADD]] to i16
				// CHECK5-NEXT: store i16 [[CONV1]], i16* [[TMP0]], align 2
				// CHECK5-NEXT: ret void
				//
				//
				// CHECK5-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l30
				// CHECK5-SAME: (i32* nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.]], i32 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0]] {
				// CHECK5-NEXT: entry:
				// CHECK5-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK5-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 4
				// CHECK5-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 4
				// CHECK5-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK5-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK5-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 4
				// CHECK5-NEXT: store i32 [[DOTCAPTURE_EXPR_]], i32* [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK5-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK5-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK5-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 4
				// CHECK5-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK5-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK5-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK5-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK5: .execute:
				// CHECK5-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK5-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK5-NEXT: [[TMP5:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK5-NEXT: [[TMP6:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK5-NEXT: store i8* [[TMP6]], i8** [[TMP5]], align 4
				// CHECK5-NEXT: [[TMP7:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 1
				// CHECK5-NEXT: [[TMP8:%.]] = bitcast i16 [[TMP1]] to i8*
				// CHECK5-NEXT: store i8* [[TMP8]], i8** [[TMP7]], align 4
				// CHECK5-NEXT: [[TMP9:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 2
				// CHECK5-NEXT: [[TMP10:%.]] = bitcast [10 x i32] [[TMP2]] to i8*
				// CHECK5-NEXT: store i8* [[TMP10]], i8** [[TMP9]], align 4
				// CHECK5-NEXT: [[TMP11:%.]] = bitcast [3 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK5-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP3]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i16, [10 x i32]) @__omp_outlined__1 to i8), i8 null, i8** [[TMP11]], i32 3)
				// CHECK5-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK5: .omp.deinit:
				// CHECK5-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK5-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK5: .exit:
				// CHECK5-NEXT: ret void
				//
				//
				// CHECK5-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK5-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.*]]) #[[ATTR0]] {
				// CHECK5-NEXT: entry:
				// CHECK5-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK5-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 4
				// CHECK5-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK5-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK5-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK5-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK5-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 4
				// CHECK5-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK5-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK5-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 4
				// CHECK5-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK5-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP3]], 1
				// CHECK5-NEXT: store i32 [[ADD]], i32* [[TMP0]], align 4
				// CHECK5-NEXT: [[TMP4:%.]] = load i16, i16 [[TMP1]], align 2
				// CHECK5-NEXT: [[CONV:%.*]] = sext i16 [[TMP4]] to i32
				// CHECK5-NEXT: [[ADD1:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK5-NEXT: [[CONV2:%.*]] = trunc i32 [[ADD1]] to i16
				// CHECK5-NEXT: store i16 [[CONV2]], i16* [[TMP1]], align 2
				// CHECK5-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[TMP2]], i32 0, i32 2
				// CHECK5-NEXT: [[TMP5:%.]] = load i32, i32 [[ARRAYIDX]], align 4
				// CHECK5-NEXT: [[ADD3:%.*]] = add nsw i32 [[TMP5]], 1
				// CHECK5-NEXT: store i32 [[ADD3]], i32* [[ARRAYIDX]], align 4
				// CHECK5-NEXT: ret void
				//
				//
				// CHECK6-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l25
				// CHECK6-SAME: (i16* nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0:[0-9]+]] {
				// CHECK6-NEXT: entry:
				// CHECK6-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK6-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
				// CHECK6-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK6-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK6-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK6-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK6-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK6-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK6: .execute:
				// CHECK6-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK6-NEXT: [[TMP2:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK6-NEXT: [[TMP3:%.]] = bitcast i16 [[TMP0]] to i8*
				// CHECK6-NEXT: store i8* [[TMP3]], i8** [[TMP2]], align 4
				// CHECK6-NEXT: [[TMP4:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK6-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP1]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i16) @__omp_outlined__ to i8), i8 null, i8** [[TMP4]], i32 1)
				// CHECK6-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK6: .omp.deinit:
				// CHECK6-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK6-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK6: .exit:
				// CHECK6-NEXT: ret void
				//
				//
				// CHECK6-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK6-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR0]] {
				// CHECK6-NEXT: entry:
				// CHECK6-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK6-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK6-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK6-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK6-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK6-NEXT: [[TMP1:%.]] = load i16, i16 [[TMP0]], align 2
				// CHECK6-NEXT: [[CONV:%.*]] = sext i16 [[TMP1]] to i32
				// CHECK6-NEXT: [[ADD:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK6-NEXT: [[CONV1:%.*]] = trunc i32 [[ADD]] to i16
				// CHECK6-NEXT: store i16 [[CONV1]], i16* [[TMP0]], align 2
				// CHECK6-NEXT: ret void
				//
				//
				// CHECK6-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIiET_i_l30
				// CHECK6-SAME: (i32* nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.]], i32 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0]] {
				// CHECK6-NEXT: entry:
				// CHECK6-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK6-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 4
				// CHECK6-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 4
				// CHECK6-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK6-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK6-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 4
				// CHECK6-NEXT: store i32 [[DOTCAPTURE_EXPR_]], i32* [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK6-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK6-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK6-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 4
				// CHECK6-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK6-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK6-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK6-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK6: .execute:
				// CHECK6-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK6-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK6-NEXT: [[TMP5:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK6-NEXT: [[TMP6:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK6-NEXT: store i8* [[TMP6]], i8** [[TMP5]], align 4
				// CHECK6-NEXT: [[TMP7:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 1
				// CHECK6-NEXT: [[TMP8:%.]] = bitcast i16 [[TMP1]] to i8*
				// CHECK6-NEXT: store i8* [[TMP8]], i8** [[TMP7]], align 4
				// CHECK6-NEXT: [[TMP9:%.]] = getelementptr inbounds [3 x i8], [3 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 2
				// CHECK6-NEXT: [[TMP10:%.]] = bitcast [10 x i32] [[TMP2]] to i8*
				// CHECK6-NEXT: store i8* [[TMP10]], i8** [[TMP9]], align 4
				// CHECK6-NEXT: [[TMP11:%.]] = bitcast [3 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK6-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP3]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i16, [10 x i32]) @__omp_outlined__1 to i8), i8 null, i8** [[TMP11]], i32 3)
				// CHECK6-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK6: .omp.deinit:
				// CHECK6-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK6-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK6: .exit:
				// CHECK6-NEXT: ret void
				//
				//
				// CHECK6-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK6-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.]], [10 x i32] nonnull align 4 dereferenceable(40) [[B:%.*]]) #[[ATTR0]] {
				// CHECK6-NEXT: entry:
				// CHECK6-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK6-NEXT: [[B_ADDR:%.]] = alloca [10 x i32], align 4
				// CHECK6-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK6-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK6-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK6-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK6-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 4
				// CHECK6-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK6-NEXT: [[TMP1:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK6-NEXT: [[TMP2:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 4
				// CHECK6-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK6-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP3]], 1
				// CHECK6-NEXT: store i32 [[ADD]], i32* [[TMP0]], align 4
				// CHECK6-NEXT: [[TMP4:%.]] = load i16, i16 [[TMP1]], align 2
				// CHECK6-NEXT: [[CONV:%.*]] = sext i16 [[TMP4]] to i32
				// CHECK6-NEXT: [[ADD1:%.*]] = add nsw i32 [[CONV]], 1
				// CHECK6-NEXT: [[CONV2:%.*]] = trunc i32 [[ADD1]] to i16
				// CHECK6-NEXT: store i16 [[CONV2]], i16* [[TMP1]], align 2
				// CHECK6-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[TMP2]], i32 0, i32 2
				// CHECK6-NEXT: [[TMP5:%.]] = load i32, i32 [[ARRAYIDX]], align 4
				// CHECK6-NEXT: [[ADD3:%.*]] = add nsw i32 [[TMP5]], 1
				// CHECK6-NEXT: store i32 [[ADD3]], i32* [[ARRAYIDX]], align 4
				// CHECK6-NEXT: ret void
				//

clang/test/OpenMP/nvptx_target_teams_codegen.cpp

				// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py UTC_ARGS: --function-signature --include-generated-funcs --replace-function-regex "__omp_offloading_[0-9a-z]+_[0-9a-z]+"
	// Test target codegen - host bc file has to be created first.			// Test target codegen - host bc file has to be created first.
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CHECK1
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK2
	// RUN: %clang_cc1 -verify -fopenmp -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK3
	// expected-no-diagnostics			// expected-no-diagnostics
	#ifndef HEADER			#ifndef HEADER
	#define HEADER			#define HEADER

	// Check that the execution mode of all 2 target regions is set to Generic Mode.
	// CHECK-DAG: {{@__omp_offloading_.+l27}}_exec_mode = weak constant i8 1
	// CHECK-DAG: {{@__omp_offloading_.+l32}}_exec_mode = weak constant i8 1
	// CHECK-DAG: {{@__omp_offloading_.+l37}}_exec_mode = weak constant i8 0

	template<typename tx>			template<typename tx>
	tx ftemplate(int n) {			tx ftemplate(int n) {
	tx a = 0;			tx a = 0;
	short aa = 0;			short aa = 0;
	tx b[10];			tx b[10];

	#pragma omp target teams if(0)			#pragma omp target teams if(0)
	{			{
	Show All 23 Lines
	int bar(int n){			int bar(int n){
	int a = 0;			int a = 0;

	a += ftemplate<char>(n);			a += ftemplate<char>(n);

	return a;			return a;
	}			}

	// CHECK-NOT: define {{.*}}void {{@__omp_offloading_.+template.+l22}}_worker()






	// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l27}}_worker()
	// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,
	// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,
	// CHECK: store i8* null, i8** [[OMP_WORK_FN]],
	// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],
	// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]
	//
	// CHECK: [[AWAIT_WORK]]
	// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CHECK: [[KPR:%.+]] = call i1 @__kmpc_kernel_parallel(i8** [[OMP_WORK_FN]])
	// CHECK: [[KPRB:%.+]] = zext i1 [[KPR]] to i8
	// store i8 [[KPRB]], i8* [[OMP_EXEC_STATUS]], align 1
	// CHECK: [[WORK:%.+]] = load i8, i8* [[OMP_WORK_FN]],
	// CHECK: [[SHOULD_EXIT:%.+]] = icmp eq i8* [[WORK]], null
	// CHECK: br i1 [[SHOULD_EXIT]], label {{%?}}[[EXIT:.+]], label {{%?}}[[SEL_WORKERS:.+]]
	//
	// CHECK: [[SEL_WORKERS]]
	// CHECK: [[ST:%.+]] = load i8, i8* [[OMP_EXEC_STATUS]]
	// CHECK: [[IS_ACTIVE:%.+]] = icmp ne i8 [[ST]], 0
	// CHECK: br i1 [[IS_ACTIVE]], label {{%?}}[[EXEC_PARALLEL:.+]], label {{%?}}[[BAR_PARALLEL:.+]]
	//
	// CHECK: [[EXEC_PARALLEL]]
	// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]
	//
	// CHECK: [[TERM_PARALLEL]]
	// CHECK: call void @__kmpc_kernel_end_parallel()
	// CHECK: br label {{%?}}[[BAR_PARALLEL]]
	//
	// CHECK: [[BAR_PARALLEL]]
	// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CHECK: br label {{%?}}[[AWAIT_WORK]]
	//
	// CHECK: [[EXIT]]
	// CHECK: ret void

	// CHECK: define {{.*}}void [[T1:@__omp_offloading_.+template.+l27]](i[[SZ:32\|64]] [[A:%[^)]+]])
	// CHECK: store i[[SZ]] [[A]], i[[SZ]]* [[A_ADDR:%.+]], align
	// CHECK: [[CONV:%.+]] = bitcast i[[SZ]]* [[A_ADDR]] to i8*

	// CHECK-DAG: [[TID:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
	// CHECK-DAG: [[NTH:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
	// CHECK-DAG: [[WS:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
	// CHECK-DAG: [[TH_LIMIT:%.+]] = sub nuw i32 [[NTH]], [[WS]]
	// CHECK: [[IS_WORKER:%.+]] = icmp ult i32 [[TID]], [[TH_LIMIT]]
	// CHECK: br i1 [[IS_WORKER]], label {{%?}}[[WORKER:.+]], label {{%?}}[[CHECK_MASTER:.+]]
	//
	// CHECK: [[WORKER]]
	// CHECK: {{call\|invoke}} void [[T1]]_worker()
	// CHECK: br label {{%?}}[[EXIT:.+]]
	//
	// CHECK: [[CHECK_MASTER]]
	// CHECK-DAG: [[CMTID:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
	// CHECK-DAG: [[CMNTH:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
	// CHECK-DAG: [[CMWS:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
	// CHECK: [[IS_MASTER:%.+]] = icmp eq i32 [[CMTID]],
	// CHECK: br i1 [[IS_MASTER]], label {{%?}}[[MASTER:.+]], label {{%?}}[[EXIT]]
	//
	// CHECK: [[MASTER]]
	// CHECK-DAG: [[MNTH:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
	// CHECK-DAG: [[MWS:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
	// CHECK: [[MTMP1:%.+]] = sub nuw i32 [[MNTH]], [[MWS]]
	// CHECK: call void @__kmpc_kernel_init(i32 [[MTMP1]]
	//
	// CHECK-NOT: kmpc_fork_teams
	// CHECK: [[A_VAL:%.+]] = load i8, i8* [[CONV]], align
	// CHECK: [[ACP:%.+]] = bitcast i[[SZ]]* [[AC:%.+]] to i8*
	// CHECK: store i8 [[A_VAL]], i8* [[ACP]], align
	// CHECK: [[ACV:%.+]] = load i[[SZ]], i[[SZ]]* [[AC]], align
	// CHECK: call void [[PARALLEL:@.+]](i32* %{{.+}}, i32* %{{.+}}, i[[SZ]] [[ACV]])
	// CHECK: br label {{%?}}[[TERMINATE:.+]]
	//
	// CHECK: [[TERMINATE]]
	// CHECK: call void @__kmpc_kernel_deinit(
	// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CHECK: br label {{%?}}[[EXIT]]
	//
	// CHECK: [[EXIT]]
	// CHECK: ret void

	// CHECK: define internal void [[PARALLEL]](i32* noalias %{{.+}}, i32* noalias %{{.+}}, i[[SZ]] [[A_VAL:%.+]])
	// CHECK: [[A_ADDR:%.+]] = alloca i[[SZ]],
	// CHECK: store i[[SZ]] [[A_VAL]], i[[SZ]]* [[A_ADDR]],
	// CHECK: [[CONV:%.+]] = bitcast i[[SZ]]* [[A_ADDR]] to i8*
	// CHECK: store i8 49, i8* [[CONV]],
	// CHECK: ret void

	// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l32}}_worker()
	// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,
	// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,
	// CHECK: store i8* null, i8** [[OMP_WORK_FN]],
	// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],
	// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]
	//
	// CHECK: [[AWAIT_WORK]]
	// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CHECK: [[KPR:%.+]] = call i1 @__kmpc_kernel_parallel(i8** [[OMP_WORK_FN]])
	// CHECK: [[KPRB:%.+]] = zext i1 [[KPR]] to i8
	// store i8 [[KPRB]], i8* [[OMP_EXEC_STATUS]], align 1
	// CHECK: [[WORK:%.+]] = load i8, i8* [[OMP_WORK_FN]],
	// CHECK: [[SHOULD_EXIT:%.+]] = icmp eq i8* [[WORK]], null
	// CHECK: br i1 [[SHOULD_EXIT]], label {{%?}}[[EXIT:.+]], label {{%?}}[[SEL_WORKERS:.+]]
	//
	// CHECK: [[SEL_WORKERS]]
	// CHECK: [[ST:%.+]] = load i8, i8* [[OMP_EXEC_STATUS]]
	// CHECK: [[IS_ACTIVE:%.+]] = icmp ne i8 [[ST]], 0
	// CHECK: br i1 [[IS_ACTIVE]], label {{%?}}[[EXEC_PARALLEL:.+]], label {{%?}}[[BAR_PARALLEL:.+]]
	//
	// CHECK: [[EXEC_PARALLEL]]
	// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]
	//
	// CHECK: [[TERM_PARALLEL]]
	// CHECK: call void @__kmpc_kernel_end_parallel()
	// CHECK: br label {{%?}}[[BAR_PARALLEL]]
	//
	// CHECK: [[BAR_PARALLEL]]
	// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CHECK: br label {{%?}}[[AWAIT_WORK]]
	//
	// CHECK: [[EXIT]]
	// CHECK: ret void

	// CHECK: define {{.*}}void [[T2:@__omp_offloading_.+template.+l32]](i[[SZ:32\|64]] [[AA:%[^)]+]])
	// CHECK: store i[[SZ]] [[AA]], i[[SZ]]* [[AA_ADDR:%.+]], align
	// CHECK: [[CONV:%.+]] = bitcast i[[SZ]]* [[AA_ADDR]] to i16*

	// CHECK-DAG: [[TID:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
	// CHECK-DAG: [[NTH:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
	// CHECK-DAG: [[WS:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
	// CHECK-DAG: [[TH_LIMIT:%.+]] = sub nuw i32 [[NTH]], [[WS]]
	// CHECK: [[IS_WORKER:%.+]] = icmp ult i32 [[TID]], [[TH_LIMIT]]
	// CHECK: br i1 [[IS_WORKER]], label {{%?}}[[WORKER:.+]], label {{%?}}[[CHECK_MASTER:.+]]
	//
	// CHECK: [[WORKER]]
	// CHECK: {{call\|invoke}} void [[T2]]_worker()
	// CHECK: br label {{%?}}[[EXIT:.+]]
	//
	// CHECK: [[CHECK_MASTER]]
	// CHECK-DAG: [[CMTID:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
	// CHECK-DAG: [[CMNTH:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
	// CHECK-DAG: [[CMWS:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
	// CHECK: [[IS_MASTER:%.+]] = icmp eq i32 [[CMTID]],
	// CHECK: br i1 [[IS_MASTER]], label {{%?}}[[MASTER:.+]], label {{%?}}[[EXIT]]
	//
	// CHECK: [[MASTER]]
	// CHECK-DAG: [[MNTH:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
	// CHECK-DAG: [[MWS:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
	// CHECK: [[MTMP1:%.+]] = sub nuw i32 [[MNTH]], [[MWS]]
	// CHECK: call void @__kmpc_kernel_init(i32 [[MTMP1]]
	//
	// CHECK-NOT: kmpc_fork_teams
	// CHECK: [[AA_VAL:%.+]] = load i16, i16* [[CONV]], align
	// CHECK: [[ACP:%.+]] = bitcast i[[SZ]]* [[AC:%.+]] to i16*
	// CHECK: store i16 [[AA_VAL]], i16* [[ACP]], align
	// CHECK: [[ACV:%.+]] = load i[[SZ]], i[[SZ]]* [[AC]], align
	// CHECK: call void [[PARALLEL:@.+]](i32* %{{.+}}, i32* %{{.+}}, i[[SZ]] [[ACV]])
	// CHECK: br label {{%?}}[[TERMINATE:.+]]
	//
	// CHECK: [[TERMINATE]]
	// CHECK: call void @__kmpc_kernel_deinit(
	// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CHECK: br label {{%?}}[[EXIT]]
	//
	// CHECK: [[EXIT]]
	// CHECK: ret void

	// CHECK: define internal void [[PARALLEL]](i32* noalias %{{.+}}, i32* noalias %{{.+}}, i[[SZ]] [[A_VAL:%.+]])
	// CHECK: [[A_ADDR:%.+]] = alloca i[[SZ]],
	// CHECK: store i[[SZ]] [[A_VAL]], i[[SZ]]* [[A_ADDR]],
	// CHECK: [[CONV:%.+]] = bitcast i[[SZ]]* [[A_ADDR]] to i16*
	// CHECK: store i16 1, i16* [[CONV]],
	// CHECK: ret void

	// CHECK: define weak void @__omp_offloading_{{.}}ftemplate{{.}}_l37(
	// CHECK: call void @__kmpc_spmd_kernel_init(i32 {{.+}}, i16 1)
	// CHECK: call void @__kmpc_data_sharing_init_stack_spmd
	// CHECK-NOT: call i8* @__kmpc_data_sharing_push_stack(
	// CHECK-NOT: call void @__kmpc_serialized_parallel(
	// CHECK: call void [[L0:@.+]](i32* %{{.+}}, i32* %{{.+}}, i[[SZ]] %{{.+}})
	// CHECK-NOT: call void @__kmpc_end_serialized_parallel(
	// CHECK-NOT: call void @__kmpc_data_sharing_pop_stack(
	// CHECK: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
	// CHECK: ret

	// CHECK: define internal void [[L0]](i32* noalias %{{.+}}, i32* noalias %{{.+}}, i[[SZ]] %{{.+}})
	// CHECK: call void [[L1:@.+]](i32* %{{.+}}, i32* %{{.+}}, i16* %{{.+}})
	// CHECK: ret void

	// CHECK: define internal void [[L1]](i32* noalias %{{.+}}, i32* noalias %{{.+}}, i16* nonnull align {{[0-9]+}} dereferenceable
	// CHECK: call void @__kmpc_serialized_parallel(
	// CHECK: call void [[L2:@.+]](i32* %{{.+}}, i32* %{{.+}}, i16* %{{.+}})
	// CHECK: call void @__kmpc_end_serialized_parallel(
	// CHECK: ret void

	// CHECK: define internal void [[L2]](i32* noalias %{{.+}}, i32* noalias %{{.+}}, i16* nonnull align {{[0-9]+}} dereferenceable
	// CHECK: store i16 1, i16* %
	// CHECK: ret void

	#endif			#endif
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l23_worker
				// CHECK1-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[WORK_FN:%.]] = alloca i8, align 8
				// CHECK1-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK1-NEXT: store i8* null, i8** [[WORK_FN]], align 8
				// CHECK1-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK1: .await.work:
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK1-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK1-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK1-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK1-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK1: .select.workers:
				// CHECK1-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK1-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK1: .execute.parallel:
				// CHECK1-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK1-NEXT: [[TMP5:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK1-NEXT: call void [[TMP5]](i16 0, i32 [[TMP4]])
				// CHECK1-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK1: .terminate.parallel:
				// CHECK1-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK1-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK1: .barrier.parallel:
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l23
				// CHECK1-SAME: (i64 [[A:%.*]]) #[[ATTR1:[0-9]+]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[A_ADDR:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[A_CASTED:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK1-NEXT: store i64 [[A]], i64* [[A_ADDR]], align 8
				// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[A_ADDR]] to i8*
				// CHECK1-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK1-NEXT: [[TMP0:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK1-NEXT: br i1 [[TMP0]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK1: .worker:
				// CHECK1-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l23_worker() #[[ATTR3:[0-9]+]]
				// CHECK1-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK1: .mastercheck:
				// CHECK1-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[TMP1:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK1-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK1-NEXT: [[TMP3:%.*]] = xor i32 [[TMP1]], -1
				// CHECK1-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP2]], [[TMP3]]
				// CHECK1-NEXT: [[TMP4:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK1-NEXT: br i1 [[TMP4]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK1: .master:
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK1-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK1-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK1-NEXT: [[TMP5:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK1-NEXT: [[TMP6:%.]] = load i8, i8 [[CONV]], align 8
				// CHECK1-NEXT: [[CONV7:%.]] = bitcast i64 [[A_CASTED]] to i8*
				// CHECK1-NEXT: store i8 [[TMP6]], i8* [[CONV7]], align 1
				// CHECK1-NEXT: [[TMP7:%.]] = load i64, i64 [[A_CASTED]], align 8
				// CHECK1-NEXT: store i32 [[TMP5]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK1-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i64 [[TMP7]]) #[[ATTR3]]
				// CHECK1-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK1: .termination.notifier:
				// CHECK1-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: br label [[DOTEXIT]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i64 [[A:%.]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[A_ADDR:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: store i64 [[A]], i64* [[A_ADDR]], align 8
				// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[A_ADDR]] to i8*
				// CHECK1-NEXT: store i8 49, i8* [[CONV]], align 8
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l28_worker
				// CHECK1-SAME: () #[[ATTR0]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[WORK_FN:%.]] = alloca i8, align 8
				// CHECK1-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK1-NEXT: store i8* null, i8** [[WORK_FN]], align 8
				// CHECK1-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK1: .await.work:
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK1-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK1-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK1-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK1-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK1: .select.workers:
				// CHECK1-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK1-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK1: .execute.parallel:
				// CHECK1-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK1-NEXT: [[TMP5:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK1-NEXT: call void [[TMP5]](i16 0, i32 [[TMP4]])
				// CHECK1-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK1: .terminate.parallel:
				// CHECK1-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK1-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK1: .barrier.parallel:
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l28
				// CHECK1-SAME: (i64 [[AA:%.*]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[AA_ADDR:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[AA_CASTED:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK1-NEXT: store i64 [[AA]], i64* [[AA_ADDR]], align 8
				// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[AA_ADDR]] to i16*
				// CHECK1-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK1-NEXT: [[TMP0:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK1-NEXT: br i1 [[TMP0]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK1: .worker:
				// CHECK1-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l28_worker() #[[ATTR3]]
				// CHECK1-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK1: .mastercheck:
				// CHECK1-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[TMP1:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK1-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK1-NEXT: [[TMP3:%.*]] = xor i32 [[TMP1]], -1
				// CHECK1-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP2]], [[TMP3]]
				// CHECK1-NEXT: [[TMP4:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK1-NEXT: br i1 [[TMP4]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK1: .master:
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK1-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK1-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK1-NEXT: [[TMP5:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK1-NEXT: [[TMP6:%.]] = load i16, i16 [[CONV]], align 8
				// CHECK1-NEXT: [[CONV7:%.]] = bitcast i64 [[AA_CASTED]] to i16*
				// CHECK1-NEXT: store i16 [[TMP6]], i16* [[CONV7]], align 2
				// CHECK1-NEXT: [[TMP7:%.]] = load i64, i64 [[AA_CASTED]], align 8
				// CHECK1-NEXT: store i32 [[TMP5]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK1-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i64 [[TMP7]]) #[[ATTR3]]
				// CHECK1-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK1: .termination.notifier:
				// CHECK1-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: br label [[DOTEXIT]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i64 [[AA:%.]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[AA_ADDR:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: store i64 [[AA]], i64* [[AA_ADDR]], align 8
				// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[AA_ADDR]] to i16*
				// CHECK1-NEXT: store i16 1, i16* [[CONV]], align 8
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l33
				// CHECK1-SAME: (i64 [[AA:%.*]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[AA_ADDR:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[AA_CASTED:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK1-NEXT: store i64 [[AA]], i64* [[AA_ADDR]], align 8
				// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[AA_ADDR]] to i16*
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK1-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK1-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK1: .execute:
				// CHECK1-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2:[0-9]+]])
				// CHECK1-NEXT: [[TMP1:%.]] = load i16, i16 [[CONV]], align 8
				// CHECK1-NEXT: [[CONV1:%.]] = bitcast i64 [[AA_CASTED]] to i16*
				// CHECK1-NEXT: store i16 [[TMP1]], i16* [[CONV1]], align 2
				// CHECK1-NEXT: [[TMP2:%.]] = load i64, i64 [[AA_CASTED]], align 8
				// CHECK1-NEXT: store i32 [[TMP0]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK1-NEXT: call void @__omp_outlined__2(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i64 [[TMP2]]) #[[ATTR3]]
				// CHECK1-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK1: .omp.deinit:
				// CHECK1-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK1-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__2
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i64 [[AA:%.]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[AA_ADDR:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: store i64 [[AA]], i64* [[AA_ADDR]], align 8
				// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[AA_ADDR]] to i16*
				// CHECK1-NEXT: [[TMP0:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK1-NEXT: [[TMP1:%.]] = bitcast i16 [[CONV]] to i8*
				// CHECK1-NEXT: store i8* [[TMP1]], i8** [[TMP0]], align 8
				// CHECK1-NEXT: [[TMP2:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP2]], align 4
				// CHECK1-NEXT: [[TMP4:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK1-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP3]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i16) @__omp_outlined__3 to i8), i8 null, i8** [[TMP4]], i64 1)
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__3
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[AA_ADDR:%.]] = alloca i16, align 8
				// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK1-NEXT: [[TMP2:%.]] = bitcast i16 [[TMP0]] to i8*
				// CHECK1-NEXT: store i8* [[TMP2]], i8** [[TMP1]], align 8
				// CHECK1-NEXT: [[TMP3:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: [[TMP4:%.]] = load i32, i32 [[TMP3]], align 4
				// CHECK1-NEXT: [[TMP5:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK1-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP4]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i16) @__omp_outlined__4 to i8), i8 null, i8** [[TMP5]], i64 1)
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__4
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[AA_ADDR:%.]] = alloca i16, align 8
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 8
				// CHECK1-NEXT: store i16 1, i16* [[TMP0]], align 2
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l23_worker
				// CHECK2-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[WORK_FN:%.]] = alloca i8, align 4
				// CHECK2-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK2-NEXT: store i8* null, i8** [[WORK_FN]], align 4
				// CHECK2-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK2: .await.work:
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK2-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK2-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 4
				// CHECK2-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK2-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK2: .select.workers:
				// CHECK2-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK2-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK2: .execute.parallel:
				// CHECK2-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK2-NEXT: [[TMP5:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK2-NEXT: call void [[TMP5]](i16 0, i32 [[TMP4]])
				// CHECK2-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK2: .terminate.parallel:
				// CHECK2-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK2-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK2: .barrier.parallel:
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l23
				// CHECK2-SAME: (i32 [[A:%.*]]) #[[ATTR1:[0-9]+]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[A_CASTED:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK2-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
				// CHECK2-NEXT: [[CONV:%.]] = bitcast i32 [[A_ADDR]] to i8*
				// CHECK2-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK2-NEXT: [[TMP0:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK2-NEXT: br i1 [[TMP0]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK2: .worker:
				// CHECK2-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l23_worker() #[[ATTR3:[0-9]+]]
				// CHECK2-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK2: .mastercheck:
				// CHECK2-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[TMP1:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK2-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK2-NEXT: [[TMP3:%.*]] = xor i32 [[TMP1]], -1
				// CHECK2-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP2]], [[TMP3]]
				// CHECK2-NEXT: [[TMP4:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK2-NEXT: br i1 [[TMP4]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK2: .master:
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK2-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK2-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK2-NEXT: [[TMP5:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK2-NEXT: [[TMP6:%.]] = load i8, i8 [[CONV]], align 4
				// CHECK2-NEXT: [[CONV7:%.]] = bitcast i32 [[A_CASTED]] to i8*
				// CHECK2-NEXT: store i8 [[TMP6]], i8* [[CONV7]], align 1
				// CHECK2-NEXT: [[TMP7:%.]] = load i32, i32 [[A_CASTED]], align 4
				// CHECK2-NEXT: store i32 [[TMP5]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK2-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32 [[TMP7]]) #[[ATTR3]]
				// CHECK2-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK2: .termination.notifier:
				// CHECK2-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: br label [[DOTEXIT]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 [[A:%.]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
				// CHECK2-NEXT: [[CONV:%.]] = bitcast i32 [[A_ADDR]] to i8*
				// CHECK2-NEXT: store i8 49, i8* [[CONV]], align 4
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l28_worker
				// CHECK2-SAME: () #[[ATTR0]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[WORK_FN:%.]] = alloca i8, align 4
				// CHECK2-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK2-NEXT: store i8* null, i8** [[WORK_FN]], align 4
				// CHECK2-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK2: .await.work:
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK2-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK2-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 4
				// CHECK2-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK2-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK2: .select.workers:
				// CHECK2-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK2-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK2: .execute.parallel:
				// CHECK2-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK2-NEXT: [[TMP5:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK2-NEXT: call void [[TMP5]](i16 0, i32 [[TMP4]])
				// CHECK2-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK2: .terminate.parallel:
				// CHECK2-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK2-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK2: .barrier.parallel:
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l28
				// CHECK2-SAME: (i32 [[AA:%.*]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[AA_ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[AA_CASTED:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK2-NEXT: store i32 [[AA]], i32* [[AA_ADDR]], align 4
				// CHECK2-NEXT: [[CONV:%.]] = bitcast i32 [[AA_ADDR]] to i16*
				// CHECK2-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK2-NEXT: [[TMP0:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK2-NEXT: br i1 [[TMP0]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK2: .worker:
				// CHECK2-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l28_worker() #[[ATTR3]]
				// CHECK2-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK2: .mastercheck:
				// CHECK2-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[TMP1:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK2-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK2-NEXT: [[TMP3:%.*]] = xor i32 [[TMP1]], -1
				// CHECK2-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP2]], [[TMP3]]
				// CHECK2-NEXT: [[TMP4:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK2-NEXT: br i1 [[TMP4]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK2: .master:
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK2-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK2-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK2-NEXT: [[TMP5:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK2-NEXT: [[TMP6:%.]] = load i16, i16 [[CONV]], align 4
				// CHECK2-NEXT: [[CONV7:%.]] = bitcast i32 [[AA_CASTED]] to i16*
				// CHECK2-NEXT: store i16 [[TMP6]], i16* [[CONV7]], align 2
				// CHECK2-NEXT: [[TMP7:%.]] = load i32, i32 [[AA_CASTED]], align 4
				// CHECK2-NEXT: store i32 [[TMP5]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK2-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32 [[TMP7]]) #[[ATTR3]]
				// CHECK2-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK2: .termination.notifier:
				// CHECK2-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: br label [[DOTEXIT]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 [[AA:%.]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[AA_ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32 [[AA]], i32* [[AA_ADDR]], align 4
				// CHECK2-NEXT: [[CONV:%.]] = bitcast i32 [[AA_ADDR]] to i16*
				// CHECK2-NEXT: store i16 1, i16* [[CONV]], align 4
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l33
				// CHECK2-SAME: (i32 [[AA:%.*]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[AA_ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[AA_CASTED:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK2-NEXT: store i32 [[AA]], i32* [[AA_ADDR]], align 4
				// CHECK2-NEXT: [[CONV:%.]] = bitcast i32 [[AA_ADDR]] to i16*
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK2-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK2-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK2: .execute:
				// CHECK2-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2:[0-9]+]])
				// CHECK2-NEXT: [[TMP1:%.]] = load i16, i16 [[CONV]], align 4
				// CHECK2-NEXT: [[CONV1:%.]] = bitcast i32 [[AA_CASTED]] to i16*
				// CHECK2-NEXT: store i16 [[TMP1]], i16* [[CONV1]], align 2
				// CHECK2-NEXT: [[TMP2:%.]] = load i32, i32 [[AA_CASTED]], align 4
				// CHECK2-NEXT: store i32 [[TMP0]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK2-NEXT: call void @__omp_outlined__2(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32 [[TMP2]]) #[[ATTR3]]
				// CHECK2-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK2: .omp.deinit:
				// CHECK2-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK2-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__2
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 [[AA:%.]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[AA_ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32 [[AA]], i32* [[AA_ADDR]], align 4
				// CHECK2-NEXT: [[CONV:%.]] = bitcast i32 [[AA_ADDR]] to i16*
				// CHECK2-NEXT: [[TMP0:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK2-NEXT: [[TMP1:%.]] = bitcast i16 [[CONV]] to i8*
				// CHECK2-NEXT: store i8* [[TMP1]], i8** [[TMP0]], align 4
				// CHECK2-NEXT: [[TMP2:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP2]], align 4
				// CHECK2-NEXT: [[TMP4:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK2-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP3]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i16) @__omp_outlined__3 to i8), i8 null, i8** [[TMP4]], i32 1)
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__3
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK2-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK2-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK2-NEXT: [[TMP1:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK2-NEXT: [[TMP2:%.]] = bitcast i16 [[TMP0]] to i8*
				// CHECK2-NEXT: store i8* [[TMP2]], i8** [[TMP1]], align 4
				// CHECK2-NEXT: [[TMP3:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: [[TMP4:%.]] = load i32, i32 [[TMP3]], align 4
				// CHECK2-NEXT: [[TMP5:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK2-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP4]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i16) @__omp_outlined__4 to i8), i8 null, i8** [[TMP5]], i32 1)
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__4
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK2-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK2-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK2-NEXT: store i16 1, i16* [[TMP0]], align 2
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l23_worker
				// CHECK3-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[WORK_FN:%.]] = alloca i8, align 4
				// CHECK3-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK3-NEXT: store i8* null, i8** [[WORK_FN]], align 4
				// CHECK3-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK3: .await.work:
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK3-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK3-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 4
				// CHECK3-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK3-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK3: .select.workers:
				// CHECK3-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK3-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK3: .execute.parallel:
				// CHECK3-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
				// CHECK3-NEXT: [[TMP5:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK3-NEXT: call void [[TMP5]](i16 0, i32 [[TMP4]])
				// CHECK3-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK3: .terminate.parallel:
				// CHECK3-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK3-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK3: .barrier.parallel:
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l23
				// CHECK3-SAME: (i32 [[A:%.*]]) #[[ATTR1:[0-9]+]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[A_CASTED:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK3-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
				// CHECK3-NEXT: [[CONV:%.]] = bitcast i32 [[A_ADDR]] to i8*
				// CHECK3-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK3-NEXT: [[TMP0:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK3-NEXT: br i1 [[TMP0]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK3: .worker:
				// CHECK3-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l23_worker() #[[ATTR3:[0-9]+]]
				// CHECK3-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK3: .mastercheck:
				// CHECK3-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[TMP1:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK3-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK3-NEXT: [[TMP3:%.*]] = xor i32 [[TMP1]], -1
				// CHECK3-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP2]], [[TMP3]]
				// CHECK3-NEXT: [[TMP4:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK3-NEXT: br i1 [[TMP4]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK3: .master:
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK3-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK3-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK3-NEXT: [[TMP5:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK3-NEXT: [[TMP6:%.]] = load i8, i8 [[CONV]], align 4
				// CHECK3-NEXT: [[CONV7:%.]] = bitcast i32 [[A_CASTED]] to i8*
				// CHECK3-NEXT: store i8 [[TMP6]], i8* [[CONV7]], align 1
				// CHECK3-NEXT: [[TMP7:%.]] = load i32, i32 [[A_CASTED]], align 4
				// CHECK3-NEXT: store i32 [[TMP5]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK3-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32 [[TMP7]]) #[[ATTR3]]
				// CHECK3-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK3: .termination.notifier:
				// CHECK3-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: br label [[DOTEXIT]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 [[A:%.]]) #[[ATTR1]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
				// CHECK3-NEXT: [[CONV:%.]] = bitcast i32 [[A_ADDR]] to i8*
				// CHECK3-NEXT: store i8 49, i8* [[CONV]], align 4
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l28_worker
				// CHECK3-SAME: () #[[ATTR0]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[WORK_FN:%.]] = alloca i8, align 4
				// CHECK3-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK3-NEXT: store i8* null, i8** [[WORK_FN]], align 4
				// CHECK3-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK3: .await.work:
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK3-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK3-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 4
				// CHECK3-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK3-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK3: .select.workers:
				// CHECK3-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK3-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK3: .execute.parallel:
				// CHECK3-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK3-NEXT: [[TMP5:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK3-NEXT: call void [[TMP5]](i16 0, i32 [[TMP4]])
				// CHECK3-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK3: .terminate.parallel:
				// CHECK3-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK3-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK3: .barrier.parallel:
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l28
				// CHECK3-SAME: (i32 [[AA:%.*]]) #[[ATTR1]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[AA_ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[AA_CASTED:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK3-NEXT: store i32 [[AA]], i32* [[AA_ADDR]], align 4
				// CHECK3-NEXT: [[CONV:%.]] = bitcast i32 [[AA_ADDR]] to i16*
				// CHECK3-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK3-NEXT: [[TMP0:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK3-NEXT: br i1 [[TMP0]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK3: .worker:
				// CHECK3-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l28_worker() #[[ATTR3]]
				// CHECK3-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK3: .mastercheck:
				// CHECK3-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[TMP1:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK3-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK3-NEXT: [[TMP3:%.*]] = xor i32 [[TMP1]], -1
				// CHECK3-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP2]], [[TMP3]]
				// CHECK3-NEXT: [[TMP4:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK3-NEXT: br i1 [[TMP4]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK3: .master:
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK3-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK3-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK3-NEXT: [[TMP5:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
				// CHECK3-NEXT: [[TMP6:%.]] = load i16, i16 [[CONV]], align 4
				// CHECK3-NEXT: [[CONV7:%.]] = bitcast i32 [[AA_CASTED]] to i16*
				// CHECK3-NEXT: store i16 [[TMP6]], i16* [[CONV7]], align 2
				// CHECK3-NEXT: [[TMP7:%.]] = load i32, i32 [[AA_CASTED]], align 4
				// CHECK3-NEXT: store i32 [[TMP5]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK3-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32 [[TMP7]]) #[[ATTR3]]
				// CHECK3-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK3: .termination.notifier:
				// CHECK3-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: br label [[DOTEXIT]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 [[AA:%.]]) #[[ATTR1]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[AA_ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32 [[AA]], i32* [[AA_ADDR]], align 4
				// CHECK3-NEXT: [[CONV:%.]] = bitcast i32 [[AA_ADDR]] to i16*
				// CHECK3-NEXT: store i16 1, i16* [[CONV]], align 4
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l33
				// CHECK3-SAME: (i32 [[AA:%.*]]) #[[ATTR1]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[AA_ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[AA_CASTED:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK3-NEXT: store i32 [[AA]], i32* [[AA_ADDR]], align 4
				// CHECK3-NEXT: [[CONV:%.]] = bitcast i32 [[AA_ADDR]] to i16*
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1)
				// CHECK3-NEXT: call void @__kmpc_data_sharing_init_stack_spmd()
				// CHECK3-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK3: .execute:
				// CHECK3-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2:[0-9]+]])
				// CHECK3-NEXT: [[TMP1:%.]] = load i16, i16 [[CONV]], align 4
				// CHECK3-NEXT: [[CONV1:%.]] = bitcast i32 [[AA_CASTED]] to i16*
				// CHECK3-NEXT: store i16 [[TMP1]], i16* [[CONV1]], align 2
				// CHECK3-NEXT: [[TMP2:%.]] = load i32, i32 [[AA_CASTED]], align 4
				// CHECK3-NEXT: store i32 [[TMP0]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK3-NEXT: call void @__omp_outlined__2(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32 [[TMP2]]) #[[ATTR3]]
				// CHECK3-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK3: .omp.deinit:
				// CHECK3-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1)
				// CHECK3-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__2
				// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 [[AA:%.]]) #[[ATTR1]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[AA_ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
				// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32 [[AA]], i32* [[AA_ADDR]], align 4
				// CHECK3-NEXT: [[CONV:%.]] = bitcast i32 [[AA_ADDR]] to i16*
				// CHECK3-NEXT: [[TMP0:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK3-NEXT: [[TMP1:%.]] = bitcast i16 [[CONV]] to i8*
				// CHECK3-NEXT: store i8* [[TMP1]], i8** [[TMP0]], align 4
				// CHECK3-NEXT: [[TMP2:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP2]], align 4
				// CHECK3-NEXT: [[TMP4:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK3-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP3]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i16) @__omp_outlined__3 to i8), i8 null, i8** [[TMP4]], i32 1)
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__3
				// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR1]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
				// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK3-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK3-NEXT: [[TMP1:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK3-NEXT: [[TMP2:%.]] = bitcast i16 [[TMP0]] to i8*
				// CHECK3-NEXT: store i8* [[TMP2]], i8** [[TMP1]], align 4
				// CHECK3-NEXT: [[TMP3:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: [[TMP4:%.]] = load i32, i32 [[TMP3]], align 4
				// CHECK3-NEXT: [[TMP5:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK3-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP4]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i16) @__omp_outlined__4 to i8), i8 null, i8** [[TMP5]], i32 1)
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__4
				// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i16 nonnull align 2 dereferenceable(2) [[AA:%.*]]) #[[ATTR1]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[AA_ADDR:%.]] = alloca i16, align 4
				// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK3-NEXT: store i16* [[AA]], i16** [[AA_ADDR]], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = load i16, i16** [[AA_ADDR]], align 4
				// CHECK3-NEXT: store i16 1, i16* [[TMP0]], align 2
				// CHECK3-NEXT: ret void
				//

clang/test/OpenMP/nvptx_target_teams_distribute_codegen.cpp

				// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py UTC_ARGS: --function-signature --include-generated-funcs --replace-function-regex "__omp_offloading_[0-9a-z]+_[0-9a-z]+"
	// Test target codegen - host bc file has to be created first.			// Test target codegen - host bc file has to be created first.
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64 --check-prefix SEQ			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CHECK1
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64 --check-prefix PAR			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK2
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix SEQ			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK3
	// RUN: %clang_cc1 -verify -fopenmp -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix SEQ			// RUN: %clang_cc1 -verify -fopenmp -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK4
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix PAR			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK5
	// RUN: %clang_cc1 -verify -fopenmp -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32 --check-prefix PAR			// RUN: %clang_cc1 -verify -fopenmp -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - -fopenmp-cuda-parallel-target-regions \| FileCheck %s --check-prefix CHECK6
	// expected-no-diagnostics			// expected-no-diagnostics
	#ifndef HEADER			#ifndef HEADER
	#define HEADER			#define HEADER

	// SEQ: [[MEM_TY:%.+]] = type { [128 x i8] }
	// SEQ-DAG: {{@__omp_offloading_.+}}_l23_exec_mode = weak constant i8 1
	// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 4
	// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1

	template<typename tx>			template<typename tx>
	tx ftemplate(int n) {			tx ftemplate(int n) {
	int i;			int i;

	#pragma omp target teams distribute			#pragma omp target teams distribute
	for (i = 0; i < 10; ++i)			for (i = 0; i < 10; ++i)
	{			{
	#pragma omp parallel			#pragma omp parallel
	++i;			++i;
	}			}

	return i;			return i;
	}			}

	int bar(int n){			int bar(int n){
	int a = 0;			int a = 0;

	a += ftemplate<char>(n);			a += ftemplate<char>(n);

	return a;			return a;
	}			}

	// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l23}}_worker()
	// CHECK: ret void

	// CHECK: define {{.*}}void {{@__omp_offloading_.+template.+l23}}()

	// CHECK-DAG: [[TID:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
	// CHECK-DAG: [[NTH:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
	// CHECK-DAG: [[WS:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
	// CHECK-DAG: [[TH_LIMIT:%.+]] = sub nuw i32 [[NTH]], [[WS]]
	// CHECK: [[IS_WORKER:%.+]] = icmp ult i32 [[TID]], [[TH_LIMIT]]
	// CHECK: br i1 [[IS_WORKER]], label {{%?}}[[WORKER:.+]], label {{%?}}[[CHECK_MASTER:.+]]
	//
	// CHECK: [[WORKER]]
	// CHECK: {{call\|invoke}} void {{@__omp_offloading_.+template.+l23}}_worker()
	// CHECK: br label {{%?}}[[EXIT:.+]]
	//
	// CHECK: [[CHECK_MASTER]]
	// CHECK-DAG: [[CMTID:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
	// CHECK-DAG: [[CMNTH:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
	// CHECK-DAG: [[CMWS:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
	// CHECK: [[IS_MASTER:%.+]] = icmp eq i32 [[CMTID]],
	// CHECK: br i1 [[IS_MASTER]], label {{%?}}[[MASTER:.+]], label {{%?}}[[EXIT]]
	//
	// CHECK: [[MASTER]]
	// CHECK-DAG: [[MNTH:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
	// CHECK-DAG: [[MWS:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
	// CHECK: [[MTMP1:%.+]] = sub nuw i32 [[MNTH]], [[MWS]]
	// CHECK: call void @__kmpc_kernel_init(i32 [[MTMP1]]
	// CHECK: call void [[PARALLEL:@.+]](i32* %{{.+}}, i32* %{{.+}})
	// CHECK: br label {{%?}}[[TERMINATE:.+]]
	//
	// CHECK: [[TERMINATE]]
	// CHECK: call void @__kmpc_kernel_deinit(
	// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CHECK: br label {{%?}}[[EXIT]]
	//
	// CHECK: [[EXIT]]
	// CHECK: ret void

	// CHECK: define internal void [[PARALLEL]](i32* noalias %{{.+}}, i32* noalias %{{.+}})
	// SEQ: [[SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],
	// SEQ: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE]],
	// SEQ: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* @{{.+}}, i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[SHARED]], i8* addrspacecast (i8* addrspace(3)* [[BUF:@.+]] to i8**))
	// SEQ: [[PTR:%.+]] = load i8, i8 addrspace(3)* [[BUF]],
	// SEQ: [[ADDR:%.+]] = getelementptr inbounds i8, i8* [[PTR]], i{{64\|32}} 0
	// PAR: [[ADDR:%.+]] = call i8* @__kmpc_data_sharing_push_stack(i{{32\|64}} 4, i16 1)
	// CHECK: [[RD:%.+]] = bitcast i8* [[ADDR]] to [[GLOB_TY:%.+]]*
	// CHECK: [[I_ADDR:%.+]] = getelementptr inbounds [[GLOB_TY]], [[GLOB_TY]]* [[RD]], i32 0, i32 0
	//
	// CHECK: call void @__kmpc_for_static_init_4(
	// CHECK: call void @__kmpc_kernel_prepare_parallel(i8* bitcast (void (i16, i32)* @{{.+}} to i8*))
	// CHECK: call void @__kmpc_begin_sharing_variables(i8*** [[SHARED_VARS_PTR:%.+]], i{{64\|32}} 1)
	// CHECK: [[SHARED_VARS_BUF:%.+]] = load i8, i8* [[SHARED_VARS_PTR]],
	// CHECK: [[VARS_BUF:%.+]] = getelementptr inbounds i8, i8* [[SHARED_VARS_BUF]], i{{64\|32}} 0
	// CHECK: [[I_ADDR_BC:%.+]] = bitcast i32* [[I_ADDR]] to i8*
	// CHECK: store i8* [[I_ADDR_BC]], i8** [[VARS_BUF]],
	// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	// CHECK: call void @__kmpc_end_sharing_variables()
	// CHECK: call void @__kmpc_for_static_fini(
	#endif			#endif
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l19_worker
				// CHECK1-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[WORK_FN:%.]] = alloca i8, align 8
				// CHECK1-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK1-NEXT: store i8* null, i8** [[WORK_FN]], align 8
				// CHECK1-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK1: .await.work:
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK1-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK1-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK1-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK1-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK1: .select.workers:
				// CHECK1-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK1-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK1-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK1: .execute.parallel:
				// CHECK1-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2:[0-9]+]])
				// CHECK1-NEXT: [[TMP5:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK1-NEXT: [[WORK_MATCH:%.]] = icmp eq i8 [[TMP5]], bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8*)
				// CHECK1-NEXT: br i1 [[WORK_MATCH]], label [[DOTEXECUTE_FN:%.]], label [[DOTCHECK_NEXT:%.]]
				// CHECK1: .execute.fn:
				// CHECK1-NEXT: call void @__omp_outlined__1_wrapper(i16 0, i32 [[TMP4]]) #[[ATTR3:[0-9]+]]
				// CHECK1-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK1: .check.next:
				// CHECK1-NEXT: [[TMP6:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK1-NEXT: call void [[TMP6]](i16 0, i32 [[TMP4]])
				// CHECK1-NEXT: br label [[DOTTERMINATE_PARALLEL]]
				// CHECK1: .terminate.parallel:
				// CHECK1-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK1-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK1: .barrier.parallel:
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l19
				// CHECK1-SAME: () #[[ATTR1:[0-9]+]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK1-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK1-NEXT: [[TMP0:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK1-NEXT: br i1 [[TMP0]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK1: .worker:
				// CHECK1-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l19_worker() #[[ATTR3]]
				// CHECK1-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK1: .mastercheck:
				// CHECK1-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[TMP1:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK1-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK1-NEXT: [[TMP3:%.*]] = xor i32 [[TMP1]], -1
				// CHECK1-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP2]], [[TMP3]]
				// CHECK1-NEXT: [[TMP4:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK1-NEXT: br i1 [[TMP4]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK1: .master:
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK1-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK1-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK1-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK1-NEXT: [[TMP5:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				// CHECK1-NEXT: store i32 [[TMP5]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK1-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				// CHECK1-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK1: .termination.notifier:
				// CHECK1-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK1-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK1-NEXT: br label [[DOTEXIT]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.*]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[TMP:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load i16, i16 @"_openmp_static_kernel$is_shared", align 2
				// CHECK1-NEXT: [[TMP1:%.]] = load i64, i64 @"_openmp_static_kernel$size", align 8
				// CHECK1-NEXT: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds (%"union._shared_openmp_static_memory_type_$_", %"union._shared_openmp_static_memory_type_$_" addrspace(3)* @"_openmp_shared_static_glob_rd_$_", i32 0, i32 0, i32 0) to i8), i64 [[TMP1]], i16 [[TMP0]], i8* addrspacecast (i8* addrspace(3)* @"_openmp_kernel_static_glob_rd$ptr" to i8**))
				// CHECK1-NEXT: [[TMP2:%.]] = load i8, i8* addrspace(3)* @"_openmp_kernel_static_glob_rd$ptr", align 8
				// CHECK1-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8 [[TMP2]], i64 0
				// CHECK1-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to %struct._globalized_locals_ty*
				// CHECK1-NEXT: [[I:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP4]], i32 0, i32 0
				// CHECK1-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4
				// CHECK1-NEXT: store i32 9, i32* [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
				// CHECK1-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
				// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: [[TMP6:%.]] = load i32, i32 [[TMP5]], align 4
				// CHECK1-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB1:[0-9]+]], i32 [[TMP6]], i32 92, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 1)
				// CHECK1-NEXT: [[TMP7:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: [[CMP:%.*]] = icmp sgt i32 [[TMP7]], 9
				// CHECK1-NEXT: br i1 [[CMP]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]]
				// CHECK1: cond.true:
				// CHECK1-NEXT: br label [[COND_END:%.*]]
				// CHECK1: cond.false:
				// CHECK1-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: br label [[COND_END]]
				// CHECK1: cond.end:
				// CHECK1-NEXT: [[COND:%.*]] = phi i32 [ 9, [[COND_TRUE]] ], [ [[TMP8]], [[COND_FALSE]] ]
				// CHECK1-NEXT: store i32 [[COND]], i32* [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: [[TMP9:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK1-NEXT: store i32 [[TMP9]], i32* [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: br label [[OMP_INNER_FOR_COND:%.*]]
				// CHECK1: omp.inner.for.cond:
				// CHECK1-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: [[TMP11:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: [[CMP1:%.*]] = icmp sle i32 [[TMP10]], [[TMP11]]
				// CHECK1-NEXT: br i1 [[CMP1]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]]
				// CHECK1: omp.inner.for.body:
				// CHECK1-NEXT: [[TMP12:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: [[MUL:%.*]] = mul nsw i32 [[TMP12]], 1
				// CHECK1-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]
				// CHECK1-NEXT: store i32 [[ADD]], i32* [[I]], align 4
				// CHECK1-NEXT: [[TMP13:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK1-NEXT: [[TMP14:%.]] = bitcast i32 [[I]] to i8*
				// CHECK1-NEXT: store i8* [[TMP14]], i8** [[TMP13]], align 8
				// CHECK1-NEXT: [[TMP15:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK1-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP6]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32) @__omp_outlined__1 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8), i8* [[TMP15]], i64 1)
				// CHECK1-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]
				// CHECK1: omp.body.continue:
				// CHECK1-NEXT: br label [[OMP_INNER_FOR_INC:%.*]]
				// CHECK1: omp.inner.for.inc:
				// CHECK1-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: [[ADD2:%.*]] = add nsw i32 [[TMP16]], 1
				// CHECK1-NEXT: store i32 [[ADD2]], i32* [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: br label [[OMP_INNER_FOR_COND]]
				// CHECK1: omp.inner.for.end:
				// CHECK1-NEXT: br label [[OMP_LOOP_EXIT:%.*]]
				// CHECK1: omp.loop.exit:
				// CHECK1-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB1]], i32 [[TMP6]])
				// CHECK1-NEXT: [[TMP17:%.]] = load i16, i16 @"_openmp_static_kernel$is_shared", align 2
				// CHECK1-NEXT: call void @__kmpc_restore_team_static_memory(i16 0, i16 [[TMP17]])
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[I:%.*]]) #[[ATTR1]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[I_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[I]], i32** [[I_ADDR]], align 8
				// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[I_ADDR]], align 8
				// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK1-NEXT: [[INC:%.*]] = add nsw i32 [[TMP1]], 1
				// CHECK1-NEXT: store i32 [[INC]], i32* [[TMP0]], align 4
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
				// CHECK1-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK1-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				// CHECK1-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				// CHECK1-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8
				// CHECK1-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0
				// CHECK1-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
				// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 8
				// CHECK1-NEXT: call void @__omp_outlined__1(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR3]]
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l19_worker
				// CHECK2-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[WORK_FN:%.]] = alloca i8, align 8
				// CHECK2-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK2-NEXT: store i8* null, i8** [[WORK_FN]], align 8
				// CHECK2-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK2: .await.work:
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK2-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK2-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK2-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK2-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK2: .select.workers:
				// CHECK2-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK2-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK2-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK2: .execute.parallel:
				// CHECK2-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2:[0-9]+]])
				// CHECK2-NEXT: [[TMP5:%.]] = load i8, i8** [[WORK_FN]], align 8
				// CHECK2-NEXT: [[WORK_MATCH:%.]] = icmp eq i8 [[TMP5]], bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8*)
				// CHECK2-NEXT: br i1 [[WORK_MATCH]], label [[DOTEXECUTE_FN:%.]], label [[DOTCHECK_NEXT:%.]]
				// CHECK2: .execute.fn:
				// CHECK2-NEXT: call void @__omp_outlined__1_wrapper(i16 0, i32 [[TMP4]]) #[[ATTR3:[0-9]+]]
				// CHECK2-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK2: .check.next:
				// CHECK2-NEXT: [[TMP6:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK2-NEXT: call void [[TMP6]](i16 0, i32 [[TMP4]])
				// CHECK2-NEXT: br label [[DOTTERMINATE_PARALLEL]]
				// CHECK2: .terminate.parallel:
				// CHECK2-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK2-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK2: .barrier.parallel:
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l19
				// CHECK2-SAME: () #[[ATTR1:[0-9]+]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK2-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK2-NEXT: [[TMP0:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK2-NEXT: br i1 [[TMP0]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK2: .worker:
				// CHECK2-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l19_worker() #[[ATTR3]]
				// CHECK2-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK2: .mastercheck:
				// CHECK2-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[TMP1:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK2-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK2-NEXT: [[TMP3:%.*]] = xor i32 [[TMP1]], -1
				// CHECK2-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP2]], [[TMP3]]
				// CHECK2-NEXT: [[TMP4:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK2-NEXT: br i1 [[TMP4]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK2: .master:
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK2-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK2-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK2-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK2-NEXT: [[TMP5:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				// CHECK2-NEXT: store i32 [[TMP5]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK2-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				// CHECK2-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK2: .termination.notifier:
				// CHECK2-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK2-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK2-NEXT: br label [[DOTEXIT]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.*]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[TMP:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK2-NEXT: [[TMP0:%.]] = call i8 @__kmpc_data_sharing_push_stack(i64 4, i16 1)
				// CHECK2-NEXT: [[TMP1:%.]] = bitcast i8 [[TMP0]] to %struct._globalized_locals_ty*
				// CHECK2-NEXT: [[I:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP1]], i32 0, i32 0
				// CHECK2-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4
				// CHECK2-NEXT: store i32 9, i32* [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
				// CHECK2-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
				// CHECK2-NEXT: [[TMP2:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK2-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP2]], align 4
				// CHECK2-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB1:[0-9]+]], i32 [[TMP3]], i32 92, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 1)
				// CHECK2-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: [[CMP:%.*]] = icmp sgt i32 [[TMP4]], 9
				// CHECK2-NEXT: br i1 [[CMP]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]]
				// CHECK2: cond.true:
				// CHECK2-NEXT: br label [[COND_END:%.*]]
				// CHECK2: cond.false:
				// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: br label [[COND_END]]
				// CHECK2: cond.end:
				// CHECK2-NEXT: [[COND:%.*]] = phi i32 [ 9, [[COND_TRUE]] ], [ [[TMP5]], [[COND_FALSE]] ]
				// CHECK2-NEXT: store i32 [[COND]], i32* [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: [[TMP6:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK2-NEXT: store i32 [[TMP6]], i32* [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: br label [[OMP_INNER_FOR_COND:%.*]]
				// CHECK2: omp.inner.for.cond:
				// CHECK2-NEXT: [[TMP7:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: [[CMP1:%.*]] = icmp sle i32 [[TMP7]], [[TMP8]]
				// CHECK2-NEXT: br i1 [[CMP1]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]]
				// CHECK2: omp.inner.for.body:
				// CHECK2-NEXT: [[TMP9:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: [[MUL:%.*]] = mul nsw i32 [[TMP9]], 1
				// CHECK2-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]
				// CHECK2-NEXT: store i32 [[ADD]], i32* [[I]], align 4
				// CHECK2-NEXT: [[TMP10:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK2-NEXT: [[TMP11:%.]] = bitcast i32 [[I]] to i8*
				// CHECK2-NEXT: store i8* [[TMP11]], i8** [[TMP10]], align 8
				// CHECK2-NEXT: [[TMP12:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK2-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP3]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32) @__omp_outlined__1 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8), i8* [[TMP12]], i64 1)
				// CHECK2-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]
				// CHECK2: omp.body.continue:
				// CHECK2-NEXT: br label [[OMP_INNER_FOR_INC:%.*]]
				// CHECK2: omp.inner.for.inc:
				// CHECK2-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: [[ADD2:%.*]] = add nsw i32 [[TMP13]], 1
				// CHECK2-NEXT: store i32 [[ADD2]], i32* [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: br label [[OMP_INNER_FOR_COND]]
				// CHECK2: omp.inner.for.end:
				// CHECK2-NEXT: br label [[OMP_LOOP_EXIT:%.*]]
				// CHECK2: omp.loop.exit:
				// CHECK2-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB1]], i32 [[TMP3]])
				// CHECK2-NEXT: call void @__kmpc_data_sharing_pop_stack(i8* [[TMP0]])
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[I:%.*]]) #[[ATTR1]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: [[I_ADDR:%.]] = alloca i32, align 8
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK2-NEXT: store i32* [[I]], i32** [[I_ADDR]], align 8
				// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[I_ADDR]], align 8
				// CHECK2-NEXT: [[TMP1:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK2-NEXT: [[INC:%.*]] = add nsw i32 [[TMP1]], 1
				// CHECK2-NEXT: store i32 [[INC]], i32* [[TMP0]], align 4
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
				// CHECK2-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK2-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				// CHECK2-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				// CHECK2-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8
				// CHECK2-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0
				// CHECK2-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
				// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 8
				// CHECK2-NEXT: call void @__omp_outlined__1(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR3]]
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l19_worker
				// CHECK3-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[WORK_FN:%.]] = alloca i8, align 4
				// CHECK3-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK3-NEXT: store i8* null, i8** [[WORK_FN]], align 4
				// CHECK3-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK3: .await.work:
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK3-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK3-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 4
				// CHECK3-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK3-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK3: .select.workers:
				// CHECK3-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK3-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK3-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK3: .execute.parallel:
				// CHECK3-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2:[0-9]+]])
				// CHECK3-NEXT: [[TMP5:%.]] = load i8, i8** [[WORK_FN]], align 4
				// CHECK3-NEXT: [[WORK_MATCH:%.]] = icmp eq i8 [[TMP5]], bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8*)
				// CHECK3-NEXT: br i1 [[WORK_MATCH]], label [[DOTEXECUTE_FN:%.]], label [[DOTCHECK_NEXT:%.]]
				// CHECK3: .execute.fn:
				// CHECK3-NEXT: call void @__omp_outlined__1_wrapper(i16 0, i32 [[TMP4]]) #[[ATTR3:[0-9]+]]
				// CHECK3-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK3: .check.next:
				// CHECK3-NEXT: [[TMP6:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK3-NEXT: call void [[TMP6]](i16 0, i32 [[TMP4]])
				// CHECK3-NEXT: br label [[DOTTERMINATE_PARALLEL]]
				// CHECK3: .terminate.parallel:
				// CHECK3-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK3-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK3: .barrier.parallel:
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l19
				// CHECK3-SAME: () #[[ATTR1:[0-9]+]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK3-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK3-NEXT: [[TMP0:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK3-NEXT: br i1 [[TMP0]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK3: .worker:
				// CHECK3-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l19_worker() #[[ATTR3]]
				// CHECK3-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK3: .mastercheck:
				// CHECK3-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[TMP1:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK3-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK3-NEXT: [[TMP3:%.*]] = xor i32 [[TMP1]], -1
				// CHECK3-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP2]], [[TMP3]]
				// CHECK3-NEXT: [[TMP4:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK3-NEXT: br i1 [[TMP4]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK3: .master:
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK3-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK3-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK3-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK3-NEXT: [[TMP5:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				// CHECK3-NEXT: store i32 [[TMP5]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK3-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				// CHECK3-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK3: .termination.notifier:
				// CHECK3-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK3-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK3-NEXT: br label [[DOTEXIT]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.*]]) #[[ATTR1]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[TMP:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
				// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = load i16, i16 @"_openmp_static_kernel$is_shared", align 2
				// CHECK3-NEXT: [[TMP1:%.]] = load i32, i32 @"_openmp_static_kernel$size", align 4
				// CHECK3-NEXT: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds (%"union._shared_openmp_static_memory_type_$_", %"union._shared_openmp_static_memory_type_$_" addrspace(3)* @"_openmp_shared_static_glob_rd_$_", i32 0, i32 0, i32 0) to i8), i32 [[TMP1]], i16 [[TMP0]], i8* addrspacecast (i8* addrspace(3)* @"_openmp_kernel_static_glob_rd$ptr" to i8**))
				// CHECK3-NEXT: [[TMP2:%.]] = load i8, i8* addrspace(3)* @"_openmp_kernel_static_glob_rd$ptr", align 4
				// CHECK3-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8 [[TMP2]], i32 0
				// CHECK3-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to %struct._globalized_locals_ty*
				// CHECK3-NEXT: [[I:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP4]], i32 0, i32 0
				// CHECK3-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4
				// CHECK3-NEXT: store i32 9, i32* [[DOTOMP_UB]], align 4
				// CHECK3-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
				// CHECK3-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
				// CHECK3-NEXT: [[TMP5:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: [[TMP6:%.]] = load i32, i32 [[TMP5]], align 4
				// CHECK3-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB1:[0-9]+]], i32 [[TMP6]], i32 92, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 1)
				// CHECK3-NEXT: [[TMP7:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK3-NEXT: [[CMP:%.*]] = icmp sgt i32 [[TMP7]], 9
				// CHECK3-NEXT: br i1 [[CMP]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]]
				// CHECK3: cond.true:
				// CHECK3-NEXT: br label [[COND_END:%.*]]
				// CHECK3: cond.false:
				// CHECK3-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK3-NEXT: br label [[COND_END]]
				// CHECK3: cond.end:
				// CHECK3-NEXT: [[COND:%.*]] = phi i32 [ 9, [[COND_TRUE]] ], [ [[TMP8]], [[COND_FALSE]] ]
				// CHECK3-NEXT: store i32 [[COND]], i32* [[DOTOMP_UB]], align 4
				// CHECK3-NEXT: [[TMP9:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK3-NEXT: store i32 [[TMP9]], i32* [[DOTOMP_IV]], align 4
				// CHECK3-NEXT: br label [[OMP_INNER_FOR_COND:%.*]]
				// CHECK3: omp.inner.for.cond:
				// CHECK3-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK3-NEXT: [[TMP11:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK3-NEXT: [[CMP1:%.*]] = icmp sle i32 [[TMP10]], [[TMP11]]
				// CHECK3-NEXT: br i1 [[CMP1]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]]
				// CHECK3: omp.inner.for.body:
				// CHECK3-NEXT: [[TMP12:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK3-NEXT: [[MUL:%.*]] = mul nsw i32 [[TMP12]], 1
				// CHECK3-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]
				// CHECK3-NEXT: store i32 [[ADD]], i32* [[I]], align 4
				// CHECK3-NEXT: [[TMP13:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK3-NEXT: [[TMP14:%.]] = bitcast i32 [[I]] to i8*
				// CHECK3-NEXT: store i8* [[TMP14]], i8** [[TMP13]], align 4
				// CHECK3-NEXT: [[TMP15:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK3-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP6]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32) @__omp_outlined__1 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8), i8* [[TMP15]], i32 1)
				// CHECK3-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]
				// CHECK3: omp.body.continue:
				// CHECK3-NEXT: br label [[OMP_INNER_FOR_INC:%.*]]
				// CHECK3: omp.inner.for.inc:
				// CHECK3-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK3-NEXT: [[ADD2:%.*]] = add nsw i32 [[TMP16]], 1
				// CHECK3-NEXT: store i32 [[ADD2]], i32* [[DOTOMP_IV]], align 4
				// CHECK3-NEXT: br label [[OMP_INNER_FOR_COND]]
				// CHECK3: omp.inner.for.end:
				// CHECK3-NEXT: br label [[OMP_LOOP_EXIT:%.*]]
				// CHECK3: omp.loop.exit:
				// CHECK3-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB1]], i32 [[TMP6]])
				// CHECK3-NEXT: [[TMP17:%.]] = load i16, i16 @"_openmp_static_kernel$is_shared", align 2
				// CHECK3-NEXT: call void @__kmpc_restore_team_static_memory(i16 0, i16 [[TMP17]])
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[I:%.*]]) #[[ATTR1]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[I_ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[I]], i32** [[I_ADDR]], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = load i32, i32** [[I_ADDR]], align 4
				// CHECK3-NEXT: [[TMP1:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK3-NEXT: [[INC:%.*]] = add nsw i32 [[TMP1]], 1
				// CHECK3-NEXT: store i32 [[INC]], i32* [[TMP0]], align 4
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
				// CHECK3-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 4
				// CHECK3-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK3-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				// CHECK3-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				// CHECK3-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 4
				// CHECK3-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i32 0
				// CHECK3-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
				// CHECK3-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 4
				// CHECK3-NEXT: call void @__omp_outlined__1(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR3]]
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l19_worker
				// CHECK4-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[WORK_FN:%.]] = alloca i8, align 4
				// CHECK4-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK4-NEXT: store i8* null, i8** [[WORK_FN]], align 4
				// CHECK4-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK4-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK4: .await.work:
				// CHECK4-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK4-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK4-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK4-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK4-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 4
				// CHECK4-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK4-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK4: .select.workers:
				// CHECK4-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK4-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK4-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK4: .execute.parallel:
				// CHECK4-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2:[0-9]+]])
				// CHECK4-NEXT: [[TMP5:%.]] = load i8, i8** [[WORK_FN]], align 4
				// CHECK4-NEXT: [[WORK_MATCH:%.]] = icmp eq i8 [[TMP5]], bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8*)
				// CHECK4-NEXT: br i1 [[WORK_MATCH]], label [[DOTEXECUTE_FN:%.]], label [[DOTCHECK_NEXT:%.]]
				// CHECK4: .execute.fn:
				// CHECK4-NEXT: call void @__omp_outlined__1_wrapper(i16 0, i32 [[TMP4]]) #[[ATTR3:[0-9]+]]
				// CHECK4-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK4: .check.next:
				// CHECK4-NEXT: [[TMP6:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK4-NEXT: call void [[TMP6]](i16 0, i32 [[TMP4]])
				// CHECK4-NEXT: br label [[DOTTERMINATE_PARALLEL]]
				// CHECK4: .terminate.parallel:
				// CHECK4-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK4-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK4: .barrier.parallel:
				// CHECK4-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK4-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK4: .exit:
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l19
				// CHECK4-SAME: () #[[ATTR1:[0-9]+]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK4-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK4-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK4-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK4-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK4-NEXT: [[TMP0:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK4-NEXT: br i1 [[TMP0]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK4: .worker:
				// CHECK4-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l19_worker() #[[ATTR3]]
				// CHECK4-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK4: .mastercheck:
				// CHECK4-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK4-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK4-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK4-NEXT: [[TMP1:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK4-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK4-NEXT: [[TMP3:%.*]] = xor i32 [[TMP1]], -1
				// CHECK4-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP2]], [[TMP3]]
				// CHECK4-NEXT: [[TMP4:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK4-NEXT: br i1 [[TMP4]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK4: .master:
				// CHECK4-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK4-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK4-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK4-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK4-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK4-NEXT: [[TMP5:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				// CHECK4-NEXT: store i32 [[TMP5]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK4-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				// CHECK4-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK4: .termination.notifier:
				// CHECK4-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK4-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK4-NEXT: br label [[DOTEXIT]]
				// CHECK4: .exit:
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK4-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.*]]) #[[ATTR1]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[TMP:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
				// CHECK4-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK4-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK4-NEXT: [[TMP0:%.]] = load i16, i16 @"_openmp_static_kernel$is_shared", align 2
				// CHECK4-NEXT: [[TMP1:%.]] = load i32, i32 @"_openmp_static_kernel$size", align 4
				// CHECK4-NEXT: call void @__kmpc_get_team_static_memory(i16 0, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds (%"union._shared_openmp_static_memory_type_$_", %"union._shared_openmp_static_memory_type_$_" addrspace(3)* @"_openmp_shared_static_glob_rd_$_", i32 0, i32 0, i32 0) to i8), i32 [[TMP1]], i16 [[TMP0]], i8* addrspacecast (i8* addrspace(3)* @"_openmp_kernel_static_glob_rd$ptr" to i8**))
				// CHECK4-NEXT: [[TMP2:%.]] = load i8, i8* addrspace(3)* @"_openmp_kernel_static_glob_rd$ptr", align 4
				// CHECK4-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8 [[TMP2]], i32 0
				// CHECK4-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to %struct._globalized_locals_ty*
				// CHECK4-NEXT: [[I:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP4]], i32 0, i32 0
				// CHECK4-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4
				// CHECK4-NEXT: store i32 9, i32* [[DOTOMP_UB]], align 4
				// CHECK4-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
				// CHECK4-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
				// CHECK4-NEXT: [[TMP5:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK4-NEXT: [[TMP6:%.]] = load i32, i32 [[TMP5]], align 4
				// CHECK4-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB1:[0-9]+]], i32 [[TMP6]], i32 92, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 1)
				// CHECK4-NEXT: [[TMP7:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK4-NEXT: [[CMP:%.*]] = icmp sgt i32 [[TMP7]], 9
				// CHECK4-NEXT: br i1 [[CMP]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]]
				// CHECK4: cond.true:
				// CHECK4-NEXT: br label [[COND_END:%.*]]
				// CHECK4: cond.false:
				// CHECK4-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK4-NEXT: br label [[COND_END]]
				// CHECK4: cond.end:
				// CHECK4-NEXT: [[COND:%.*]] = phi i32 [ 9, [[COND_TRUE]] ], [ [[TMP8]], [[COND_FALSE]] ]
				// CHECK4-NEXT: store i32 [[COND]], i32* [[DOTOMP_UB]], align 4
				// CHECK4-NEXT: [[TMP9:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK4-NEXT: store i32 [[TMP9]], i32* [[DOTOMP_IV]], align 4
				// CHECK4-NEXT: br label [[OMP_INNER_FOR_COND:%.*]]
				// CHECK4: omp.inner.for.cond:
				// CHECK4-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK4-NEXT: [[TMP11:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK4-NEXT: [[CMP1:%.*]] = icmp sle i32 [[TMP10]], [[TMP11]]
				// CHECK4-NEXT: br i1 [[CMP1]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]]
				// CHECK4: omp.inner.for.body:
				// CHECK4-NEXT: [[TMP12:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK4-NEXT: [[MUL:%.*]] = mul nsw i32 [[TMP12]], 1
				// CHECK4-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]
				// CHECK4-NEXT: store i32 [[ADD]], i32* [[I]], align 4
				// CHECK4-NEXT: [[TMP13:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK4-NEXT: [[TMP14:%.]] = bitcast i32 [[I]] to i8*
				// CHECK4-NEXT: store i8* [[TMP14]], i8** [[TMP13]], align 4
				// CHECK4-NEXT: [[TMP15:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK4-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP6]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32) @__omp_outlined__1 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8), i8* [[TMP15]], i32 1)
				// CHECK4-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]
				// CHECK4: omp.body.continue:
				// CHECK4-NEXT: br label [[OMP_INNER_FOR_INC:%.*]]
				// CHECK4: omp.inner.for.inc:
				// CHECK4-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK4-NEXT: [[ADD2:%.*]] = add nsw i32 [[TMP16]], 1
				// CHECK4-NEXT: store i32 [[ADD2]], i32* [[DOTOMP_IV]], align 4
				// CHECK4-NEXT: br label [[OMP_INNER_FOR_COND]]
				// CHECK4: omp.inner.for.end:
				// CHECK4-NEXT: br label [[OMP_LOOP_EXIT:%.*]]
				// CHECK4: omp.loop.exit:
				// CHECK4-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB1]], i32 [[TMP6]])
				// CHECK4-NEXT: [[TMP17:%.]] = load i16, i16 @"_openmp_static_kernel$is_shared", align 2
				// CHECK4-NEXT: call void @__kmpc_restore_team_static_memory(i16 0, i16 [[TMP17]])
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK4-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[I:%.*]]) #[[ATTR1]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK4-NEXT: [[I_ADDR:%.]] = alloca i32, align 4
				// CHECK4-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK4-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK4-NEXT: store i32* [[I]], i32** [[I_ADDR]], align 4
				// CHECK4-NEXT: [[TMP0:%.]] = load i32, i32** [[I_ADDR]], align 4
				// CHECK4-NEXT: [[TMP1:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK4-NEXT: [[INC:%.*]] = add nsw i32 [[TMP1]], 1
				// CHECK4-NEXT: store i32 [[INC]], i32* [[TMP0]], align 4
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
				// CHECK4-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				// CHECK4-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 4
				// CHECK4-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK4-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				// CHECK4-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				// CHECK4-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				// CHECK4-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 4
				// CHECK4-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i32 0
				// CHECK4-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
				// CHECK4-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 4
				// CHECK4-NEXT: call void @__omp_outlined__1(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR3]]
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK5-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l19_worker
				// CHECK5-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK5-NEXT: entry:
				// CHECK5-NEXT: [[WORK_FN:%.]] = alloca i8, align 4
				// CHECK5-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK5-NEXT: store i8* null, i8** [[WORK_FN]], align 4
				// CHECK5-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK5-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK5: .await.work:
				// CHECK5-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK5-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK5-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK5-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK5-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 4
				// CHECK5-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK5-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK5: .select.workers:
				// CHECK5-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK5-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK5-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK5: .execute.parallel:
				// CHECK5-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2:[0-9]+]])
				// CHECK5-NEXT: [[TMP5:%.]] = load i8, i8** [[WORK_FN]], align 4
				// CHECK5-NEXT: [[WORK_MATCH:%.]] = icmp eq i8 [[TMP5]], bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8*)
				// CHECK5-NEXT: br i1 [[WORK_MATCH]], label [[DOTEXECUTE_FN:%.]], label [[DOTCHECK_NEXT:%.]]
				// CHECK5: .execute.fn:
				// CHECK5-NEXT: call void @__omp_outlined__1_wrapper(i16 0, i32 [[TMP4]]) #[[ATTR3:[0-9]+]]
				// CHECK5-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK5: .check.next:
				// CHECK5-NEXT: [[TMP6:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK5-NEXT: call void [[TMP6]](i16 0, i32 [[TMP4]])
				// CHECK5-NEXT: br label [[DOTTERMINATE_PARALLEL]]
				// CHECK5: .terminate.parallel:
				// CHECK5-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK5-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK5: .barrier.parallel:
				// CHECK5-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK5-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK5: .exit:
				// CHECK5-NEXT: ret void
				//
				//
				// CHECK5-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l19
				// CHECK5-SAME: () #[[ATTR1:[0-9]+]] {
				// CHECK5-NEXT: entry:
				// CHECK5-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK5-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK5-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK5-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK5-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK5-NEXT: [[TMP0:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK5-NEXT: br i1 [[TMP0]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK5: .worker:
				// CHECK5-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l19_worker() #[[ATTR3]]
				// CHECK5-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK5: .mastercheck:
				// CHECK5-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK5-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK5-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK5-NEXT: [[TMP1:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK5-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK5-NEXT: [[TMP3:%.*]] = xor i32 [[TMP1]], -1
				// CHECK5-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP2]], [[TMP3]]
				// CHECK5-NEXT: [[TMP4:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK5-NEXT: br i1 [[TMP4]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK5: .master:
				// CHECK5-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK5-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK5-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK5-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK5-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK5-NEXT: [[TMP5:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				// CHECK5-NEXT: store i32 [[TMP5]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK5-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				// CHECK5-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK5: .termination.notifier:
				// CHECK5-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK5-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK5-NEXT: br label [[DOTEXIT]]
				// CHECK5: .exit:
				// CHECK5-NEXT: ret void
				//
				//
				// CHECK5-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK5-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.*]]) #[[ATTR1]] {
				// CHECK5-NEXT: entry:
				// CHECK5-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[TMP:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
				// CHECK5-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK5-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK5-NEXT: [[TMP0:%.]] = call i8 @__kmpc_data_sharing_push_stack(i32 4, i16 1)
				// CHECK5-NEXT: [[TMP1:%.]] = bitcast i8 [[TMP0]] to %struct._globalized_locals_ty*
				// CHECK5-NEXT: [[I:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP1]], i32 0, i32 0
				// CHECK5-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4
				// CHECK5-NEXT: store i32 9, i32* [[DOTOMP_UB]], align 4
				// CHECK5-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
				// CHECK5-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
				// CHECK5-NEXT: [[TMP2:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK5-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP2]], align 4
				// CHECK5-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB1:[0-9]+]], i32 [[TMP3]], i32 92, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 1)
				// CHECK5-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK5-NEXT: [[CMP:%.*]] = icmp sgt i32 [[TMP4]], 9
				// CHECK5-NEXT: br i1 [[CMP]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]]
				// CHECK5: cond.true:
				// CHECK5-NEXT: br label [[COND_END:%.*]]
				// CHECK5: cond.false:
				// CHECK5-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK5-NEXT: br label [[COND_END]]
				// CHECK5: cond.end:
				// CHECK5-NEXT: [[COND:%.*]] = phi i32 [ 9, [[COND_TRUE]] ], [ [[TMP5]], [[COND_FALSE]] ]
				// CHECK5-NEXT: store i32 [[COND]], i32* [[DOTOMP_UB]], align 4
				// CHECK5-NEXT: [[TMP6:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK5-NEXT: store i32 [[TMP6]], i32* [[DOTOMP_IV]], align 4
				// CHECK5-NEXT: br label [[OMP_INNER_FOR_COND:%.*]]
				// CHECK5: omp.inner.for.cond:
				// CHECK5-NEXT: [[TMP7:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK5-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK5-NEXT: [[CMP1:%.*]] = icmp sle i32 [[TMP7]], [[TMP8]]
				// CHECK5-NEXT: br i1 [[CMP1]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]]
				// CHECK5: omp.inner.for.body:
				// CHECK5-NEXT: [[TMP9:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK5-NEXT: [[MUL:%.*]] = mul nsw i32 [[TMP9]], 1
				// CHECK5-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]
				// CHECK5-NEXT: store i32 [[ADD]], i32* [[I]], align 4
				// CHECK5-NEXT: [[TMP10:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK5-NEXT: [[TMP11:%.]] = bitcast i32 [[I]] to i8*
				// CHECK5-NEXT: store i8* [[TMP11]], i8** [[TMP10]], align 4
				// CHECK5-NEXT: [[TMP12:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK5-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP3]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32) @__omp_outlined__1 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8), i8* [[TMP12]], i32 1)
				// CHECK5-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]
				// CHECK5: omp.body.continue:
				// CHECK5-NEXT: br label [[OMP_INNER_FOR_INC:%.*]]
				// CHECK5: omp.inner.for.inc:
				// CHECK5-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK5-NEXT: [[ADD2:%.*]] = add nsw i32 [[TMP13]], 1
				// CHECK5-NEXT: store i32 [[ADD2]], i32* [[DOTOMP_IV]], align 4
				// CHECK5-NEXT: br label [[OMP_INNER_FOR_COND]]
				// CHECK5: omp.inner.for.end:
				// CHECK5-NEXT: br label [[OMP_LOOP_EXIT:%.*]]
				// CHECK5: omp.loop.exit:
				// CHECK5-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB1]], i32 [[TMP3]])
				// CHECK5-NEXT: call void @__kmpc_data_sharing_pop_stack(i8* [[TMP0]])
				// CHECK5-NEXT: ret void
				//
				//
				// CHECK5-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK5-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[I:%.*]]) #[[ATTR1]] {
				// CHECK5-NEXT: entry:
				// CHECK5-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[I_ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK5-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK5-NEXT: store i32* [[I]], i32** [[I_ADDR]], align 4
				// CHECK5-NEXT: [[TMP0:%.]] = load i32, i32** [[I_ADDR]], align 4
				// CHECK5-NEXT: [[TMP1:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK5-NEXT: [[INC:%.*]] = add nsw i32 [[TMP1]], 1
				// CHECK5-NEXT: store i32 [[INC]], i32* [[TMP0]], align 4
				// CHECK5-NEXT: ret void
				//
				//
				// CHECK5-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
				// CHECK5-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				// CHECK5-NEXT: entry:
				// CHECK5-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				// CHECK5-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 4
				// CHECK5-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK5-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				// CHECK5-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				// CHECK5-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				// CHECK5-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 4
				// CHECK5-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i32 0
				// CHECK5-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
				// CHECK5-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 4
				// CHECK5-NEXT: call void @__omp_outlined__1(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR3]]
				// CHECK5-NEXT: ret void
				//
				//
				// CHECK6-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l19_worker
				// CHECK6-SAME: () #[[ATTR0:[0-9]+]] {
				// CHECK6-NEXT: entry:
				// CHECK6-NEXT: [[WORK_FN:%.]] = alloca i8, align 4
				// CHECK6-NEXT: [[EXEC_STATUS:%.*]] = alloca i8, align 1
				// CHECK6-NEXT: store i8* null, i8** [[WORK_FN]], align 4
				// CHECK6-NEXT: store i8 0, i8* [[EXEC_STATUS]], align 1
				// CHECK6-NEXT: br label [[DOTAWAIT_WORK:%.*]]
				// CHECK6: .await.work:
				// CHECK6-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK6-NEXT: [[TMP0:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORK_FN]])
				// CHECK6-NEXT: [[TMP1:%.*]] = zext i1 [[TMP0]] to i8
				// CHECK6-NEXT: store i8 [[TMP1]], i8* [[EXEC_STATUS]], align 1
				// CHECK6-NEXT: [[TMP2:%.]] = load i8, i8** [[WORK_FN]], align 4
				// CHECK6-NEXT: [[SHOULD_TERMINATE:%.]] = icmp eq i8 [[TMP2]], null
				// CHECK6-NEXT: br i1 [[SHOULD_TERMINATE]], label [[DOTEXIT:%.]], label [[DOTSELECT_WORKERS:%.]]
				// CHECK6: .select.workers:
				// CHECK6-NEXT: [[TMP3:%.]] = load i8, i8 [[EXEC_STATUS]], align 1
				// CHECK6-NEXT: [[IS_ACTIVE:%.*]] = icmp ne i8 [[TMP3]], 0
				// CHECK6-NEXT: br i1 [[IS_ACTIVE]], label [[DOTEXECUTE_PARALLEL:%.]], label [[DOTBARRIER_PARALLEL:%.]]
				// CHECK6: .execute.parallel:
				// CHECK6-NEXT: [[TMP4:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2:[0-9]+]])
				// CHECK6-NEXT: [[TMP5:%.]] = load i8, i8** [[WORK_FN]], align 4
				// CHECK6-NEXT: [[WORK_MATCH:%.]] = icmp eq i8 [[TMP5]], bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8*)
				// CHECK6-NEXT: br i1 [[WORK_MATCH]], label [[DOTEXECUTE_FN:%.]], label [[DOTCHECK_NEXT:%.]]
				// CHECK6: .execute.fn:
				// CHECK6-NEXT: call void @__omp_outlined__1_wrapper(i16 0, i32 [[TMP4]]) #[[ATTR3:[0-9]+]]
				// CHECK6-NEXT: br label [[DOTTERMINATE_PARALLEL:%.*]]
				// CHECK6: .check.next:
				// CHECK6-NEXT: [[TMP6:%.]] = bitcast i8 [[TMP2]] to void (i16, i32)*
				// CHECK6-NEXT: call void [[TMP6]](i16 0, i32 [[TMP4]])
				// CHECK6-NEXT: br label [[DOTTERMINATE_PARALLEL]]
				// CHECK6: .terminate.parallel:
				// CHECK6-NEXT: call void @__kmpc_kernel_end_parallel()
				// CHECK6-NEXT: br label [[DOTBARRIER_PARALLEL]]
				// CHECK6: .barrier.parallel:
				// CHECK6-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK6-NEXT: br label [[DOTAWAIT_WORK]]
				// CHECK6: .exit:
				// CHECK6-NEXT: ret void
				//
				//
				// CHECK6-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l19
				// CHECK6-SAME: () #[[ATTR1:[0-9]+]] {
				// CHECK6-NEXT: entry:
				// CHECK6-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK6-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK6-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK6-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK6-NEXT: [[THREAD_LIMIT:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS]], [[NVPTX_WARP_SIZE]]
				// CHECK6-NEXT: [[TMP0:%.*]] = icmp ult i32 [[NVPTX_TID]], [[THREAD_LIMIT]]
				// CHECK6-NEXT: br i1 [[TMP0]], label [[DOTWORKER:%.]], label [[DOTMASTERCHECK:%.]]
				// CHECK6: .worker:
				// CHECK6-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l19_worker() #[[ATTR3]]
				// CHECK6-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK6: .mastercheck:
				// CHECK6-NEXT: [[NVPTX_TID1:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				// CHECK6-NEXT: [[NVPTX_NUM_THREADS2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK6-NEXT: [[NVPTX_WARP_SIZE3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK6-NEXT: [[TMP1:%.*]] = sub nuw i32 [[NVPTX_WARP_SIZE3]], 1
				// CHECK6-NEXT: [[TMP2:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS2]], 1
				// CHECK6-NEXT: [[TMP3:%.*]] = xor i32 [[TMP1]], -1
				// CHECK6-NEXT: [[MASTER_TID:%.*]] = and i32 [[TMP2]], [[TMP3]]
				// CHECK6-NEXT: [[TMP4:%.*]] = icmp eq i32 [[NVPTX_TID1]], [[MASTER_TID]]
				// CHECK6-NEXT: br i1 [[TMP4]], label [[DOTMASTER:%.*]], label [[DOTEXIT]]
				// CHECK6: .master:
				// CHECK6-NEXT: [[NVPTX_NUM_THREADS4:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK6-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				// CHECK6-NEXT: [[THREAD_LIMIT6:%.*]] = sub nuw i32 [[NVPTX_NUM_THREADS4]], [[NVPTX_WARP_SIZE5]]
				// CHECK6-NEXT: call void @__kmpc_kernel_init(i32 [[THREAD_LIMIT6]], i16 1)
				// CHECK6-NEXT: call void @__kmpc_data_sharing_init_stack()
				// CHECK6-NEXT: [[TMP5:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				// CHECK6-NEXT: store i32 [[TMP5]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK6-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				// CHECK6-NEXT: br label [[DOTTERMINATION_NOTIFIER:%.*]]
				// CHECK6: .termination.notifier:
				// CHECK6-NEXT: call void @__kmpc_kernel_deinit(i16 1)
				// CHECK6-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				// CHECK6-NEXT: br label [[DOTEXIT]]
				// CHECK6: .exit:
				// CHECK6-NEXT: ret void
				//
				//
				// CHECK6-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK6-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.*]]) #[[ATTR1]] {
				// CHECK6-NEXT: entry:
				// CHECK6-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[TMP:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
				// CHECK6-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK6-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK6-NEXT: [[TMP0:%.]] = call i8 @__kmpc_data_sharing_push_stack(i32 4, i16 1)
				// CHECK6-NEXT: [[TMP1:%.]] = bitcast i8 [[TMP0]] to %struct._globalized_locals_ty*
				// CHECK6-NEXT: [[I:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP1]], i32 0, i32 0
				// CHECK6-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4
				// CHECK6-NEXT: store i32 9, i32* [[DOTOMP_UB]], align 4
				// CHECK6-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
				// CHECK6-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
				// CHECK6-NEXT: [[TMP2:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK6-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP2]], align 4
				// CHECK6-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB1:[0-9]+]], i32 [[TMP3]], i32 92, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 1)
				// CHECK6-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK6-NEXT: [[CMP:%.*]] = icmp sgt i32 [[TMP4]], 9
				// CHECK6-NEXT: br i1 [[CMP]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]]
				// CHECK6: cond.true:
				// CHECK6-NEXT: br label [[COND_END:%.*]]
				// CHECK6: cond.false:
				// CHECK6-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK6-NEXT: br label [[COND_END]]
				// CHECK6: cond.end:
				// CHECK6-NEXT: [[COND:%.*]] = phi i32 [ 9, [[COND_TRUE]] ], [ [[TMP5]], [[COND_FALSE]] ]
				// CHECK6-NEXT: store i32 [[COND]], i32* [[DOTOMP_UB]], align 4
				// CHECK6-NEXT: [[TMP6:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK6-NEXT: store i32 [[TMP6]], i32* [[DOTOMP_IV]], align 4
				// CHECK6-NEXT: br label [[OMP_INNER_FOR_COND:%.*]]
				// CHECK6: omp.inner.for.cond:
				// CHECK6-NEXT: [[TMP7:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK6-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK6-NEXT: [[CMP1:%.*]] = icmp sle i32 [[TMP7]], [[TMP8]]
				// CHECK6-NEXT: br i1 [[CMP1]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]]
				// CHECK6: omp.inner.for.body:
				// CHECK6-NEXT: [[TMP9:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK6-NEXT: [[MUL:%.*]] = mul nsw i32 [[TMP9]], 1
				// CHECK6-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]
				// CHECK6-NEXT: store i32 [[ADD]], i32* [[I]], align 4
				// CHECK6-NEXT: [[TMP10:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK6-NEXT: [[TMP11:%.]] = bitcast i32 [[I]] to i8*
				// CHECK6-NEXT: store i8* [[TMP11]], i8** [[TMP10]], align 4
				// CHECK6-NEXT: [[TMP12:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK6-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP3]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32) @__omp_outlined__1 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8), i8* [[TMP12]], i32 1)
				// CHECK6-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]
				// CHECK6: omp.body.continue:
				// CHECK6-NEXT: br label [[OMP_INNER_FOR_INC:%.*]]
				// CHECK6: omp.inner.for.inc:
				// CHECK6-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK6-NEXT: [[ADD2:%.*]] = add nsw i32 [[TMP13]], 1
				// CHECK6-NEXT: store i32 [[ADD2]], i32* [[DOTOMP_IV]], align 4
				// CHECK6-NEXT: br label [[OMP_INNER_FOR_COND]]
				// CHECK6: omp.inner.for.end:
				// CHECK6-NEXT: br label [[OMP_LOOP_EXIT:%.*]]
				// CHECK6: omp.loop.exit:
				// CHECK6-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB1]], i32 [[TMP3]])
				// CHECK6-NEXT: call void @__kmpc_data_sharing_pop_stack(i8* [[TMP0]])
				// CHECK6-NEXT: ret void
				//
				//
				// CHECK6-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK6-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[I:%.*]]) #[[ATTR1]] {
				// CHECK6-NEXT: entry:
				// CHECK6-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[I_ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK6-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK6-NEXT: store i32* [[I]], i32** [[I_ADDR]], align 4
				// CHECK6-NEXT: [[TMP0:%.]] = load i32, i32** [[I_ADDR]], align 4
				// CHECK6-NEXT: [[TMP1:%.]] = load i32, i32 [[TMP0]], align 4
				// CHECK6-NEXT: [[INC:%.*]] = add nsw i32 [[TMP1]], 1
				// CHECK6-NEXT: store i32 [[INC]], i32* [[TMP0]], align 4
				// CHECK6-NEXT: ret void
				//
				//
				// CHECK6-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
				// CHECK6-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				// CHECK6-NEXT: entry:
				// CHECK6-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				// CHECK6-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 4
				// CHECK6-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK6-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				// CHECK6-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				// CHECK6-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				// CHECK6-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 4
				// CHECK6-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i32 0
				// CHECK6-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
				// CHECK6-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 4
				// CHECK6-NEXT: call void @__omp_outlined__1(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR3]]
				// CHECK6-NEXT: ret void
				//

clang/test/OpenMP/nvptx_target_teams_distribute_parallel_for_codegen.cpp

This file has a very large number of changes (25,469 lines). Show File Contents

clang/test/OpenMP/nvptx_target_teams_distribute_parallel_for_generic_mode_codegen.cpp

				// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py UTC_ARGS: --function-signature --include-generated-funcs --replace-function-regex "__omp_offloading_[0-9a-z]+_[0-9a-z]+"
	// Test target codegen - host bc file has to be created first.			// Test target codegen - host bc file has to be created first.
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CHECK1
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK2
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-version=45 -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK3

	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CHECK4
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK5
	// RUN: %clang_cc1 -verify -fopenmp -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK6

	// expected-no-diagnostics			// expected-no-diagnostics
	#ifndef HEADER			#ifndef HEADER
	#define HEADER			#define HEADER

	int a;			int a;

	int foo(int *a);			int foo(int *a);

	int main(int argc, char **argv) {			int main(int argc, char **argv) {
	#pragma omp target teams distribute parallel for map(tofrom:a) if(target:argc) schedule(static, a)			#pragma omp target teams distribute parallel for map(tofrom:a) if(target:argc) schedule(static, a)
	for (int i= 0; i < argc; ++i)			for (int i= 0; i < argc; ++i)
	a = foo(&i) + foo(&a) + foo(&argc);			a = foo(&i) + foo(&a) + foo(&argc);
	return 0;			return 0;
	}			}

	// CHECK: @__omp_offloading_{{.*}}_main_[[LINE:l.+]]_exec_mode = weak constant i8 0

	// CHECK: define weak void @__omp_offloading_{{.}}_main_[[LINE]](i{{64\|32}} %{{[^,].}}, i32* nonnull align {{[0-9]+}} dereferenceable{{[^,]}}, i{{64\|32}} %{{[^,)]}})
	// CHECK: call void @__kmpc_spmd_kernel_init(
	// CHECK: [[TID:%.+]] = call i32 @__kmpc_global_thread_num(%struct.ident_t* @
	// CHECK: call void @__kmpc_spmd_kernel_deinit_v2(i16 0)

	// CHECK: call void @__kmpc_for_static_init_4(

	// CHECK: call void [[PARALLEL:@.+]](i32* %{{.}}, i32 %{{.+}}, i{{64\|32}} %{{.+}}, i{{64\|32}} %{{.}}, i{{64\|32}} %{{.}}, i32* %{{.*}})
	// CHECK: br label %


	// CHECK: call void @__kmpc_for_static_fini(%struct.ident_t* @

	// CHECK: define internal void [[PARALLEL]](i32* noalias %{{.+}}, i32* noalias %{{.+}}, i{{64\|32}} %{{.+}}, i{{64\|32}} %{{.+}}, i{{64\|32}} [[ARGC:%.+]], i32* nonnull align {{[0-9]+}} dereferenceable{{.*}})
	// CHECK-NOT: call i8* @__kmpc_data_sharing_push_stack(
	// CHECK: alloca i{{[0-9]+}},
	// CHECK: alloca i{{[0-9]+}},
	// CHECK: [[ARGC_ADDR:%.+]] = alloca i{{32\|64}},
	// CHECK: alloca i{{[0-9]+}},
	// CHECK: alloca i{{[0-9]+}},
	// CHECK: alloca i{{[0-9]+}},
	// CHECK: alloca i{{[0-9]+}},
	// CHECK: alloca i{{[0-9]+}},
	// CHECK: alloca i{{[0-9]+}},
	// CHECK: alloca i{{[0-9]+}},
	// CHECK: alloca i{{[0-9]+}},
	// CHECK: alloca i{{[0-9]+}},
	// CHECK: alloca i{{[0-9]+}},
	// CHECK: [[I:%.+]] = alloca i32,
	// CHECK-32: store i32 [[ARGC]], i32* [[ARGC_ADDR]],
	// CHECK-64: store i{{64\|32}} [[ARGC]], i{{64\|32}}* [[ARGC_ADDR]],
	// CHECK-64: [[ARGC:%.+]] = bitcast i64* [[ARGC_ADDR]] to i32*

	// CHECK: call void @__kmpc_for_static_init_4(
	// CHECK: call i32 [[FOO:@.+foo.+]](i32* [[I]])
	// CHECK: call i32 [[FOO]](i32* %{{.+}})
	// CHECK-32: call i32 [[FOO]](i32* [[ARGC_ADDR]])
	// CHECK-64: call i32 [[FOO]](i32* [[ARGC]])
	// CHECK: call void @__kmpc_for_static_fini(

	// CHECK-NOT: call void @__kmpc_data_sharing_pop_stack(

	#endif			#endif
				// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l24
				// CHECK1-SAME: (i64 [[ARGC:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i64 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0:[0-9]+]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[ARGC_ADDR:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[ARGC_CASTED:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[DOTCAPTURE_EXPR__CASTED:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK1-NEXT: store i64 [[ARGC]], i64* [[ARGC_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: store i64 [[DOTCAPTURE_EXPR_]], i64* [[DOTCAPTURE_EXPR__ADDR]], align 8
				// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[ARGC_ADDR]] to i32*
				// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: [[CONV1:%.]] = bitcast i64 [[DOTCAPTURE_EXPR__ADDR]] to i32*
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 0)
				// CHECK1-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK1: .execute:
				// CHECK1-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3:[0-9]+]])
				// CHECK1-NEXT: [[TMP2:%.]] = load i32, i32 [[CONV]], align 8
				// CHECK1-NEXT: [[CONV2:%.]] = bitcast i64 [[ARGC_CASTED]] to i32*
				// CHECK1-NEXT: store i32 [[TMP2]], i32* [[CONV2]], align 4
				// CHECK1-NEXT: [[TMP3:%.]] = load i64, i64 [[ARGC_CASTED]], align 8
				// CHECK1-NEXT: [[TMP4:%.]] = load i32, i32 [[CONV1]], align 8
				// CHECK1-NEXT: [[CONV3:%.]] = bitcast i64 [[DOTCAPTURE_EXPR__CASTED]] to i32*
				// CHECK1-NEXT: store i32 [[TMP4]], i32* [[CONV3]], align 4
				// CHECK1-NEXT: [[TMP5:%.]] = load i64, i64 [[DOTCAPTURE_EXPR__CASTED]], align 8
				// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK1-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i64 [[TMP3]], i32* [[TMP0]], i64 [[TMP5]]) #[[ATTR3:[0-9]+]]
				// CHECK1-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK1: .omp.deinit:
				// CHECK1-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 0)
				// CHECK1-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK1: .exit:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i64 [[ARGC:%.]], i32* nonnull align 4 dereferenceable(4) [[A:%.]], i64 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[ARGC_ADDR:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[TMP:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTCAPTURE_EXPR_2:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTCAPTURE_EXPR_3:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[I:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTOMP_COMB_LB:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTOMP_COMB_UB:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[I5:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[ARGC_CASTED:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[DOTCAPTURE_EXPR__CASTED:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [5 x i8], align 8
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: store i64 [[ARGC]], i64* [[ARGC_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: store i64 [[DOTCAPTURE_EXPR_]], i64* [[DOTCAPTURE_EXPR__ADDR]], align 8
				// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[ARGC_ADDR]] to i32*
				// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: [[CONV1:%.]] = bitcast i64 [[DOTCAPTURE_EXPR__ADDR]] to i32*
				// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32 [[CONV]], align 8
				// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK1-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK1-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0
				// CHECK1-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
				// CHECK1-NEXT: [[SUB4:%.*]] = sub nsw i32 [[DIV]], 1
				// CHECK1-NEXT: store i32 [[SUB4]], i32* [[DOTCAPTURE_EXPR_3]], align 4
				// CHECK1-NEXT: store i32 0, i32* [[I]], align 4
				// CHECK1-NEXT: [[TMP3:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK1-NEXT: [[CMP:%.*]] = icmp slt i32 0, [[TMP3]]
				// CHECK1-NEXT: br i1 [[CMP]], label [[OMP_PRECOND_THEN:%.]], label [[OMP_PRECOND_END:%.]]
				// CHECK1: omp.precond.then:
				// CHECK1-NEXT: store i32 0, i32* [[DOTOMP_COMB_LB]], align 4
				// CHECK1-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_3]], align 4
				// CHECK1-NEXT: store i32 [[TMP4]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK1-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
				// CHECK1-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
				// CHECK1-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: [[TMP6:%.]] = load i32, i32 [[TMP5]], align 4
				// CHECK1-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB1:[0-9]+]], i32 [[TMP6]], i32 91, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_COMB_LB]], i32* [[DOTOMP_COMB_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 [[NVPTX_NUM_THREADS]])
				// CHECK1-NEXT: [[TMP7:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK1-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_3]], align 4
				// CHECK1-NEXT: [[CMP6:%.*]] = icmp sgt i32 [[TMP7]], [[TMP8]]
				// CHECK1-NEXT: br i1 [[CMP6]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]]
				// CHECK1: cond.true:
				// CHECK1-NEXT: [[TMP9:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_3]], align 4
				// CHECK1-NEXT: br label [[COND_END:%.*]]
				// CHECK1: cond.false:
				// CHECK1-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK1-NEXT: br label [[COND_END]]
				// CHECK1: cond.end:
				// CHECK1-NEXT: [[COND:%.*]] = phi i32 [ [[TMP9]], [[COND_TRUE]] ], [ [[TMP10]], [[COND_FALSE]] ]
				// CHECK1-NEXT: store i32 [[COND]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK1-NEXT: [[TMP11:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK1-NEXT: store i32 [[TMP11]], i32* [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: br label [[OMP_INNER_FOR_COND:%.*]]
				// CHECK1: omp.inner.for.cond:
				// CHECK1-NEXT: [[TMP12:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_3]], align 4
				// CHECK1-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP13]], 1
				// CHECK1-NEXT: [[CMP7:%.*]] = icmp slt i32 [[TMP12]], [[ADD]]
				// CHECK1-NEXT: br i1 [[CMP7]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]]
				// CHECK1: omp.inner.for.body:
				// CHECK1-NEXT: [[TMP14:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK1-NEXT: [[TMP15:%.*]] = zext i32 [[TMP14]] to i64
				// CHECK1-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK1-NEXT: [[TMP17:%.*]] = zext i32 [[TMP16]] to i64
				// CHECK1-NEXT: [[TMP18:%.]] = load i32, i32 [[CONV]], align 8
				// CHECK1-NEXT: [[CONV8:%.]] = bitcast i64 [[ARGC_CASTED]] to i32*
				// CHECK1-NEXT: store i32 [[TMP18]], i32* [[CONV8]], align 4
				// CHECK1-NEXT: [[TMP19:%.]] = load i64, i64 [[ARGC_CASTED]], align 8
				// CHECK1-NEXT: [[TMP20:%.]] = load i32, i32 [[CONV1]], align 8
				// CHECK1-NEXT: [[CONV9:%.]] = bitcast i64 [[DOTCAPTURE_EXPR__CASTED]] to i32*
				// CHECK1-NEXT: store i32 [[TMP20]], i32* [[CONV9]], align 4
				// CHECK1-NEXT: [[TMP21:%.]] = load i64, i64 [[DOTCAPTURE_EXPR__CASTED]], align 8
				// CHECK1-NEXT: [[TMP22:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK1-NEXT: [[TMP23:%.]] = inttoptr i64 [[TMP15]] to i8
				// CHECK1-NEXT: store i8* [[TMP23]], i8** [[TMP22]], align 8
				// CHECK1-NEXT: [[TMP24:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1
				// CHECK1-NEXT: [[TMP25:%.]] = inttoptr i64 [[TMP17]] to i8
				// CHECK1-NEXT: store i8* [[TMP25]], i8** [[TMP24]], align 8
				// CHECK1-NEXT: [[TMP26:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 2
				// CHECK1-NEXT: [[TMP27:%.]] = inttoptr i64 [[TMP19]] to i8
				// CHECK1-NEXT: store i8* [[TMP27]], i8** [[TMP26]], align 8
				// CHECK1-NEXT: [[TMP28:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 3
				// CHECK1-NEXT: [[TMP29:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK1-NEXT: store i8* [[TMP29]], i8** [[TMP28]], align 8
				// CHECK1-NEXT: [[TMP30:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 4
				// CHECK1-NEXT: [[TMP31:%.]] = inttoptr i64 [[TMP21]] to i8
				// CHECK1-NEXT: store i8* [[TMP31]], i8** [[TMP30]], align 8
				// CHECK1-NEXT: [[TMP32:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: [[TMP33:%.]] = load i32, i32 [[TMP32]], align 4
				// CHECK1-NEXT: [[TMP34:%.]] = bitcast [5 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK1-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB3]], i32 [[TMP33]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i64, i64, i64, i32, i64) @__omp_outlined__1 to i8), i8 null, i8** [[TMP34]], i64 5)
				// CHECK1-NEXT: br label [[OMP_INNER_FOR_INC:%.*]]
				// CHECK1: omp.inner.for.inc:
				// CHECK1-NEXT: [[TMP35:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: [[TMP36:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK1-NEXT: [[ADD10:%.*]] = add nsw i32 [[TMP35]], [[TMP36]]
				// CHECK1-NEXT: store i32 [[ADD10]], i32* [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: [[TMP37:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK1-NEXT: [[TMP38:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK1-NEXT: [[ADD11:%.*]] = add nsw i32 [[TMP37]], [[TMP38]]
				// CHECK1-NEXT: store i32 [[ADD11]], i32* [[DOTOMP_COMB_LB]], align 4
				// CHECK1-NEXT: [[TMP39:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK1-NEXT: [[TMP40:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK1-NEXT: [[ADD12:%.*]] = add nsw i32 [[TMP39]], [[TMP40]]
				// CHECK1-NEXT: store i32 [[ADD12]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK1-NEXT: [[TMP41:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK1-NEXT: [[TMP42:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_3]], align 4
				// CHECK1-NEXT: [[CMP13:%.*]] = icmp sgt i32 [[TMP41]], [[TMP42]]
				// CHECK1-NEXT: br i1 [[CMP13]], label [[COND_TRUE14:%.]], label [[COND_FALSE15:%.]]
				// CHECK1: cond.true14:
				// CHECK1-NEXT: [[TMP43:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_3]], align 4
				// CHECK1-NEXT: br label [[COND_END16:%.*]]
				// CHECK1: cond.false15:
				// CHECK1-NEXT: [[TMP44:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK1-NEXT: br label [[COND_END16]]
				// CHECK1: cond.end16:
				// CHECK1-NEXT: [[COND17:%.*]] = phi i32 [ [[TMP43]], [[COND_TRUE14]] ], [ [[TMP44]], [[COND_FALSE15]] ]
				// CHECK1-NEXT: store i32 [[COND17]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK1-NEXT: [[TMP45:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK1-NEXT: store i32 [[TMP45]], i32* [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: br label [[OMP_INNER_FOR_COND]]
				// CHECK1: omp.inner.for.end:
				// CHECK1-NEXT: br label [[OMP_LOOP_EXIT:%.*]]
				// CHECK1: omp.loop.exit:
				// CHECK1-NEXT: [[TMP46:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: [[TMP47:%.]] = load i32, i32 [[TMP46]], align 4
				// CHECK1-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB1]], i32 [[TMP47]])
				// CHECK1-NEXT: br label [[OMP_PRECOND_END]]
				// CHECK1: omp.precond.end:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i64 [[DOTPREVIOUS_LB_:%.]], i64 [[DOTPREVIOUS_UB_:%.]], i64 [[ARGC:%.]], i32* nonnull align 4 dereferenceable(4) [[A:%.]], i64 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0]] {
				// CHECK1-NEXT: entry:
				// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTPREVIOUS_LB__ADDR:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[DOTPREVIOUS_UB__ADDR:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[ARGC_ADDR:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK1-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i64, align 8
				// CHECK1-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[TMP:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTCAPTURE_EXPR_2:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTCAPTURE_EXPR_3:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[I:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: [[I7:%.*]] = alloca i32, align 4
				// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK1-NEXT: store i64 [[DOTPREVIOUS_LB_]], i64* [[DOTPREVIOUS_LB__ADDR]], align 8
				// CHECK1-NEXT: store i64 [[DOTPREVIOUS_UB_]], i64* [[DOTPREVIOUS_UB__ADDR]], align 8
				// CHECK1-NEXT: store i64 [[ARGC]], i64* [[ARGC_ADDR]], align 8
				// CHECK1-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: store i64 [[DOTCAPTURE_EXPR_]], i64* [[DOTCAPTURE_EXPR__ADDR]], align 8
				// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[ARGC_ADDR]] to i32*
				// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK1-NEXT: [[CONV1:%.]] = bitcast i64 [[DOTCAPTURE_EXPR__ADDR]] to i32*
				// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32 [[CONV]], align 8
				// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK1-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK1-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0
				// CHECK1-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
				// CHECK1-NEXT: [[SUB4:%.*]] = sub nsw i32 [[DIV]], 1
				// CHECK1-NEXT: store i32 [[SUB4]], i32* [[DOTCAPTURE_EXPR_3]], align 4
				// CHECK1-NEXT: store i32 0, i32* [[I]], align 4
				// CHECK1-NEXT: [[TMP3:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK1-NEXT: [[CMP:%.*]] = icmp slt i32 0, [[TMP3]]
				// CHECK1-NEXT: br i1 [[CMP]], label [[OMP_PRECOND_THEN:%.]], label [[OMP_PRECOND_END:%.]]
				// CHECK1: omp.precond.then:
				// CHECK1-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4
				// CHECK1-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_3]], align 4
				// CHECK1-NEXT: store i32 [[TMP4]], i32* [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: [[TMP5:%.]] = load i64, i64 [[DOTPREVIOUS_LB__ADDR]], align 8
				// CHECK1-NEXT: [[CONV5:%.*]] = trunc i64 [[TMP5]] to i32
				// CHECK1-NEXT: [[TMP6:%.]] = load i64, i64 [[DOTPREVIOUS_UB__ADDR]], align 8
				// CHECK1-NEXT: [[CONV6:%.*]] = trunc i64 [[TMP6]] to i32
				// CHECK1-NEXT: store i32 [[CONV5]], i32* [[DOTOMP_LB]], align 4
				// CHECK1-NEXT: store i32 [[CONV6]], i32* [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
				// CHECK1-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
				// CHECK1-NEXT: [[TMP7:%.]] = load i32, i32 [[CONV1]], align 8
				// CHECK1-NEXT: [[TMP8:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: [[TMP9:%.]] = load i32, i32 [[TMP8]], align 4
				// CHECK1-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB2:[0-9]+]], i32 [[TMP9]], i32 33, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 [[TMP7]])
				// CHECK1-NEXT: br label [[OMP_DISPATCH_COND:%.*]]
				// CHECK1: omp.dispatch.cond:
				// CHECK1-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: [[CONV8:%.*]] = sext i32 [[TMP10]] to i64
				// CHECK1-NEXT: [[TMP11:%.]] = load i64, i64 [[DOTPREVIOUS_UB__ADDR]], align 8
				// CHECK1-NEXT: [[CMP9:%.*]] = icmp ugt i64 [[CONV8]], [[TMP11]]
				// CHECK1-NEXT: br i1 [[CMP9]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]]
				// CHECK1: cond.true:
				// CHECK1-NEXT: [[TMP12:%.]] = load i64, i64 [[DOTPREVIOUS_UB__ADDR]], align 8
				// CHECK1-NEXT: br label [[COND_END:%.*]]
				// CHECK1: cond.false:
				// CHECK1-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: [[CONV10:%.*]] = sext i32 [[TMP13]] to i64
				// CHECK1-NEXT: br label [[COND_END]]
				// CHECK1: cond.end:
				// CHECK1-NEXT: [[COND:%.*]] = phi i64 [ [[TMP12]], [[COND_TRUE]] ], [ [[CONV10]], [[COND_FALSE]] ]
				// CHECK1-NEXT: [[CONV11:%.*]] = trunc i64 [[COND]] to i32
				// CHECK1-NEXT: store i32 [[CONV11]], i32* [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: [[TMP14:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK1-NEXT: store i32 [[TMP14]], i32* [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: [[TMP15:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: [[CMP12:%.*]] = icmp sle i32 [[TMP15]], [[TMP16]]
				// CHECK1-NEXT: br i1 [[CMP12]], label [[OMP_DISPATCH_BODY:%.]], label [[OMP_DISPATCH_END:%.]]
				// CHECK1: omp.dispatch.body:
				// CHECK1-NEXT: br label [[OMP_INNER_FOR_COND:%.*]]
				// CHECK1: omp.inner.for.cond:
				// CHECK1-NEXT: [[TMP17:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: [[TMP18:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: [[CMP13:%.*]] = icmp sle i32 [[TMP17]], [[TMP18]]
				// CHECK1-NEXT: br i1 [[CMP13]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]]
				// CHECK1: omp.inner.for.body:
				// CHECK1-NEXT: [[TMP19:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: [[MUL:%.*]] = mul nsw i32 [[TMP19]], 1
				// CHECK1-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]
				// CHECK1-NEXT: store i32 [[ADD]], i32* [[I7]], align 4
				// CHECK1-NEXT: [[CALL:%.]] = call i32 @_Z3fooPi(i32 [[I7]]) #[[ATTR4:[0-9]+]]
				// CHECK1-NEXT: [[CALL14:%.]] = call i32 @_Z3fooPi(i32 [[TMP0]]) #[[ATTR4]]
				// CHECK1-NEXT: [[ADD15:%.*]] = add nsw i32 [[CALL]], [[CALL14]]
				// CHECK1-NEXT: [[CALL16:%.]] = call i32 @_Z3fooPi(i32 [[CONV]]) #[[ATTR4]]
				// CHECK1-NEXT: [[ADD17:%.*]] = add nsw i32 [[ADD15]], [[CALL16]]
				// CHECK1-NEXT: store i32 [[ADD17]], i32* [[TMP0]], align 4
				// CHECK1-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]
				// CHECK1: omp.body.continue:
				// CHECK1-NEXT: br label [[OMP_INNER_FOR_INC:%.*]]
				// CHECK1: omp.inner.for.inc:
				// CHECK1-NEXT: [[TMP20:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: [[ADD18:%.*]] = add nsw i32 [[TMP20]], 1
				// CHECK1-NEXT: store i32 [[ADD18]], i32* [[DOTOMP_IV]], align 4
				// CHECK1-NEXT: br label [[OMP_INNER_FOR_COND]]
				// CHECK1: omp.inner.for.end:
				// CHECK1-NEXT: br label [[OMP_DISPATCH_INC:%.*]]
				// CHECK1: omp.dispatch.inc:
				// CHECK1-NEXT: [[TMP21:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK1-NEXT: [[TMP22:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK1-NEXT: [[ADD19:%.*]] = add nsw i32 [[TMP21]], [[TMP22]]
				// CHECK1-NEXT: store i32 [[ADD19]], i32* [[DOTOMP_LB]], align 4
				// CHECK1-NEXT: [[TMP23:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: [[TMP24:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK1-NEXT: [[ADD20:%.*]] = add nsw i32 [[TMP23]], [[TMP24]]
				// CHECK1-NEXT: store i32 [[ADD20]], i32* [[DOTOMP_UB]], align 4
				// CHECK1-NEXT: br label [[OMP_DISPATCH_COND]]
				// CHECK1: omp.dispatch.end:
				// CHECK1-NEXT: [[TMP25:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK1-NEXT: [[TMP26:%.]] = load i32, i32 [[TMP25]], align 4
				// CHECK1-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB1]], i32 [[TMP26]])
				// CHECK1-NEXT: br label [[OMP_PRECOND_END]]
				// CHECK1: omp.precond.end:
				// CHECK1-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l24
				// CHECK2-SAME: (i32 [[ARGC:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i32 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0:[0-9]+]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[ARGC_ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[ARGC_CASTED:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTCAPTURE_EXPR__CASTED:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK2-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4
				// CHECK2-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK2-NEXT: store i32 [[DOTCAPTURE_EXPR_]], i32* [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 0)
				// CHECK2-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK2: .execute:
				// CHECK2-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3:[0-9]+]])
				// CHECK2-NEXT: [[TMP2:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
				// CHECK2-NEXT: store i32 [[TMP2]], i32* [[ARGC_CASTED]], align 4
				// CHECK2-NEXT: [[TMP3:%.]] = load i32, i32 [[ARGC_CASTED]], align 4
				// CHECK2-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK2-NEXT: store i32 [[TMP4]], i32* [[DOTCAPTURE_EXPR__CASTED]], align 4
				// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__CASTED]], align 4
				// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK2-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32 [[TMP3]], i32* [[TMP0]], i32 [[TMP5]]) #[[ATTR3:[0-9]+]]
				// CHECK2-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK2: .omp.deinit:
				// CHECK2-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 0)
				// CHECK2-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK2: .exit:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 [[ARGC:%.]], i32* nonnull align 4 dereferenceable(4) [[A:%.]], i32 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[ARGC_ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[TMP:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTCAPTURE_EXPR_1:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTCAPTURE_EXPR_2:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[I:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTOMP_COMB_LB:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTOMP_COMB_UB:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[I4:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[ARGC_CASTED:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTCAPTURE_EXPR__CASTED:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [5 x i8], align 4
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4
				// CHECK2-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK2-NEXT: store i32 [[DOTCAPTURE_EXPR_]], i32* [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK2-NEXT: [[TMP1:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
				// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK2-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK2-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0
				// CHECK2-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
				// CHECK2-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1
				// CHECK2-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK2-NEXT: store i32 0, i32* [[I]], align 4
				// CHECK2-NEXT: [[TMP3:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK2-NEXT: [[CMP:%.*]] = icmp slt i32 0, [[TMP3]]
				// CHECK2-NEXT: br i1 [[CMP]], label [[OMP_PRECOND_THEN:%.]], label [[OMP_PRECOND_END:%.]]
				// CHECK2: omp.precond.then:
				// CHECK2-NEXT: store i32 0, i32* [[DOTOMP_COMB_LB]], align 4
				// CHECK2-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK2-NEXT: store i32 [[TMP4]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK2-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
				// CHECK2-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
				// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: [[TMP6:%.]] = load i32, i32 [[TMP5]], align 4
				// CHECK2-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB1:[0-9]+]], i32 [[TMP6]], i32 91, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_COMB_LB]], i32* [[DOTOMP_COMB_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 [[NVPTX_NUM_THREADS]])
				// CHECK2-NEXT: [[TMP7:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK2-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK2-NEXT: [[CMP5:%.*]] = icmp sgt i32 [[TMP7]], [[TMP8]]
				// CHECK2-NEXT: br i1 [[CMP5]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]]
				// CHECK2: cond.true:
				// CHECK2-NEXT: [[TMP9:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK2-NEXT: br label [[COND_END:%.*]]
				// CHECK2: cond.false:
				// CHECK2-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK2-NEXT: br label [[COND_END]]
				// CHECK2: cond.end:
				// CHECK2-NEXT: [[COND:%.*]] = phi i32 [ [[TMP9]], [[COND_TRUE]] ], [ [[TMP10]], [[COND_FALSE]] ]
				// CHECK2-NEXT: store i32 [[COND]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK2-NEXT: [[TMP11:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK2-NEXT: store i32 [[TMP11]], i32* [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: br label [[OMP_INNER_FOR_COND:%.*]]
				// CHECK2: omp.inner.for.cond:
				// CHECK2-NEXT: [[TMP12:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK2-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP13]], 1
				// CHECK2-NEXT: [[CMP6:%.*]] = icmp slt i32 [[TMP12]], [[ADD]]
				// CHECK2-NEXT: br i1 [[CMP6]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]]
				// CHECK2: omp.inner.for.body:
				// CHECK2-NEXT: [[TMP14:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK2-NEXT: [[TMP15:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK2-NEXT: [[TMP16:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
				// CHECK2-NEXT: store i32 [[TMP16]], i32* [[ARGC_CASTED]], align 4
				// CHECK2-NEXT: [[TMP17:%.]] = load i32, i32 [[ARGC_CASTED]], align 4
				// CHECK2-NEXT: [[TMP18:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK2-NEXT: store i32 [[TMP18]], i32* [[DOTCAPTURE_EXPR__CASTED]], align 4
				// CHECK2-NEXT: [[TMP19:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__CASTED]], align 4
				// CHECK2-NEXT: [[TMP20:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK2-NEXT: [[TMP21:%.]] = inttoptr i32 [[TMP14]] to i8
				// CHECK2-NEXT: store i8* [[TMP21]], i8** [[TMP20]], align 4
				// CHECK2-NEXT: [[TMP22:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 1
				// CHECK2-NEXT: [[TMP23:%.]] = inttoptr i32 [[TMP15]] to i8
				// CHECK2-NEXT: store i8* [[TMP23]], i8** [[TMP22]], align 4
				// CHECK2-NEXT: [[TMP24:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 2
				// CHECK2-NEXT: [[TMP25:%.]] = inttoptr i32 [[TMP17]] to i8
				// CHECK2-NEXT: store i8* [[TMP25]], i8** [[TMP24]], align 4
				// CHECK2-NEXT: [[TMP26:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 3
				// CHECK2-NEXT: [[TMP27:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK2-NEXT: store i8* [[TMP27]], i8** [[TMP26]], align 4
				// CHECK2-NEXT: [[TMP28:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 4
				// CHECK2-NEXT: [[TMP29:%.]] = inttoptr i32 [[TMP19]] to i8
				// CHECK2-NEXT: store i8* [[TMP29]], i8** [[TMP28]], align 4
				// CHECK2-NEXT: [[TMP30:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: [[TMP31:%.]] = load i32, i32 [[TMP30]], align 4
				// CHECK2-NEXT: [[TMP32:%.]] = bitcast [5 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK2-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB3]], i32 [[TMP31]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i32, i32, i32, i32) @__omp_outlined__1 to i8), i8 null, i8** [[TMP32]], i32 5)
				// CHECK2-NEXT: br label [[OMP_INNER_FOR_INC:%.*]]
				// CHECK2: omp.inner.for.inc:
				// CHECK2-NEXT: [[TMP33:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: [[TMP34:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK2-NEXT: [[ADD7:%.*]] = add nsw i32 [[TMP33]], [[TMP34]]
				// CHECK2-NEXT: store i32 [[ADD7]], i32* [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: [[TMP35:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK2-NEXT: [[TMP36:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK2-NEXT: [[ADD8:%.*]] = add nsw i32 [[TMP35]], [[TMP36]]
				// CHECK2-NEXT: store i32 [[ADD8]], i32* [[DOTOMP_COMB_LB]], align 4
				// CHECK2-NEXT: [[TMP37:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK2-NEXT: [[TMP38:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK2-NEXT: [[ADD9:%.*]] = add nsw i32 [[TMP37]], [[TMP38]]
				// CHECK2-NEXT: store i32 [[ADD9]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK2-NEXT: [[TMP39:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK2-NEXT: [[TMP40:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK2-NEXT: [[CMP10:%.*]] = icmp sgt i32 [[TMP39]], [[TMP40]]
				// CHECK2-NEXT: br i1 [[CMP10]], label [[COND_TRUE11:%.]], label [[COND_FALSE12:%.]]
				// CHECK2: cond.true11:
				// CHECK2-NEXT: [[TMP41:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK2-NEXT: br label [[COND_END13:%.*]]
				// CHECK2: cond.false12:
				// CHECK2-NEXT: [[TMP42:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK2-NEXT: br label [[COND_END13]]
				// CHECK2: cond.end13:
				// CHECK2-NEXT: [[COND14:%.*]] = phi i32 [ [[TMP41]], [[COND_TRUE11]] ], [ [[TMP42]], [[COND_FALSE12]] ]
				// CHECK2-NEXT: store i32 [[COND14]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK2-NEXT: [[TMP43:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK2-NEXT: store i32 [[TMP43]], i32* [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: br label [[OMP_INNER_FOR_COND]]
				// CHECK2: omp.inner.for.end:
				// CHECK2-NEXT: br label [[OMP_LOOP_EXIT:%.*]]
				// CHECK2: omp.loop.exit:
				// CHECK2-NEXT: [[TMP44:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: [[TMP45:%.]] = load i32, i32 [[TMP44]], align 4
				// CHECK2-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB1]], i32 [[TMP45]])
				// CHECK2-NEXT: br label [[OMP_PRECOND_END]]
				// CHECK2: omp.precond.end:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 [[DOTPREVIOUS_LB_:%.]], i32 [[DOTPREVIOUS_UB_:%.]], i32 [[ARGC:%.]], i32* nonnull align 4 dereferenceable(4) [[A:%.]], i32 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0]] {
				// CHECK2-NEXT: entry:
				// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTPREVIOUS_LB__ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTPREVIOUS_UB__ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[ARGC_ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[TMP:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTCAPTURE_EXPR_1:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTCAPTURE_EXPR_2:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[I:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: [[I4:%.*]] = alloca i32, align 4
				// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK2-NEXT: store i32 [[DOTPREVIOUS_LB_]], i32* [[DOTPREVIOUS_LB__ADDR]], align 4
				// CHECK2-NEXT: store i32 [[DOTPREVIOUS_UB_]], i32* [[DOTPREVIOUS_UB__ADDR]], align 4
				// CHECK2-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4
				// CHECK2-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK2-NEXT: store i32 [[DOTCAPTURE_EXPR_]], i32* [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK2-NEXT: [[TMP1:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
				// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK2-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK2-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0
				// CHECK2-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
				// CHECK2-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1
				// CHECK2-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK2-NEXT: store i32 0, i32* [[I]], align 4
				// CHECK2-NEXT: [[TMP3:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK2-NEXT: [[CMP:%.*]] = icmp slt i32 0, [[TMP3]]
				// CHECK2-NEXT: br i1 [[CMP]], label [[OMP_PRECOND_THEN:%.]], label [[OMP_PRECOND_END:%.]]
				// CHECK2: omp.precond.then:
				// CHECK2-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4
				// CHECK2-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK2-NEXT: store i32 [[TMP4]], i32* [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTPREVIOUS_LB__ADDR]], align 4
				// CHECK2-NEXT: [[TMP6:%.]] = load i32, i32 [[DOTPREVIOUS_UB__ADDR]], align 4
				// CHECK2-NEXT: store i32 [[TMP5]], i32* [[DOTOMP_LB]], align 4
				// CHECK2-NEXT: store i32 [[TMP6]], i32* [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
				// CHECK2-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
				// CHECK2-NEXT: [[TMP7:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK2-NEXT: [[TMP8:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: [[TMP9:%.]] = load i32, i32 [[TMP8]], align 4
				// CHECK2-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB2:[0-9]+]], i32 [[TMP9]], i32 33, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 [[TMP7]])
				// CHECK2-NEXT: br label [[OMP_DISPATCH_COND:%.*]]
				// CHECK2: omp.dispatch.cond:
				// CHECK2-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: [[TMP11:%.]] = load i32, i32 [[DOTPREVIOUS_UB__ADDR]], align 4
				// CHECK2-NEXT: [[CMP5:%.*]] = icmp ugt i32 [[TMP10]], [[TMP11]]
				// CHECK2-NEXT: br i1 [[CMP5]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]]
				// CHECK2: cond.true:
				// CHECK2-NEXT: [[TMP12:%.]] = load i32, i32 [[DOTPREVIOUS_UB__ADDR]], align 4
				// CHECK2-NEXT: br label [[COND_END:%.*]]
				// CHECK2: cond.false:
				// CHECK2-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: br label [[COND_END]]
				// CHECK2: cond.end:
				// CHECK2-NEXT: [[COND:%.*]] = phi i32 [ [[TMP12]], [[COND_TRUE]] ], [ [[TMP13]], [[COND_FALSE]] ]
				// CHECK2-NEXT: store i32 [[COND]], i32* [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: [[TMP14:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK2-NEXT: store i32 [[TMP14]], i32* [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: [[TMP15:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: [[CMP6:%.*]] = icmp sle i32 [[TMP15]], [[TMP16]]
				// CHECK2-NEXT: br i1 [[CMP6]], label [[OMP_DISPATCH_BODY:%.]], label [[OMP_DISPATCH_END:%.]]
				// CHECK2: omp.dispatch.body:
				// CHECK2-NEXT: br label [[OMP_INNER_FOR_COND:%.*]]
				// CHECK2: omp.inner.for.cond:
				// CHECK2-NEXT: [[TMP17:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: [[TMP18:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: [[CMP7:%.*]] = icmp sle i32 [[TMP17]], [[TMP18]]
				// CHECK2-NEXT: br i1 [[CMP7]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]]
				// CHECK2: omp.inner.for.body:
				// CHECK2-NEXT: [[TMP19:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: [[MUL:%.*]] = mul nsw i32 [[TMP19]], 1
				// CHECK2-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]
				// CHECK2-NEXT: store i32 [[ADD]], i32* [[I4]], align 4
				// CHECK2-NEXT: [[CALL:%.]] = call i32 @_Z3fooPi(i32 [[I4]]) #[[ATTR4:[0-9]+]]
				// CHECK2-NEXT: [[CALL8:%.]] = call i32 @_Z3fooPi(i32 [[TMP0]]) #[[ATTR4]]
				// CHECK2-NEXT: [[ADD9:%.*]] = add nsw i32 [[CALL]], [[CALL8]]
				// CHECK2-NEXT: [[CALL10:%.]] = call i32 @_Z3fooPi(i32 [[ARGC_ADDR]]) #[[ATTR4]]
				// CHECK2-NEXT: [[ADD11:%.*]] = add nsw i32 [[ADD9]], [[CALL10]]
				// CHECK2-NEXT: store i32 [[ADD11]], i32* [[TMP0]], align 4
				// CHECK2-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]
				// CHECK2: omp.body.continue:
				// CHECK2-NEXT: br label [[OMP_INNER_FOR_INC:%.*]]
				// CHECK2: omp.inner.for.inc:
				// CHECK2-NEXT: [[TMP20:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: [[ADD12:%.*]] = add nsw i32 [[TMP20]], 1
				// CHECK2-NEXT: store i32 [[ADD12]], i32* [[DOTOMP_IV]], align 4
				// CHECK2-NEXT: br label [[OMP_INNER_FOR_COND]]
				// CHECK2: omp.inner.for.end:
				// CHECK2-NEXT: br label [[OMP_DISPATCH_INC:%.*]]
				// CHECK2: omp.dispatch.inc:
				// CHECK2-NEXT: [[TMP21:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK2-NEXT: [[TMP22:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK2-NEXT: [[ADD13:%.*]] = add nsw i32 [[TMP21]], [[TMP22]]
				// CHECK2-NEXT: store i32 [[ADD13]], i32* [[DOTOMP_LB]], align 4
				// CHECK2-NEXT: [[TMP23:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: [[TMP24:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK2-NEXT: [[ADD14:%.*]] = add nsw i32 [[TMP23]], [[TMP24]]
				// CHECK2-NEXT: store i32 [[ADD14]], i32* [[DOTOMP_UB]], align 4
				// CHECK2-NEXT: br label [[OMP_DISPATCH_COND]]
				// CHECK2: omp.dispatch.end:
				// CHECK2-NEXT: [[TMP25:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK2-NEXT: [[TMP26:%.]] = load i32, i32 [[TMP25]], align 4
				// CHECK2-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB1]], i32 [[TMP26]])
				// CHECK2-NEXT: br label [[OMP_PRECOND_END]]
				// CHECK2: omp.precond.end:
				// CHECK2-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l24
				// CHECK3-SAME: (i32 [[ARGC:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i32 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0:[0-9]+]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[ARGC_ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[ARGC_CASTED:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTCAPTURE_EXPR__CASTED:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK3-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4
				// CHECK3-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK3-NEXT: store i32 [[DOTCAPTURE_EXPR_]], i32* [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 0)
				// CHECK3-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK3: .execute:
				// CHECK3-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3:[0-9]+]])
				// CHECK3-NEXT: [[TMP2:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
				// CHECK3-NEXT: store i32 [[TMP2]], i32* [[ARGC_CASTED]], align 4
				// CHECK3-NEXT: [[TMP3:%.]] = load i32, i32 [[ARGC_CASTED]], align 4
				// CHECK3-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK3-NEXT: store i32 [[TMP4]], i32* [[DOTCAPTURE_EXPR__CASTED]], align 4
				// CHECK3-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__CASTED]], align 4
				// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK3-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32 [[TMP3]], i32* [[TMP0]], i32 [[TMP5]]) #[[ATTR3:[0-9]+]]
				// CHECK3-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK3: .omp.deinit:
				// CHECK3-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 0)
				// CHECK3-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK3: .exit:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 [[ARGC:%.]], i32* nonnull align 4 dereferenceable(4) [[A:%.]], i32 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[ARGC_ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[TMP:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTCAPTURE_EXPR_1:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTCAPTURE_EXPR_2:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[I:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTOMP_COMB_LB:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTOMP_COMB_UB:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[I4:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[ARGC_CASTED:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTCAPTURE_EXPR__CASTED:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [5 x i8], align 4
				// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4
				// CHECK3-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK3-NEXT: store i32 [[DOTCAPTURE_EXPR_]], i32* [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK3-NEXT: [[TMP1:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
				// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK3-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK3-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0
				// CHECK3-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
				// CHECK3-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1
				// CHECK3-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK3-NEXT: store i32 0, i32* [[I]], align 4
				// CHECK3-NEXT: [[TMP3:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK3-NEXT: [[CMP:%.*]] = icmp slt i32 0, [[TMP3]]
				// CHECK3-NEXT: br i1 [[CMP]], label [[OMP_PRECOND_THEN:%.]], label [[OMP_PRECOND_END:%.]]
				// CHECK3: omp.precond.then:
				// CHECK3-NEXT: store i32 0, i32* [[DOTOMP_COMB_LB]], align 4
				// CHECK3-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK3-NEXT: store i32 [[TMP4]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK3-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
				// CHECK3-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
				// CHECK3-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK3-NEXT: [[TMP5:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: [[TMP6:%.]] = load i32, i32 [[TMP5]], align 4
				// CHECK3-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB1:[0-9]+]], i32 [[TMP6]], i32 91, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_COMB_LB]], i32* [[DOTOMP_COMB_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 [[NVPTX_NUM_THREADS]])
				// CHECK3-NEXT: [[TMP7:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK3-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK3-NEXT: [[CMP5:%.*]] = icmp sgt i32 [[TMP7]], [[TMP8]]
				// CHECK3-NEXT: br i1 [[CMP5]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]]
				// CHECK3: cond.true:
				// CHECK3-NEXT: [[TMP9:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK3-NEXT: br label [[COND_END:%.*]]
				// CHECK3: cond.false:
				// CHECK3-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK3-NEXT: br label [[COND_END]]
				// CHECK3: cond.end:
				// CHECK3-NEXT: [[COND:%.*]] = phi i32 [ [[TMP9]], [[COND_TRUE]] ], [ [[TMP10]], [[COND_FALSE]] ]
				// CHECK3-NEXT: store i32 [[COND]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK3-NEXT: [[TMP11:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK3-NEXT: store i32 [[TMP11]], i32* [[DOTOMP_IV]], align 4
				// CHECK3-NEXT: br label [[OMP_INNER_FOR_COND:%.*]]
				// CHECK3: omp.inner.for.cond:
				// CHECK3-NEXT: [[TMP12:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK3-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK3-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP13]], 1
				// CHECK3-NEXT: [[CMP6:%.*]] = icmp slt i32 [[TMP12]], [[ADD]]
				// CHECK3-NEXT: br i1 [[CMP6]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]]
				// CHECK3: omp.inner.for.body:
				// CHECK3-NEXT: [[TMP14:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK3-NEXT: [[TMP15:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK3-NEXT: [[TMP16:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
				// CHECK3-NEXT: store i32 [[TMP16]], i32* [[ARGC_CASTED]], align 4
				// CHECK3-NEXT: [[TMP17:%.]] = load i32, i32 [[ARGC_CASTED]], align 4
				// CHECK3-NEXT: [[TMP18:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK3-NEXT: store i32 [[TMP18]], i32* [[DOTCAPTURE_EXPR__CASTED]], align 4
				// CHECK3-NEXT: [[TMP19:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__CASTED]], align 4
				// CHECK3-NEXT: [[TMP20:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK3-NEXT: [[TMP21:%.]] = inttoptr i32 [[TMP14]] to i8
				// CHECK3-NEXT: store i8* [[TMP21]], i8** [[TMP20]], align 4
				// CHECK3-NEXT: [[TMP22:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 1
				// CHECK3-NEXT: [[TMP23:%.]] = inttoptr i32 [[TMP15]] to i8
				// CHECK3-NEXT: store i8* [[TMP23]], i8** [[TMP22]], align 4
				// CHECK3-NEXT: [[TMP24:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 2
				// CHECK3-NEXT: [[TMP25:%.]] = inttoptr i32 [[TMP17]] to i8
				// CHECK3-NEXT: store i8* [[TMP25]], i8** [[TMP24]], align 4
				// CHECK3-NEXT: [[TMP26:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 3
				// CHECK3-NEXT: [[TMP27:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK3-NEXT: store i8* [[TMP27]], i8** [[TMP26]], align 4
				// CHECK3-NEXT: [[TMP28:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 4
				// CHECK3-NEXT: [[TMP29:%.]] = inttoptr i32 [[TMP19]] to i8
				// CHECK3-NEXT: store i8* [[TMP29]], i8** [[TMP28]], align 4
				// CHECK3-NEXT: [[TMP30:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: [[TMP31:%.]] = load i32, i32 [[TMP30]], align 4
				// CHECK3-NEXT: [[TMP32:%.]] = bitcast [5 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK3-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB3]], i32 [[TMP31]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i32, i32, i32, i32) @__omp_outlined__1 to i8), i8 null, i8** [[TMP32]], i32 5)
				// CHECK3-NEXT: br label [[OMP_INNER_FOR_INC:%.*]]
				// CHECK3: omp.inner.for.inc:
				// CHECK3-NEXT: [[TMP33:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK3-NEXT: [[TMP34:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK3-NEXT: [[ADD7:%.*]] = add nsw i32 [[TMP33]], [[TMP34]]
				// CHECK3-NEXT: store i32 [[ADD7]], i32* [[DOTOMP_IV]], align 4
				// CHECK3-NEXT: [[TMP35:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK3-NEXT: [[TMP36:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK3-NEXT: [[ADD8:%.*]] = add nsw i32 [[TMP35]], [[TMP36]]
				// CHECK3-NEXT: store i32 [[ADD8]], i32* [[DOTOMP_COMB_LB]], align 4
				// CHECK3-NEXT: [[TMP37:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK3-NEXT: [[TMP38:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK3-NEXT: [[ADD9:%.*]] = add nsw i32 [[TMP37]], [[TMP38]]
				// CHECK3-NEXT: store i32 [[ADD9]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK3-NEXT: [[TMP39:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK3-NEXT: [[TMP40:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK3-NEXT: [[CMP10:%.*]] = icmp sgt i32 [[TMP39]], [[TMP40]]
				// CHECK3-NEXT: br i1 [[CMP10]], label [[COND_TRUE11:%.]], label [[COND_FALSE12:%.]]
				// CHECK3: cond.true11:
				// CHECK3-NEXT: [[TMP41:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK3-NEXT: br label [[COND_END13:%.*]]
				// CHECK3: cond.false12:
				// CHECK3-NEXT: [[TMP42:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK3-NEXT: br label [[COND_END13]]
				// CHECK3: cond.end13:
				// CHECK3-NEXT: [[COND14:%.*]] = phi i32 [ [[TMP41]], [[COND_TRUE11]] ], [ [[TMP42]], [[COND_FALSE12]] ]
				// CHECK3-NEXT: store i32 [[COND14]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK3-NEXT: [[TMP43:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK3-NEXT: store i32 [[TMP43]], i32* [[DOTOMP_IV]], align 4
				// CHECK3-NEXT: br label [[OMP_INNER_FOR_COND]]
				// CHECK3: omp.inner.for.end:
				// CHECK3-NEXT: br label [[OMP_LOOP_EXIT:%.*]]
				// CHECK3: omp.loop.exit:
				// CHECK3-NEXT: [[TMP44:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: [[TMP45:%.]] = load i32, i32 [[TMP44]], align 4
				// CHECK3-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB1]], i32 [[TMP45]])
				// CHECK3-NEXT: br label [[OMP_PRECOND_END]]
				// CHECK3: omp.precond.end:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 [[DOTPREVIOUS_LB_:%.]], i32 [[DOTPREVIOUS_UB_:%.]], i32 [[ARGC:%.]], i32* nonnull align 4 dereferenceable(4) [[A:%.]], i32 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0]] {
				// CHECK3-NEXT: entry:
				// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTPREVIOUS_LB__ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTPREVIOUS_UB__ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[ARGC_ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[TMP:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTCAPTURE_EXPR_1:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTCAPTURE_EXPR_2:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[I:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: [[I4:%.*]] = alloca i32, align 4
				// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK3-NEXT: store i32 [[DOTPREVIOUS_LB_]], i32* [[DOTPREVIOUS_LB__ADDR]], align 4
				// CHECK3-NEXT: store i32 [[DOTPREVIOUS_UB_]], i32* [[DOTPREVIOUS_UB__ADDR]], align 4
				// CHECK3-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4
				// CHECK3-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK3-NEXT: store i32 [[DOTCAPTURE_EXPR_]], i32* [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK3-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK3-NEXT: [[TMP1:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
				// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK3-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK3-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0
				// CHECK3-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
				// CHECK3-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1
				// CHECK3-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK3-NEXT: store i32 0, i32* [[I]], align 4
				// CHECK3-NEXT: [[TMP3:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK3-NEXT: [[CMP:%.*]] = icmp slt i32 0, [[TMP3]]
				// CHECK3-NEXT: br i1 [[CMP]], label [[OMP_PRECOND_THEN:%.]], label [[OMP_PRECOND_END:%.]]
				// CHECK3: omp.precond.then:
				// CHECK3-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4
				// CHECK3-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK3-NEXT: store i32 [[TMP4]], i32* [[DOTOMP_UB]], align 4
				// CHECK3-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTPREVIOUS_LB__ADDR]], align 4
				// CHECK3-NEXT: [[TMP6:%.]] = load i32, i32 [[DOTPREVIOUS_UB__ADDR]], align 4
				// CHECK3-NEXT: store i32 [[TMP5]], i32* [[DOTOMP_LB]], align 4
				// CHECK3-NEXT: store i32 [[TMP6]], i32* [[DOTOMP_UB]], align 4
				// CHECK3-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
				// CHECK3-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
				// CHECK3-NEXT: [[TMP7:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK3-NEXT: [[TMP8:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: [[TMP9:%.]] = load i32, i32 [[TMP8]], align 4
				// CHECK3-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB2:[0-9]+]], i32 [[TMP9]], i32 33, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 [[TMP7]])
				// CHECK3-NEXT: br label [[OMP_DISPATCH_COND:%.*]]
				// CHECK3: omp.dispatch.cond:
				// CHECK3-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK3-NEXT: [[TMP11:%.]] = load i32, i32 [[DOTPREVIOUS_UB__ADDR]], align 4
				// CHECK3-NEXT: [[CMP5:%.*]] = icmp ugt i32 [[TMP10]], [[TMP11]]
				// CHECK3-NEXT: br i1 [[CMP5]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]]
				// CHECK3: cond.true:
				// CHECK3-NEXT: [[TMP12:%.]] = load i32, i32 [[DOTPREVIOUS_UB__ADDR]], align 4
				// CHECK3-NEXT: br label [[COND_END:%.*]]
				// CHECK3: cond.false:
				// CHECK3-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK3-NEXT: br label [[COND_END]]
				// CHECK3: cond.end:
				// CHECK3-NEXT: [[COND:%.*]] = phi i32 [ [[TMP12]], [[COND_TRUE]] ], [ [[TMP13]], [[COND_FALSE]] ]
				// CHECK3-NEXT: store i32 [[COND]], i32* [[DOTOMP_UB]], align 4
				// CHECK3-NEXT: [[TMP14:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK3-NEXT: store i32 [[TMP14]], i32* [[DOTOMP_IV]], align 4
				// CHECK3-NEXT: [[TMP15:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK3-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK3-NEXT: [[CMP6:%.*]] = icmp sle i32 [[TMP15]], [[TMP16]]
				// CHECK3-NEXT: br i1 [[CMP6]], label [[OMP_DISPATCH_BODY:%.]], label [[OMP_DISPATCH_END:%.]]
				// CHECK3: omp.dispatch.body:
				// CHECK3-NEXT: br label [[OMP_INNER_FOR_COND:%.*]]
				// CHECK3: omp.inner.for.cond:
				// CHECK3-NEXT: [[TMP17:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK3-NEXT: [[TMP18:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK3-NEXT: [[CMP7:%.*]] = icmp sle i32 [[TMP17]], [[TMP18]]
				// CHECK3-NEXT: br i1 [[CMP7]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]]
				// CHECK3: omp.inner.for.body:
				// CHECK3-NEXT: [[TMP19:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK3-NEXT: [[MUL:%.*]] = mul nsw i32 [[TMP19]], 1
				// CHECK3-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]
				// CHECK3-NEXT: store i32 [[ADD]], i32* [[I4]], align 4
				// CHECK3-NEXT: [[CALL:%.]] = call i32 @_Z3fooPi(i32 [[I4]]) #[[ATTR4:[0-9]+]]
				// CHECK3-NEXT: [[CALL8:%.]] = call i32 @_Z3fooPi(i32 [[TMP0]]) #[[ATTR4]]
				// CHECK3-NEXT: [[ADD9:%.*]] = add nsw i32 [[CALL]], [[CALL8]]
				// CHECK3-NEXT: [[CALL10:%.]] = call i32 @_Z3fooPi(i32 [[ARGC_ADDR]]) #[[ATTR4]]
				// CHECK3-NEXT: [[ADD11:%.*]] = add nsw i32 [[ADD9]], [[CALL10]]
				// CHECK3-NEXT: store i32 [[ADD11]], i32* [[TMP0]], align 4
				// CHECK3-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]
				// CHECK3: omp.body.continue:
				// CHECK3-NEXT: br label [[OMP_INNER_FOR_INC:%.*]]
				// CHECK3: omp.inner.for.inc:
				// CHECK3-NEXT: [[TMP20:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK3-NEXT: [[ADD12:%.*]] = add nsw i32 [[TMP20]], 1
				// CHECK3-NEXT: store i32 [[ADD12]], i32* [[DOTOMP_IV]], align 4
				// CHECK3-NEXT: br label [[OMP_INNER_FOR_COND]]
				// CHECK3: omp.inner.for.end:
				// CHECK3-NEXT: br label [[OMP_DISPATCH_INC:%.*]]
				// CHECK3: omp.dispatch.inc:
				// CHECK3-NEXT: [[TMP21:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK3-NEXT: [[TMP22:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK3-NEXT: [[ADD13:%.*]] = add nsw i32 [[TMP21]], [[TMP22]]
				// CHECK3-NEXT: store i32 [[ADD13]], i32* [[DOTOMP_LB]], align 4
				// CHECK3-NEXT: [[TMP23:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK3-NEXT: [[TMP24:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK3-NEXT: [[ADD14:%.*]] = add nsw i32 [[TMP23]], [[TMP24]]
				// CHECK3-NEXT: store i32 [[ADD14]], i32* [[DOTOMP_UB]], align 4
				// CHECK3-NEXT: br label [[OMP_DISPATCH_COND]]
				// CHECK3: omp.dispatch.end:
				// CHECK3-NEXT: [[TMP25:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK3-NEXT: [[TMP26:%.]] = load i32, i32 [[TMP25]], align 4
				// CHECK3-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB1]], i32 [[TMP26]])
				// CHECK3-NEXT: br label [[OMP_PRECOND_END]]
				// CHECK3: omp.precond.end:
				// CHECK3-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l24
				// CHECK4-SAME: (i64 [[ARGC:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i64 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0:[0-9]+]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[ARGC_ADDR:%.*]] = alloca i64, align 8
				// CHECK4-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i64, align 8
				// CHECK4-NEXT: [[ARGC_CASTED:%.*]] = alloca i64, align 8
				// CHECK4-NEXT: [[DOTCAPTURE_EXPR__CASTED:%.*]] = alloca i64, align 8
				// CHECK4-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK4-NEXT: store i64 [[ARGC]], i64* [[ARGC_ADDR]], align 8
				// CHECK4-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK4-NEXT: store i64 [[DOTCAPTURE_EXPR_]], i64* [[DOTCAPTURE_EXPR__ADDR]], align 8
				// CHECK4-NEXT: [[CONV:%.]] = bitcast i64 [[ARGC_ADDR]] to i32*
				// CHECK4-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK4-NEXT: [[CONV1:%.]] = bitcast i64 [[DOTCAPTURE_EXPR__ADDR]] to i32*
				// CHECK4-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK4-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 0)
				// CHECK4-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK4: .execute:
				// CHECK4-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3:[0-9]+]])
				// CHECK4-NEXT: [[TMP2:%.]] = load i32, i32 [[CONV]], align 8
				// CHECK4-NEXT: [[CONV2:%.]] = bitcast i64 [[ARGC_CASTED]] to i32*
				// CHECK4-NEXT: store i32 [[TMP2]], i32* [[CONV2]], align 4
				// CHECK4-NEXT: [[TMP3:%.]] = load i64, i64 [[ARGC_CASTED]], align 8
				// CHECK4-NEXT: [[TMP4:%.]] = load i32, i32 [[CONV1]], align 8
				// CHECK4-NEXT: [[CONV3:%.]] = bitcast i64 [[DOTCAPTURE_EXPR__CASTED]] to i32*
				// CHECK4-NEXT: store i32 [[TMP4]], i32* [[CONV3]], align 4
				// CHECK4-NEXT: [[TMP5:%.]] = load i64, i64 [[DOTCAPTURE_EXPR__CASTED]], align 8
				// CHECK4-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK4-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i64 [[TMP3]], i32* [[TMP0]], i64 [[TMP5]]) #[[ATTR3:[0-9]+]]
				// CHECK4-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK4: .omp.deinit:
				// CHECK4-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 0)
				// CHECK4-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK4: .exit:
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK4-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i64 [[ARGC:%.]], i32* nonnull align 4 dereferenceable(4) [[A:%.]], i64 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[ARGC_ADDR:%.*]] = alloca i64, align 8
				// CHECK4-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i64, align 8
				// CHECK4-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[TMP:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTCAPTURE_EXPR_2:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTCAPTURE_EXPR_3:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[I:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTOMP_COMB_LB:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTOMP_COMB_UB:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[I5:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[ARGC_CASTED:%.*]] = alloca i64, align 8
				// CHECK4-NEXT: [[DOTCAPTURE_EXPR__CASTED:%.*]] = alloca i64, align 8
				// CHECK4-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [5 x i8], align 8
				// CHECK4-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK4-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK4-NEXT: store i64 [[ARGC]], i64* [[ARGC_ADDR]], align 8
				// CHECK4-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK4-NEXT: store i64 [[DOTCAPTURE_EXPR_]], i64* [[DOTCAPTURE_EXPR__ADDR]], align 8
				// CHECK4-NEXT: [[CONV:%.]] = bitcast i64 [[ARGC_ADDR]] to i32*
				// CHECK4-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK4-NEXT: [[CONV1:%.]] = bitcast i64 [[DOTCAPTURE_EXPR__ADDR]] to i32*
				// CHECK4-NEXT: [[TMP1:%.]] = load i32, i32 [[CONV]], align 8
				// CHECK4-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK4-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK4-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0
				// CHECK4-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
				// CHECK4-NEXT: [[SUB4:%.*]] = sub nsw i32 [[DIV]], 1
				// CHECK4-NEXT: store i32 [[SUB4]], i32* [[DOTCAPTURE_EXPR_3]], align 4
				// CHECK4-NEXT: store i32 0, i32* [[I]], align 4
				// CHECK4-NEXT: [[TMP3:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK4-NEXT: [[CMP:%.*]] = icmp slt i32 0, [[TMP3]]
				// CHECK4-NEXT: br i1 [[CMP]], label [[OMP_PRECOND_THEN:%.]], label [[OMP_PRECOND_END:%.]]
				// CHECK4: omp.precond.then:
				// CHECK4-NEXT: store i32 0, i32* [[DOTOMP_COMB_LB]], align 4
				// CHECK4-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_3]], align 4
				// CHECK4-NEXT: store i32 [[TMP4]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK4-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
				// CHECK4-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
				// CHECK4-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK4-NEXT: [[TMP5:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK4-NEXT: [[TMP6:%.]] = load i32, i32 [[TMP5]], align 4
				// CHECK4-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB1:[0-9]+]], i32 [[TMP6]], i32 91, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_COMB_LB]], i32* [[DOTOMP_COMB_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 [[NVPTX_NUM_THREADS]])
				// CHECK4-NEXT: [[TMP7:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK4-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_3]], align 4
				// CHECK4-NEXT: [[CMP6:%.*]] = icmp sgt i32 [[TMP7]], [[TMP8]]
				// CHECK4-NEXT: br i1 [[CMP6]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]]
				// CHECK4: cond.true:
				// CHECK4-NEXT: [[TMP9:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_3]], align 4
				// CHECK4-NEXT: br label [[COND_END:%.*]]
				// CHECK4: cond.false:
				// CHECK4-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK4-NEXT: br label [[COND_END]]
				// CHECK4: cond.end:
				// CHECK4-NEXT: [[COND:%.*]] = phi i32 [ [[TMP9]], [[COND_TRUE]] ], [ [[TMP10]], [[COND_FALSE]] ]
				// CHECK4-NEXT: store i32 [[COND]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK4-NEXT: [[TMP11:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK4-NEXT: store i32 [[TMP11]], i32* [[DOTOMP_IV]], align 4
				// CHECK4-NEXT: br label [[OMP_INNER_FOR_COND:%.*]]
				// CHECK4: omp.inner.for.cond:
				// CHECK4-NEXT: [[TMP12:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK4-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_3]], align 4
				// CHECK4-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP13]], 1
				// CHECK4-NEXT: [[CMP7:%.*]] = icmp slt i32 [[TMP12]], [[ADD]]
				// CHECK4-NEXT: br i1 [[CMP7]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]]
				// CHECK4: omp.inner.for.body:
				// CHECK4-NEXT: [[TMP14:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK4-NEXT: [[TMP15:%.*]] = zext i32 [[TMP14]] to i64
				// CHECK4-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK4-NEXT: [[TMP17:%.*]] = zext i32 [[TMP16]] to i64
				// CHECK4-NEXT: [[TMP18:%.]] = load i32, i32 [[CONV]], align 8
				// CHECK4-NEXT: [[CONV8:%.]] = bitcast i64 [[ARGC_CASTED]] to i32*
				// CHECK4-NEXT: store i32 [[TMP18]], i32* [[CONV8]], align 4
				// CHECK4-NEXT: [[TMP19:%.]] = load i64, i64 [[ARGC_CASTED]], align 8
				// CHECK4-NEXT: [[TMP20:%.]] = load i32, i32 [[CONV1]], align 8
				// CHECK4-NEXT: [[CONV9:%.]] = bitcast i64 [[DOTCAPTURE_EXPR__CASTED]] to i32*
				// CHECK4-NEXT: store i32 [[TMP20]], i32* [[CONV9]], align 4
				// CHECK4-NEXT: [[TMP21:%.]] = load i64, i64 [[DOTCAPTURE_EXPR__CASTED]], align 8
				// CHECK4-NEXT: [[TMP22:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
				// CHECK4-NEXT: [[TMP23:%.]] = inttoptr i64 [[TMP15]] to i8
				// CHECK4-NEXT: store i8* [[TMP23]], i8** [[TMP22]], align 8
				// CHECK4-NEXT: [[TMP24:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1
				// CHECK4-NEXT: [[TMP25:%.]] = inttoptr i64 [[TMP17]] to i8
				// CHECK4-NEXT: store i8* [[TMP25]], i8** [[TMP24]], align 8
				// CHECK4-NEXT: [[TMP26:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 2
				// CHECK4-NEXT: [[TMP27:%.]] = inttoptr i64 [[TMP19]] to i8
				// CHECK4-NEXT: store i8* [[TMP27]], i8** [[TMP26]], align 8
				// CHECK4-NEXT: [[TMP28:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 3
				// CHECK4-NEXT: [[TMP29:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK4-NEXT: store i8* [[TMP29]], i8** [[TMP28]], align 8
				// CHECK4-NEXT: [[TMP30:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 4
				// CHECK4-NEXT: [[TMP31:%.]] = inttoptr i64 [[TMP21]] to i8
				// CHECK4-NEXT: store i8* [[TMP31]], i8** [[TMP30]], align 8
				// CHECK4-NEXT: [[TMP32:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK4-NEXT: [[TMP33:%.]] = load i32, i32 [[TMP32]], align 4
				// CHECK4-NEXT: [[TMP34:%.]] = bitcast [5 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK4-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB3]], i32 [[TMP33]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i64, i64, i64, i32, i64) @__omp_outlined__1 to i8), i8 null, i8** [[TMP34]], i64 5)
				// CHECK4-NEXT: br label [[OMP_INNER_FOR_INC:%.*]]
				// CHECK4: omp.inner.for.inc:
				// CHECK4-NEXT: [[TMP35:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK4-NEXT: [[TMP36:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK4-NEXT: [[ADD10:%.*]] = add nsw i32 [[TMP35]], [[TMP36]]
				// CHECK4-NEXT: store i32 [[ADD10]], i32* [[DOTOMP_IV]], align 4
				// CHECK4-NEXT: [[TMP37:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK4-NEXT: [[TMP38:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK4-NEXT: [[ADD11:%.*]] = add nsw i32 [[TMP37]], [[TMP38]]
				// CHECK4-NEXT: store i32 [[ADD11]], i32* [[DOTOMP_COMB_LB]], align 4
				// CHECK4-NEXT: [[TMP39:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK4-NEXT: [[TMP40:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK4-NEXT: [[ADD12:%.*]] = add nsw i32 [[TMP39]], [[TMP40]]
				// CHECK4-NEXT: store i32 [[ADD12]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK4-NEXT: [[TMP41:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK4-NEXT: [[TMP42:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_3]], align 4
				// CHECK4-NEXT: [[CMP13:%.*]] = icmp sgt i32 [[TMP41]], [[TMP42]]
				// CHECK4-NEXT: br i1 [[CMP13]], label [[COND_TRUE14:%.]], label [[COND_FALSE15:%.]]
				// CHECK4: cond.true14:
				// CHECK4-NEXT: [[TMP43:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_3]], align 4
				// CHECK4-NEXT: br label [[COND_END16:%.*]]
				// CHECK4: cond.false15:
				// CHECK4-NEXT: [[TMP44:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK4-NEXT: br label [[COND_END16]]
				// CHECK4: cond.end16:
				// CHECK4-NEXT: [[COND17:%.*]] = phi i32 [ [[TMP43]], [[COND_TRUE14]] ], [ [[TMP44]], [[COND_FALSE15]] ]
				// CHECK4-NEXT: store i32 [[COND17]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK4-NEXT: [[TMP45:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK4-NEXT: store i32 [[TMP45]], i32* [[DOTOMP_IV]], align 4
				// CHECK4-NEXT: br label [[OMP_INNER_FOR_COND]]
				// CHECK4: omp.inner.for.end:
				// CHECK4-NEXT: br label [[OMP_LOOP_EXIT:%.*]]
				// CHECK4: omp.loop.exit:
				// CHECK4-NEXT: [[TMP46:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK4-NEXT: [[TMP47:%.]] = load i32, i32 [[TMP46]], align 4
				// CHECK4-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB1]], i32 [[TMP47]])
				// CHECK4-NEXT: br label [[OMP_PRECOND_END]]
				// CHECK4: omp.precond.end:
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK4-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK4-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i64 [[DOTPREVIOUS_LB_:%.]], i64 [[DOTPREVIOUS_UB_:%.]], i64 [[ARGC:%.]], i32* nonnull align 4 dereferenceable(4) [[A:%.]], i64 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0]] {
				// CHECK4-NEXT: entry:
				// CHECK4-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[DOTPREVIOUS_LB__ADDR:%.*]] = alloca i64, align 8
				// CHECK4-NEXT: [[DOTPREVIOUS_UB__ADDR:%.*]] = alloca i64, align 8
				// CHECK4-NEXT: [[ARGC_ADDR:%.*]] = alloca i64, align 8
				// CHECK4-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
				// CHECK4-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i64, align 8
				// CHECK4-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[TMP:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTCAPTURE_EXPR_2:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTCAPTURE_EXPR_3:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[I:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: [[I7:%.*]] = alloca i32, align 4
				// CHECK4-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK4-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
				// CHECK4-NEXT: store i64 [[DOTPREVIOUS_LB_]], i64* [[DOTPREVIOUS_LB__ADDR]], align 8
				// CHECK4-NEXT: store i64 [[DOTPREVIOUS_UB_]], i64* [[DOTPREVIOUS_UB__ADDR]], align 8
				// CHECK4-NEXT: store i64 [[ARGC]], i64* [[ARGC_ADDR]], align 8
				// CHECK4-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
				// CHECK4-NEXT: store i64 [[DOTCAPTURE_EXPR_]], i64* [[DOTCAPTURE_EXPR__ADDR]], align 8
				// CHECK4-NEXT: [[CONV:%.]] = bitcast i64 [[ARGC_ADDR]] to i32*
				// CHECK4-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8
				// CHECK4-NEXT: [[CONV1:%.]] = bitcast i64 [[DOTCAPTURE_EXPR__ADDR]] to i32*
				// CHECK4-NEXT: [[TMP1:%.]] = load i32, i32 [[CONV]], align 8
				// CHECK4-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK4-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK4-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0
				// CHECK4-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
				// CHECK4-NEXT: [[SUB4:%.*]] = sub nsw i32 [[DIV]], 1
				// CHECK4-NEXT: store i32 [[SUB4]], i32* [[DOTCAPTURE_EXPR_3]], align 4
				// CHECK4-NEXT: store i32 0, i32* [[I]], align 4
				// CHECK4-NEXT: [[TMP3:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK4-NEXT: [[CMP:%.*]] = icmp slt i32 0, [[TMP3]]
				// CHECK4-NEXT: br i1 [[CMP]], label [[OMP_PRECOND_THEN:%.]], label [[OMP_PRECOND_END:%.]]
				// CHECK4: omp.precond.then:
				// CHECK4-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4
				// CHECK4-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_3]], align 4
				// CHECK4-NEXT: store i32 [[TMP4]], i32* [[DOTOMP_UB]], align 4
				// CHECK4-NEXT: [[TMP5:%.]] = load i64, i64 [[DOTPREVIOUS_LB__ADDR]], align 8
				// CHECK4-NEXT: [[CONV5:%.*]] = trunc i64 [[TMP5]] to i32
				// CHECK4-NEXT: [[TMP6:%.]] = load i64, i64 [[DOTPREVIOUS_UB__ADDR]], align 8
				// CHECK4-NEXT: [[CONV6:%.*]] = trunc i64 [[TMP6]] to i32
				// CHECK4-NEXT: store i32 [[CONV5]], i32* [[DOTOMP_LB]], align 4
				// CHECK4-NEXT: store i32 [[CONV6]], i32* [[DOTOMP_UB]], align 4
				// CHECK4-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
				// CHECK4-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
				// CHECK4-NEXT: [[TMP7:%.]] = load i32, i32 [[CONV1]], align 8
				// CHECK4-NEXT: [[TMP8:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK4-NEXT: [[TMP9:%.]] = load i32, i32 [[TMP8]], align 4
				// CHECK4-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB2:[0-9]+]], i32 [[TMP9]], i32 33, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 [[TMP7]])
				// CHECK4-NEXT: br label [[OMP_DISPATCH_COND:%.*]]
				// CHECK4: omp.dispatch.cond:
				// CHECK4-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK4-NEXT: [[CONV8:%.*]] = sext i32 [[TMP10]] to i64
				// CHECK4-NEXT: [[TMP11:%.]] = load i64, i64 [[DOTPREVIOUS_UB__ADDR]], align 8
				// CHECK4-NEXT: [[CMP9:%.*]] = icmp ugt i64 [[CONV8]], [[TMP11]]
				// CHECK4-NEXT: br i1 [[CMP9]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]]
				// CHECK4: cond.true:
				// CHECK4-NEXT: [[TMP12:%.]] = load i64, i64 [[DOTPREVIOUS_UB__ADDR]], align 8
				// CHECK4-NEXT: br label [[COND_END:%.*]]
				// CHECK4: cond.false:
				// CHECK4-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK4-NEXT: [[CONV10:%.*]] = sext i32 [[TMP13]] to i64
				// CHECK4-NEXT: br label [[COND_END]]
				// CHECK4: cond.end:
				// CHECK4-NEXT: [[COND:%.*]] = phi i64 [ [[TMP12]], [[COND_TRUE]] ], [ [[CONV10]], [[COND_FALSE]] ]
				// CHECK4-NEXT: [[CONV11:%.*]] = trunc i64 [[COND]] to i32
				// CHECK4-NEXT: store i32 [[CONV11]], i32* [[DOTOMP_UB]], align 4
				// CHECK4-NEXT: [[TMP14:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK4-NEXT: store i32 [[TMP14]], i32* [[DOTOMP_IV]], align 4
				// CHECK4-NEXT: [[TMP15:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK4-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK4-NEXT: [[CMP12:%.*]] = icmp sle i32 [[TMP15]], [[TMP16]]
				// CHECK4-NEXT: br i1 [[CMP12]], label [[OMP_DISPATCH_BODY:%.]], label [[OMP_DISPATCH_END:%.]]
				// CHECK4: omp.dispatch.body:
				// CHECK4-NEXT: br label [[OMP_INNER_FOR_COND:%.*]]
				// CHECK4: omp.inner.for.cond:
				// CHECK4-NEXT: [[TMP17:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK4-NEXT: [[TMP18:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK4-NEXT: [[CMP13:%.*]] = icmp sle i32 [[TMP17]], [[TMP18]]
				// CHECK4-NEXT: br i1 [[CMP13]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]]
				// CHECK4: omp.inner.for.body:
				// CHECK4-NEXT: [[TMP19:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK4-NEXT: [[MUL:%.*]] = mul nsw i32 [[TMP19]], 1
				// CHECK4-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]
				// CHECK4-NEXT: store i32 [[ADD]], i32* [[I7]], align 4
				// CHECK4-NEXT: [[CALL:%.]] = call i32 @_Z3fooPi(i32 [[I7]]) #[[ATTR4:[0-9]+]]
				// CHECK4-NEXT: [[CALL14:%.]] = call i32 @_Z3fooPi(i32 [[TMP0]]) #[[ATTR4]]
				// CHECK4-NEXT: [[ADD15:%.*]] = add nsw i32 [[CALL]], [[CALL14]]
				// CHECK4-NEXT: [[CALL16:%.]] = call i32 @_Z3fooPi(i32 [[CONV]]) #[[ATTR4]]
				// CHECK4-NEXT: [[ADD17:%.*]] = add nsw i32 [[ADD15]], [[CALL16]]
				// CHECK4-NEXT: store i32 [[ADD17]], i32* [[TMP0]], align 4
				// CHECK4-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]
				// CHECK4: omp.body.continue:
				// CHECK4-NEXT: br label [[OMP_INNER_FOR_INC:%.*]]
				// CHECK4: omp.inner.for.inc:
				// CHECK4-NEXT: [[TMP20:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK4-NEXT: [[ADD18:%.*]] = add nsw i32 [[TMP20]], 1
				// CHECK4-NEXT: store i32 [[ADD18]], i32* [[DOTOMP_IV]], align 4
				// CHECK4-NEXT: br label [[OMP_INNER_FOR_COND]]
				// CHECK4: omp.inner.for.end:
				// CHECK4-NEXT: br label [[OMP_DISPATCH_INC:%.*]]
				// CHECK4: omp.dispatch.inc:
				// CHECK4-NEXT: [[TMP21:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK4-NEXT: [[TMP22:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK4-NEXT: [[ADD19:%.*]] = add nsw i32 [[TMP21]], [[TMP22]]
				// CHECK4-NEXT: store i32 [[ADD19]], i32* [[DOTOMP_LB]], align 4
				// CHECK4-NEXT: [[TMP23:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK4-NEXT: [[TMP24:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK4-NEXT: [[ADD20:%.*]] = add nsw i32 [[TMP23]], [[TMP24]]
				// CHECK4-NEXT: store i32 [[ADD20]], i32* [[DOTOMP_UB]], align 4
				// CHECK4-NEXT: br label [[OMP_DISPATCH_COND]]
				// CHECK4: omp.dispatch.end:
				// CHECK4-NEXT: [[TMP25:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
				// CHECK4-NEXT: [[TMP26:%.]] = load i32, i32 [[TMP25]], align 4
				// CHECK4-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB1]], i32 [[TMP26]])
				// CHECK4-NEXT: br label [[OMP_PRECOND_END]]
				// CHECK4: omp.precond.end:
				// CHECK4-NEXT: ret void
				//
				//
				// CHECK5-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l24
				// CHECK5-SAME: (i32 [[ARGC:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i32 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0:[0-9]+]] {
				// CHECK5-NEXT: entry:
				// CHECK5-NEXT: [[ARGC_ADDR:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[ARGC_CASTED:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTCAPTURE_EXPR__CASTED:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK5-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4
				// CHECK5-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK5-NEXT: store i32 [[DOTCAPTURE_EXPR_]], i32* [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK5-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK5-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK5-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 0)
				// CHECK5-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK5: .execute:
				// CHECK5-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3:[0-9]+]])
				// CHECK5-NEXT: [[TMP2:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
				// CHECK5-NEXT: store i32 [[TMP2]], i32* [[ARGC_CASTED]], align 4
				// CHECK5-NEXT: [[TMP3:%.]] = load i32, i32 [[ARGC_CASTED]], align 4
				// CHECK5-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK5-NEXT: store i32 [[TMP4]], i32* [[DOTCAPTURE_EXPR__CASTED]], align 4
				// CHECK5-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__CASTED]], align 4
				// CHECK5-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK5-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32 [[TMP3]], i32* [[TMP0]], i32 [[TMP5]]) #[[ATTR3:[0-9]+]]
				// CHECK5-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK5: .omp.deinit:
				// CHECK5-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 0)
				// CHECK5-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK5: .exit:
				// CHECK5-NEXT: ret void
				//
				//
				// CHECK5-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK5-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 [[ARGC:%.]], i32* nonnull align 4 dereferenceable(4) [[A:%.]], i32 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0]] {
				// CHECK5-NEXT: entry:
				// CHECK5-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[ARGC_ADDR:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[TMP:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTCAPTURE_EXPR_1:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTCAPTURE_EXPR_2:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[I:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTOMP_COMB_LB:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTOMP_COMB_UB:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[I4:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[ARGC_CASTED:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTCAPTURE_EXPR__CASTED:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [5 x i8], align 4
				// CHECK5-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK5-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK5-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4
				// CHECK5-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK5-NEXT: store i32 [[DOTCAPTURE_EXPR_]], i32* [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK5-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK5-NEXT: [[TMP1:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
				// CHECK5-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK5-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK5-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0
				// CHECK5-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
				// CHECK5-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1
				// CHECK5-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK5-NEXT: store i32 0, i32* [[I]], align 4
				// CHECK5-NEXT: [[TMP3:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK5-NEXT: [[CMP:%.*]] = icmp slt i32 0, [[TMP3]]
				// CHECK5-NEXT: br i1 [[CMP]], label [[OMP_PRECOND_THEN:%.]], label [[OMP_PRECOND_END:%.]]
				// CHECK5: omp.precond.then:
				// CHECK5-NEXT: store i32 0, i32* [[DOTOMP_COMB_LB]], align 4
				// CHECK5-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK5-NEXT: store i32 [[TMP4]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK5-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
				// CHECK5-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
				// CHECK5-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK5-NEXT: [[TMP5:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK5-NEXT: [[TMP6:%.]] = load i32, i32 [[TMP5]], align 4
				// CHECK5-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB1:[0-9]+]], i32 [[TMP6]], i32 91, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_COMB_LB]], i32* [[DOTOMP_COMB_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 [[NVPTX_NUM_THREADS]])
				// CHECK5-NEXT: [[TMP7:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK5-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK5-NEXT: [[CMP5:%.*]] = icmp sgt i32 [[TMP7]], [[TMP8]]
				// CHECK5-NEXT: br i1 [[CMP5]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]]
				// CHECK5: cond.true:
				// CHECK5-NEXT: [[TMP9:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK5-NEXT: br label [[COND_END:%.*]]
				// CHECK5: cond.false:
				// CHECK5-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK5-NEXT: br label [[COND_END]]
				// CHECK5: cond.end:
				// CHECK5-NEXT: [[COND:%.*]] = phi i32 [ [[TMP9]], [[COND_TRUE]] ], [ [[TMP10]], [[COND_FALSE]] ]
				// CHECK5-NEXT: store i32 [[COND]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK5-NEXT: [[TMP11:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK5-NEXT: store i32 [[TMP11]], i32* [[DOTOMP_IV]], align 4
				// CHECK5-NEXT: br label [[OMP_INNER_FOR_COND:%.*]]
				// CHECK5: omp.inner.for.cond:
				// CHECK5-NEXT: [[TMP12:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK5-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK5-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP13]], 1
				// CHECK5-NEXT: [[CMP6:%.*]] = icmp slt i32 [[TMP12]], [[ADD]]
				// CHECK5-NEXT: br i1 [[CMP6]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]]
				// CHECK5: omp.inner.for.body:
				// CHECK5-NEXT: [[TMP14:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK5-NEXT: [[TMP15:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK5-NEXT: [[TMP16:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
				// CHECK5-NEXT: store i32 [[TMP16]], i32* [[ARGC_CASTED]], align 4
				// CHECK5-NEXT: [[TMP17:%.]] = load i32, i32 [[ARGC_CASTED]], align 4
				// CHECK5-NEXT: [[TMP18:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK5-NEXT: store i32 [[TMP18]], i32* [[DOTCAPTURE_EXPR__CASTED]], align 4
				// CHECK5-NEXT: [[TMP19:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__CASTED]], align 4
				// CHECK5-NEXT: [[TMP20:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK5-NEXT: [[TMP21:%.]] = inttoptr i32 [[TMP14]] to i8
				// CHECK5-NEXT: store i8* [[TMP21]], i8** [[TMP20]], align 4
				// CHECK5-NEXT: [[TMP22:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 1
				// CHECK5-NEXT: [[TMP23:%.]] = inttoptr i32 [[TMP15]] to i8
				// CHECK5-NEXT: store i8* [[TMP23]], i8** [[TMP22]], align 4
				// CHECK5-NEXT: [[TMP24:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 2
				// CHECK5-NEXT: [[TMP25:%.]] = inttoptr i32 [[TMP17]] to i8
				// CHECK5-NEXT: store i8* [[TMP25]], i8** [[TMP24]], align 4
				// CHECK5-NEXT: [[TMP26:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 3
				// CHECK5-NEXT: [[TMP27:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK5-NEXT: store i8* [[TMP27]], i8** [[TMP26]], align 4
				// CHECK5-NEXT: [[TMP28:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 4
				// CHECK5-NEXT: [[TMP29:%.]] = inttoptr i32 [[TMP19]] to i8
				// CHECK5-NEXT: store i8* [[TMP29]], i8** [[TMP28]], align 4
				// CHECK5-NEXT: [[TMP30:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK5-NEXT: [[TMP31:%.]] = load i32, i32 [[TMP30]], align 4
				// CHECK5-NEXT: [[TMP32:%.]] = bitcast [5 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK5-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB3]], i32 [[TMP31]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i32, i32, i32, i32) @__omp_outlined__1 to i8), i8 null, i8** [[TMP32]], i32 5)
				// CHECK5-NEXT: br label [[OMP_INNER_FOR_INC:%.*]]
				// CHECK5: omp.inner.for.inc:
				// CHECK5-NEXT: [[TMP33:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK5-NEXT: [[TMP34:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK5-NEXT: [[ADD7:%.*]] = add nsw i32 [[TMP33]], [[TMP34]]
				// CHECK5-NEXT: store i32 [[ADD7]], i32* [[DOTOMP_IV]], align 4
				// CHECK5-NEXT: [[TMP35:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK5-NEXT: [[TMP36:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK5-NEXT: [[ADD8:%.*]] = add nsw i32 [[TMP35]], [[TMP36]]
				// CHECK5-NEXT: store i32 [[ADD8]], i32* [[DOTOMP_COMB_LB]], align 4
				// CHECK5-NEXT: [[TMP37:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK5-NEXT: [[TMP38:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK5-NEXT: [[ADD9:%.*]] = add nsw i32 [[TMP37]], [[TMP38]]
				// CHECK5-NEXT: store i32 [[ADD9]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK5-NEXT: [[TMP39:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK5-NEXT: [[TMP40:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK5-NEXT: [[CMP10:%.*]] = icmp sgt i32 [[TMP39]], [[TMP40]]
				// CHECK5-NEXT: br i1 [[CMP10]], label [[COND_TRUE11:%.]], label [[COND_FALSE12:%.]]
				// CHECK5: cond.true11:
				// CHECK5-NEXT: [[TMP41:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK5-NEXT: br label [[COND_END13:%.*]]
				// CHECK5: cond.false12:
				// CHECK5-NEXT: [[TMP42:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK5-NEXT: br label [[COND_END13]]
				// CHECK5: cond.end13:
				// CHECK5-NEXT: [[COND14:%.*]] = phi i32 [ [[TMP41]], [[COND_TRUE11]] ], [ [[TMP42]], [[COND_FALSE12]] ]
				// CHECK5-NEXT: store i32 [[COND14]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK5-NEXT: [[TMP43:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK5-NEXT: store i32 [[TMP43]], i32* [[DOTOMP_IV]], align 4
				// CHECK5-NEXT: br label [[OMP_INNER_FOR_COND]]
				// CHECK5: omp.inner.for.end:
				// CHECK5-NEXT: br label [[OMP_LOOP_EXIT:%.*]]
				// CHECK5: omp.loop.exit:
				// CHECK5-NEXT: [[TMP44:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK5-NEXT: [[TMP45:%.]] = load i32, i32 [[TMP44]], align 4
				// CHECK5-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB1]], i32 [[TMP45]])
				// CHECK5-NEXT: br label [[OMP_PRECOND_END]]
				// CHECK5: omp.precond.end:
				// CHECK5-NEXT: ret void
				//
				//
				// CHECK5-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK5-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 [[DOTPREVIOUS_LB_:%.]], i32 [[DOTPREVIOUS_UB_:%.]], i32 [[ARGC:%.]], i32* nonnull align 4 dereferenceable(4) [[A:%.]], i32 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0]] {
				// CHECK5-NEXT: entry:
				// CHECK5-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTPREVIOUS_LB__ADDR:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTPREVIOUS_UB__ADDR:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[ARGC_ADDR:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[TMP:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTCAPTURE_EXPR_1:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTCAPTURE_EXPR_2:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[I:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: [[I4:%.*]] = alloca i32, align 4
				// CHECK5-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK5-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK5-NEXT: store i32 [[DOTPREVIOUS_LB_]], i32* [[DOTPREVIOUS_LB__ADDR]], align 4
				// CHECK5-NEXT: store i32 [[DOTPREVIOUS_UB_]], i32* [[DOTPREVIOUS_UB__ADDR]], align 4
				// CHECK5-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4
				// CHECK5-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK5-NEXT: store i32 [[DOTCAPTURE_EXPR_]], i32* [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK5-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK5-NEXT: [[TMP1:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
				// CHECK5-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK5-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK5-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0
				// CHECK5-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
				// CHECK5-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1
				// CHECK5-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK5-NEXT: store i32 0, i32* [[I]], align 4
				// CHECK5-NEXT: [[TMP3:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK5-NEXT: [[CMP:%.*]] = icmp slt i32 0, [[TMP3]]
				// CHECK5-NEXT: br i1 [[CMP]], label [[OMP_PRECOND_THEN:%.]], label [[OMP_PRECOND_END:%.]]
				// CHECK5: omp.precond.then:
				// CHECK5-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4
				// CHECK5-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK5-NEXT: store i32 [[TMP4]], i32* [[DOTOMP_UB]], align 4
				// CHECK5-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTPREVIOUS_LB__ADDR]], align 4
				// CHECK5-NEXT: [[TMP6:%.]] = load i32, i32 [[DOTPREVIOUS_UB__ADDR]], align 4
				// CHECK5-NEXT: store i32 [[TMP5]], i32* [[DOTOMP_LB]], align 4
				// CHECK5-NEXT: store i32 [[TMP6]], i32* [[DOTOMP_UB]], align 4
				// CHECK5-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
				// CHECK5-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
				// CHECK5-NEXT: [[TMP7:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK5-NEXT: [[TMP8:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK5-NEXT: [[TMP9:%.]] = load i32, i32 [[TMP8]], align 4
				// CHECK5-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB2:[0-9]+]], i32 [[TMP9]], i32 33, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 [[TMP7]])
				// CHECK5-NEXT: br label [[OMP_DISPATCH_COND:%.*]]
				// CHECK5: omp.dispatch.cond:
				// CHECK5-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK5-NEXT: [[TMP11:%.]] = load i32, i32 [[DOTPREVIOUS_UB__ADDR]], align 4
				// CHECK5-NEXT: [[CMP5:%.*]] = icmp ugt i32 [[TMP10]], [[TMP11]]
				// CHECK5-NEXT: br i1 [[CMP5]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]]
				// CHECK5: cond.true:
				// CHECK5-NEXT: [[TMP12:%.]] = load i32, i32 [[DOTPREVIOUS_UB__ADDR]], align 4
				// CHECK5-NEXT: br label [[COND_END:%.*]]
				// CHECK5: cond.false:
				// CHECK5-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK5-NEXT: br label [[COND_END]]
				// CHECK5: cond.end:
				// CHECK5-NEXT: [[COND:%.*]] = phi i32 [ [[TMP12]], [[COND_TRUE]] ], [ [[TMP13]], [[COND_FALSE]] ]
				// CHECK5-NEXT: store i32 [[COND]], i32* [[DOTOMP_UB]], align 4
				// CHECK5-NEXT: [[TMP14:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK5-NEXT: store i32 [[TMP14]], i32* [[DOTOMP_IV]], align 4
				// CHECK5-NEXT: [[TMP15:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK5-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK5-NEXT: [[CMP6:%.*]] = icmp sle i32 [[TMP15]], [[TMP16]]
				// CHECK5-NEXT: br i1 [[CMP6]], label [[OMP_DISPATCH_BODY:%.]], label [[OMP_DISPATCH_END:%.]]
				// CHECK5: omp.dispatch.body:
				// CHECK5-NEXT: br label [[OMP_INNER_FOR_COND:%.*]]
				// CHECK5: omp.inner.for.cond:
				// CHECK5-NEXT: [[TMP17:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK5-NEXT: [[TMP18:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK5-NEXT: [[CMP7:%.*]] = icmp sle i32 [[TMP17]], [[TMP18]]
				// CHECK5-NEXT: br i1 [[CMP7]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]]
				// CHECK5: omp.inner.for.body:
				// CHECK5-NEXT: [[TMP19:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK5-NEXT: [[MUL:%.*]] = mul nsw i32 [[TMP19]], 1
				// CHECK5-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]
				// CHECK5-NEXT: store i32 [[ADD]], i32* [[I4]], align 4
				// CHECK5-NEXT: [[CALL:%.]] = call i32 @_Z3fooPi(i32 [[I4]]) #[[ATTR4:[0-9]+]]
				// CHECK5-NEXT: [[CALL8:%.]] = call i32 @_Z3fooPi(i32 [[TMP0]]) #[[ATTR4]]
				// CHECK5-NEXT: [[ADD9:%.*]] = add nsw i32 [[CALL]], [[CALL8]]
				// CHECK5-NEXT: [[CALL10:%.]] = call i32 @_Z3fooPi(i32 [[ARGC_ADDR]]) #[[ATTR4]]
				// CHECK5-NEXT: [[ADD11:%.*]] = add nsw i32 [[ADD9]], [[CALL10]]
				// CHECK5-NEXT: store i32 [[ADD11]], i32* [[TMP0]], align 4
				// CHECK5-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]
				// CHECK5: omp.body.continue:
				// CHECK5-NEXT: br label [[OMP_INNER_FOR_INC:%.*]]
				// CHECK5: omp.inner.for.inc:
				// CHECK5-NEXT: [[TMP20:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK5-NEXT: [[ADD12:%.*]] = add nsw i32 [[TMP20]], 1
				// CHECK5-NEXT: store i32 [[ADD12]], i32* [[DOTOMP_IV]], align 4
				// CHECK5-NEXT: br label [[OMP_INNER_FOR_COND]]
				// CHECK5: omp.inner.for.end:
				// CHECK5-NEXT: br label [[OMP_DISPATCH_INC:%.*]]
				// CHECK5: omp.dispatch.inc:
				// CHECK5-NEXT: [[TMP21:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK5-NEXT: [[TMP22:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK5-NEXT: [[ADD13:%.*]] = add nsw i32 [[TMP21]], [[TMP22]]
				// CHECK5-NEXT: store i32 [[ADD13]], i32* [[DOTOMP_LB]], align 4
				// CHECK5-NEXT: [[TMP23:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK5-NEXT: [[TMP24:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK5-NEXT: [[ADD14:%.*]] = add nsw i32 [[TMP23]], [[TMP24]]
				// CHECK5-NEXT: store i32 [[ADD14]], i32* [[DOTOMP_UB]], align 4
				// CHECK5-NEXT: br label [[OMP_DISPATCH_COND]]
				// CHECK5: omp.dispatch.end:
				// CHECK5-NEXT: [[TMP25:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK5-NEXT: [[TMP26:%.]] = load i32, i32 [[TMP25]], align 4
				// CHECK5-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB1]], i32 [[TMP26]])
				// CHECK5-NEXT: br label [[OMP_PRECOND_END]]
				// CHECK5: omp.precond.end:
				// CHECK5-NEXT: ret void
				//
				//
				// CHECK6-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l24
				// CHECK6-SAME: (i32 [[ARGC:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i32 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0:[0-9]+]] {
				// CHECK6-NEXT: entry:
				// CHECK6-NEXT: [[ARGC_ADDR:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[ARGC_CASTED:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTCAPTURE_EXPR__CASTED:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				// CHECK6-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4
				// CHECK6-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK6-NEXT: store i32 [[DOTCAPTURE_EXPR_]], i32* [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK6-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK6-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK6-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 0)
				// CHECK6-NEXT: br label [[DOTEXECUTE:%.*]]
				// CHECK6: .execute:
				// CHECK6-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3:[0-9]+]])
				// CHECK6-NEXT: [[TMP2:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
				// CHECK6-NEXT: store i32 [[TMP2]], i32* [[ARGC_CASTED]], align 4
				// CHECK6-NEXT: [[TMP3:%.]] = load i32, i32 [[ARGC_CASTED]], align 4
				// CHECK6-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK6-NEXT: store i32 [[TMP4]], i32* [[DOTCAPTURE_EXPR__CASTED]], align 4
				// CHECK6-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__CASTED]], align 4
				// CHECK6-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
				// CHECK6-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32 [[TMP3]], i32* [[TMP0]], i32 [[TMP5]]) #[[ATTR3:[0-9]+]]
				// CHECK6-NEXT: br label [[DOTOMP_DEINIT:%.*]]
				// CHECK6: .omp.deinit:
				// CHECK6-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 0)
				// CHECK6-NEXT: br label [[DOTEXIT:%.*]]
				// CHECK6: .exit:
				// CHECK6-NEXT: ret void
				//
				//
				// CHECK6-LABEL: define {{[^@]+}}@__omp_outlined__
				// CHECK6-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 [[ARGC:%.]], i32* nonnull align 4 dereferenceable(4) [[A:%.]], i32 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0]] {
				// CHECK6-NEXT: entry:
				// CHECK6-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[ARGC_ADDR:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[TMP:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTCAPTURE_EXPR_1:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTCAPTURE_EXPR_2:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[I:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTOMP_COMB_LB:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTOMP_COMB_UB:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[I4:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[ARGC_CASTED:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTCAPTURE_EXPR__CASTED:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [5 x i8], align 4
				// CHECK6-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK6-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK6-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4
				// CHECK6-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK6-NEXT: store i32 [[DOTCAPTURE_EXPR_]], i32* [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK6-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK6-NEXT: [[TMP1:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
				// CHECK6-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK6-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK6-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0
				// CHECK6-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
				// CHECK6-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1
				// CHECK6-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK6-NEXT: store i32 0, i32* [[I]], align 4
				// CHECK6-NEXT: [[TMP3:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK6-NEXT: [[CMP:%.*]] = icmp slt i32 0, [[TMP3]]
				// CHECK6-NEXT: br i1 [[CMP]], label [[OMP_PRECOND_THEN:%.]], label [[OMP_PRECOND_END:%.]]
				// CHECK6: omp.precond.then:
				// CHECK6-NEXT: store i32 0, i32* [[DOTOMP_COMB_LB]], align 4
				// CHECK6-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK6-NEXT: store i32 [[TMP4]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK6-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
				// CHECK6-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
				// CHECK6-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				// CHECK6-NEXT: [[TMP5:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK6-NEXT: [[TMP6:%.]] = load i32, i32 [[TMP5]], align 4
				// CHECK6-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB1:[0-9]+]], i32 [[TMP6]], i32 91, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_COMB_LB]], i32* [[DOTOMP_COMB_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 [[NVPTX_NUM_THREADS]])
				// CHECK6-NEXT: [[TMP7:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK6-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK6-NEXT: [[CMP5:%.*]] = icmp sgt i32 [[TMP7]], [[TMP8]]
				// CHECK6-NEXT: br i1 [[CMP5]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]]
				// CHECK6: cond.true:
				// CHECK6-NEXT: [[TMP9:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK6-NEXT: br label [[COND_END:%.*]]
				// CHECK6: cond.false:
				// CHECK6-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK6-NEXT: br label [[COND_END]]
				// CHECK6: cond.end:
				// CHECK6-NEXT: [[COND:%.*]] = phi i32 [ [[TMP9]], [[COND_TRUE]] ], [ [[TMP10]], [[COND_FALSE]] ]
				// CHECK6-NEXT: store i32 [[COND]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK6-NEXT: [[TMP11:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK6-NEXT: store i32 [[TMP11]], i32* [[DOTOMP_IV]], align 4
				// CHECK6-NEXT: br label [[OMP_INNER_FOR_COND:%.*]]
				// CHECK6: omp.inner.for.cond:
				// CHECK6-NEXT: [[TMP12:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK6-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK6-NEXT: [[ADD:%.*]] = add nsw i32 [[TMP13]], 1
				// CHECK6-NEXT: [[CMP6:%.*]] = icmp slt i32 [[TMP12]], [[ADD]]
				// CHECK6-NEXT: br i1 [[CMP6]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]]
				// CHECK6: omp.inner.for.body:
				// CHECK6-NEXT: [[TMP14:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK6-NEXT: [[TMP15:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK6-NEXT: [[TMP16:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
				// CHECK6-NEXT: store i32 [[TMP16]], i32* [[ARGC_CASTED]], align 4
				// CHECK6-NEXT: [[TMP17:%.]] = load i32, i32 [[ARGC_CASTED]], align 4
				// CHECK6-NEXT: [[TMP18:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK6-NEXT: store i32 [[TMP18]], i32* [[DOTCAPTURE_EXPR__CASTED]], align 4
				// CHECK6-NEXT: [[TMP19:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__CASTED]], align 4
				// CHECK6-NEXT: [[TMP20:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
				// CHECK6-NEXT: [[TMP21:%.]] = inttoptr i32 [[TMP14]] to i8
				// CHECK6-NEXT: store i8* [[TMP21]], i8** [[TMP20]], align 4
				// CHECK6-NEXT: [[TMP22:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 1
				// CHECK6-NEXT: [[TMP23:%.]] = inttoptr i32 [[TMP15]] to i8
				// CHECK6-NEXT: store i8* [[TMP23]], i8** [[TMP22]], align 4
				// CHECK6-NEXT: [[TMP24:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 2
				// CHECK6-NEXT: [[TMP25:%.]] = inttoptr i32 [[TMP17]] to i8
				// CHECK6-NEXT: store i8* [[TMP25]], i8** [[TMP24]], align 4
				// CHECK6-NEXT: [[TMP26:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 3
				// CHECK6-NEXT: [[TMP27:%.]] = bitcast i32 [[TMP0]] to i8*
				// CHECK6-NEXT: store i8* [[TMP27]], i8** [[TMP26]], align 4
				// CHECK6-NEXT: [[TMP28:%.]] = getelementptr inbounds [5 x i8], [5 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 4
				// CHECK6-NEXT: [[TMP29:%.]] = inttoptr i32 [[TMP19]] to i8
				// CHECK6-NEXT: store i8* [[TMP29]], i8** [[TMP28]], align 4
				// CHECK6-NEXT: [[TMP30:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK6-NEXT: [[TMP31:%.]] = load i32, i32 [[TMP30]], align 4
				// CHECK6-NEXT: [[TMP32:%.]] = bitcast [5 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				// CHECK6-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB3]], i32 [[TMP31]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32, i32, i32, i32, i32) @__omp_outlined__1 to i8), i8 null, i8** [[TMP32]], i32 5)
				// CHECK6-NEXT: br label [[OMP_INNER_FOR_INC:%.*]]
				// CHECK6: omp.inner.for.inc:
				// CHECK6-NEXT: [[TMP33:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK6-NEXT: [[TMP34:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK6-NEXT: [[ADD7:%.*]] = add nsw i32 [[TMP33]], [[TMP34]]
				// CHECK6-NEXT: store i32 [[ADD7]], i32* [[DOTOMP_IV]], align 4
				// CHECK6-NEXT: [[TMP35:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK6-NEXT: [[TMP36:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK6-NEXT: [[ADD8:%.*]] = add nsw i32 [[TMP35]], [[TMP36]]
				// CHECK6-NEXT: store i32 [[ADD8]], i32* [[DOTOMP_COMB_LB]], align 4
				// CHECK6-NEXT: [[TMP37:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK6-NEXT: [[TMP38:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK6-NEXT: [[ADD9:%.*]] = add nsw i32 [[TMP37]], [[TMP38]]
				// CHECK6-NEXT: store i32 [[ADD9]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK6-NEXT: [[TMP39:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK6-NEXT: [[TMP40:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK6-NEXT: [[CMP10:%.*]] = icmp sgt i32 [[TMP39]], [[TMP40]]
				// CHECK6-NEXT: br i1 [[CMP10]], label [[COND_TRUE11:%.]], label [[COND_FALSE12:%.]]
				// CHECK6: cond.true11:
				// CHECK6-NEXT: [[TMP41:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK6-NEXT: br label [[COND_END13:%.*]]
				// CHECK6: cond.false12:
				// CHECK6-NEXT: [[TMP42:%.]] = load i32, i32 [[DOTOMP_COMB_UB]], align 4
				// CHECK6-NEXT: br label [[COND_END13]]
				// CHECK6: cond.end13:
				// CHECK6-NEXT: [[COND14:%.*]] = phi i32 [ [[TMP41]], [[COND_TRUE11]] ], [ [[TMP42]], [[COND_FALSE12]] ]
				// CHECK6-NEXT: store i32 [[COND14]], i32* [[DOTOMP_COMB_UB]], align 4
				// CHECK6-NEXT: [[TMP43:%.]] = load i32, i32 [[DOTOMP_COMB_LB]], align 4
				// CHECK6-NEXT: store i32 [[TMP43]], i32* [[DOTOMP_IV]], align 4
				// CHECK6-NEXT: br label [[OMP_INNER_FOR_COND]]
				// CHECK6: omp.inner.for.end:
				// CHECK6-NEXT: br label [[OMP_LOOP_EXIT:%.*]]
				// CHECK6: omp.loop.exit:
				// CHECK6-NEXT: [[TMP44:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK6-NEXT: [[TMP45:%.]] = load i32, i32 [[TMP44]], align 4
				// CHECK6-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB1]], i32 [[TMP45]])
				// CHECK6-NEXT: br label [[OMP_PRECOND_END]]
				// CHECK6: omp.precond.end:
				// CHECK6-NEXT: ret void
				//
				//
				// CHECK6-LABEL: define {{[^@]+}}@__omp_outlined__1
				// CHECK6-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 [[DOTPREVIOUS_LB_:%.]], i32 [[DOTPREVIOUS_UB_:%.]], i32 [[ARGC:%.]], i32* nonnull align 4 dereferenceable(4) [[A:%.]], i32 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0]] {
				// CHECK6-NEXT: entry:
				// CHECK6-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTPREVIOUS_LB__ADDR:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTPREVIOUS_UB__ADDR:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[ARGC_ADDR:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[TMP:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTCAPTURE_EXPR_1:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTCAPTURE_EXPR_2:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[I:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: [[I4:%.*]] = alloca i32, align 4
				// CHECK6-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK6-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
				// CHECK6-NEXT: store i32 [[DOTPREVIOUS_LB_]], i32* [[DOTPREVIOUS_LB__ADDR]], align 4
				// CHECK6-NEXT: store i32 [[DOTPREVIOUS_UB_]], i32* [[DOTPREVIOUS_UB__ADDR]], align 4
				// CHECK6-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4
				// CHECK6-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
				// CHECK6-NEXT: store i32 [[DOTCAPTURE_EXPR_]], i32* [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK6-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
				// CHECK6-NEXT: [[TMP1:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
				// CHECK6-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK6-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK6-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0
				// CHECK6-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
				// CHECK6-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1
				// CHECK6-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK6-NEXT: store i32 0, i32* [[I]], align 4
				// CHECK6-NEXT: [[TMP3:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_1]], align 4
				// CHECK6-NEXT: [[CMP:%.*]] = icmp slt i32 0, [[TMP3]]
				// CHECK6-NEXT: br i1 [[CMP]], label [[OMP_PRECOND_THEN:%.]], label [[OMP_PRECOND_END:%.]]
				// CHECK6: omp.precond.then:
				// CHECK6-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4
				// CHECK6-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_2]], align 4
				// CHECK6-NEXT: store i32 [[TMP4]], i32* [[DOTOMP_UB]], align 4
				// CHECK6-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTPREVIOUS_LB__ADDR]], align 4
				// CHECK6-NEXT: [[TMP6:%.]] = load i32, i32 [[DOTPREVIOUS_UB__ADDR]], align 4
				// CHECK6-NEXT: store i32 [[TMP5]], i32* [[DOTOMP_LB]], align 4
				// CHECK6-NEXT: store i32 [[TMP6]], i32* [[DOTOMP_UB]], align 4
				// CHECK6-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
				// CHECK6-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
				// CHECK6-NEXT: [[TMP7:%.]] = load i32, i32 [[DOTCAPTURE_EXPR__ADDR]], align 4
				// CHECK6-NEXT: [[TMP8:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK6-NEXT: [[TMP9:%.]] = load i32, i32 [[TMP8]], align 4
				// CHECK6-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB2:[0-9]+]], i32 [[TMP9]], i32 33, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 [[TMP7]])
				// CHECK6-NEXT: br label [[OMP_DISPATCH_COND:%.*]]
				// CHECK6: omp.dispatch.cond:
				// CHECK6-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK6-NEXT: [[TMP11:%.]] = load i32, i32 [[DOTPREVIOUS_UB__ADDR]], align 4
				// CHECK6-NEXT: [[CMP5:%.*]] = icmp ugt i32 [[TMP10]], [[TMP11]]
				// CHECK6-NEXT: br i1 [[CMP5]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]]
				// CHECK6: cond.true:
				// CHECK6-NEXT: [[TMP12:%.]] = load i32, i32 [[DOTPREVIOUS_UB__ADDR]], align 4
				// CHECK6-NEXT: br label [[COND_END:%.*]]
				// CHECK6: cond.false:
				// CHECK6-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK6-NEXT: br label [[COND_END]]
				// CHECK6: cond.end:
				// CHECK6-NEXT: [[COND:%.*]] = phi i32 [ [[TMP12]], [[COND_TRUE]] ], [ [[TMP13]], [[COND_FALSE]] ]
				// CHECK6-NEXT: store i32 [[COND]], i32* [[DOTOMP_UB]], align 4
				// CHECK6-NEXT: [[TMP14:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK6-NEXT: store i32 [[TMP14]], i32* [[DOTOMP_IV]], align 4
				// CHECK6-NEXT: [[TMP15:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK6-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK6-NEXT: [[CMP6:%.*]] = icmp sle i32 [[TMP15]], [[TMP16]]
				// CHECK6-NEXT: br i1 [[CMP6]], label [[OMP_DISPATCH_BODY:%.]], label [[OMP_DISPATCH_END:%.]]
				// CHECK6: omp.dispatch.body:
				// CHECK6-NEXT: br label [[OMP_INNER_FOR_COND:%.*]]
				// CHECK6: omp.inner.for.cond:
				// CHECK6-NEXT: [[TMP17:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK6-NEXT: [[TMP18:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK6-NEXT: [[CMP7:%.*]] = icmp sle i32 [[TMP17]], [[TMP18]]
				// CHECK6-NEXT: br i1 [[CMP7]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]]
				// CHECK6: omp.inner.for.body:
				// CHECK6-NEXT: [[TMP19:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK6-NEXT: [[MUL:%.*]] = mul nsw i32 [[TMP19]], 1
				// CHECK6-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]
				// CHECK6-NEXT: store i32 [[ADD]], i32* [[I4]], align 4
				// CHECK6-NEXT: [[CALL:%.]] = call i32 @_Z3fooPi(i32 [[I4]]) #[[ATTR4:[0-9]+]]
				// CHECK6-NEXT: [[CALL8:%.]] = call i32 @_Z3fooPi(i32 [[TMP0]]) #[[ATTR4]]
				// CHECK6-NEXT: [[ADD9:%.*]] = add nsw i32 [[CALL]], [[CALL8]]
				// CHECK6-NEXT: [[CALL10:%.]] = call i32 @_Z3fooPi(i32 [[ARGC_ADDR]]) #[[ATTR4]]
				// CHECK6-NEXT: [[ADD11:%.*]] = add nsw i32 [[ADD9]], [[CALL10]]
				// CHECK6-NEXT: store i32 [[ADD11]], i32* [[TMP0]], align 4
				// CHECK6-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]
				// CHECK6: omp.body.continue:
				// CHECK6-NEXT: br label [[OMP_INNER_FOR_INC:%.*]]
				// CHECK6: omp.inner.for.inc:
				// CHECK6-NEXT: [[TMP20:%.]] = load i32, i32 [[DOTOMP_IV]], align 4
				// CHECK6-NEXT: [[ADD12:%.*]] = add nsw i32 [[TMP20]], 1
				// CHECK6-NEXT: store i32 [[ADD12]], i32* [[DOTOMP_IV]], align 4
				// CHECK6-NEXT: br label [[OMP_INNER_FOR_COND]]
				// CHECK6: omp.inner.for.end:
				// CHECK6-NEXT: br label [[OMP_DISPATCH_INC:%.*]]
				// CHECK6: omp.dispatch.inc:
				// CHECK6-NEXT: [[TMP21:%.]] = load i32, i32 [[DOTOMP_LB]], align 4
				// CHECK6-NEXT: [[TMP22:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK6-NEXT: [[ADD13:%.*]] = add nsw i32 [[TMP21]], [[TMP22]]
				// CHECK6-NEXT: store i32 [[ADD13]], i32* [[DOTOMP_LB]], align 4
				// CHECK6-NEXT: [[TMP23:%.]] = load i32, i32 [[DOTOMP_UB]], align 4
				// CHECK6-NEXT: [[TMP24:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4
				// CHECK6-NEXT: [[ADD14:%.*]] = add nsw i32 [[TMP23]], [[TMP24]]
				// CHECK6-NEXT: store i32 [[ADD14]], i32* [[DOTOMP_UB]], align 4
				// CHECK6-NEXT: br label [[OMP_DISPATCH_COND]]
				// CHECK6: omp.dispatch.end:
				// CHECK6-NEXT: [[TMP25:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
				// CHECK6-NEXT: [[TMP26:%.]] = load i32, i32 [[TMP25]], align 4
				// CHECK6-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB1]], i32 [[TMP26]])
				// CHECK6-NEXT: br label [[OMP_PRECOND_END]]
				// CHECK6: omp.precond.end:
				// CHECK6-NEXT: ret void
				//

clang/test/OpenMP/nvptx_target_teams_distribute_parallel_for_simd_codegen.cpp

This file has a very large number of changes (12,891 lines). Show File Contents

clang/test/OpenMP/nvptx_teams_reduction_codegen.cpp

This file has a very large number of changes (10,036 lines). Show File Contents

clang/test/OpenMP/remarks_parallel_in_multiple_target_state_machines.c

	// RUN: %clang_cc1 -verify=host -Rpass=openmp -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -verify=host -Rpass=openmp -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -verify=all,safe -Rpass=openmp -fopenmp -O2 -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o %t.out			// RUN: %clang_cc1 -verify=all,safe -Rpass=openmp -fopenmp -O2 -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o %t.out
	// RUN: %clang_cc1 -fexperimental-new-pass-manager -verify=all,safe -Rpass=openmp -fopenmp -O2 -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o %t.out			// RUN: %clang_cc1 -fexperimental-new-pass-manager -verify=all,safe -Rpass=openmp -fopenmp -O2 -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o %t.out

	// host-no-diagnostics			// host-no-diagnostics

	void bar1(void) { // all-remark {{[OMP100] Potentially unknown OpenMP target region caller}}			void bar1(void) { // all-remark {{[OMP100] Potentially unknown OpenMP target region caller}}
	#pragma omp parallel // #0			#pragma omp parallel // #0
	// all-remark@#0 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nesed inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}}			// all-remark@#0 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nested inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}}
	// safe-remark@#0 {{Parallel region is not known to be called from a unique single target region, maybe the surrounding function has external linkage?; will not attempt to rewrite the state machine use.}}			// safe-remark@#0 {{Parallel region is not known to be called from a unique single target region, maybe the surrounding function has external linkage?; will not attempt to rewrite the state machine use.}}
	// force-remark@#0 {{[UNSAFE] Parallel region is not known to be called from a unique single target region, maybe the surrounding function has external linkage?; will rewrite the state machine use due to command line flag, this can lead to undefined behavior if the parallel region is called from a target region outside this translation unit.}}			// force-remark@#0 {{[UNSAFE] Parallel region is not known to be called from a unique single target region, maybe the surrounding function has external linkage?; will rewrite the state machine use due to command line flag, this can lead to undefined behavior if the parallel region is called from a target region outside this translation unit.}}
	// force-remark@#0 {{Specialize parallel region that is only reached from a single target region to avoid spurious call edges and excessive register usage in other target regions. (parallel region ID: __omp_outlined__2_wrapper, kernel ID: <NONE>}}			// force-remark@#0 {{Specialize parallel region that is only reached from a single target region to avoid spurious call edges and excessive register usage in other target regions. (parallel region ID: __omp_outlined__2_wrapper, kernel ID: <NONE>}}
	{			{
	}			}
	}			}
	void bar2(void) { // all-remark {{[OMP100] Potentially unknown OpenMP target region caller}}			void bar2(void) { // all-remark {{[OMP100] Potentially unknown OpenMP target region caller}}
	#pragma omp parallel // #1			#pragma omp parallel // #1
	// all-remark@#1 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nesed inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}}			// all-remark@#1 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nested inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}}
	// safe-remark@#1 {{Parallel region is not known to be called from a unique single target region, maybe the surrounding function has external linkage?; will not attempt to rewrite the state machine use.}}			// safe-remark@#1 {{Parallel region is not known to be called from a unique single target region, maybe the surrounding function has external linkage?; will not attempt to rewrite the state machine use.}}
	// force-remark@#1 {{[UNSAFE] Parallel region is not known to be called from a unique single target region, maybe the surrounding function has external linkage?; will rewrite the state machine use due to command line flag, this can lead to undefined behavior if the parallel region is called from a target region outside this translation unit.}}			// force-remark@#1 {{[UNSAFE] Parallel region is not known to be called from a unique single target region, maybe the surrounding function has external linkage?; will rewrite the state machine use due to command line flag, this can lead to undefined behavior if the parallel region is called from a target region outside this translation unit.}}
	// force-remark@#1 {{Specialize parallel region that is only reached from a single target region to avoid spurious call edges and excessive register usage in other target regions. (parallel region ID: __omp_outlined__6_wrapper, kernel ID: <NONE>}}			// force-remark@#1 {{Specialize parallel region that is only reached from a single target region to avoid spurious call edges and excessive register usage in other target regions. (parallel region ID: __omp_outlined__6_wrapper, kernel ID: <NONE>}}
	{			{
	}			}
	}			}

	void foo1(void) {			void foo1(void) {
	#pragma omp target teams // #2			#pragma omp target teams // #2
	// all-remark@#2 {{Target region containing the parallel region that is specialized. (parallel region ID: __omp_outlined__1_wrapper, kernel ID: __omp_offloading}}			// all-remark@#2 {{Target region containing the parallel region that is specialized. (parallel region ID: __omp_outlined__1_wrapper, kernel ID: __omp_offloading}}
	// all-remark@#2 {{Target region containing the parallel region that is specialized. (parallel region ID: __omp_outlined__3_wrapper, kernel ID: __omp_offloading}}			// all-remark@#2 {{Target region containing the parallel region that is specialized. (parallel region ID: __omp_outlined__3_wrapper, kernel ID: __omp_offloading}}
	{			{
	#pragma omp parallel // #3			#pragma omp parallel // #3
	// all-remark@#3 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nesed inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}}			// all-remark@#3 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nested inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}}
	// all-remark@#3 {{Specialize parallel region that is only reached from a single target region to avoid spurious call edges and excessive register usage in other target regions. (parallel region ID: __omp_outlined__1_wrapper, kernel ID: __omp_offloading}}			// all-remark@#3 {{Specialize parallel region that is only reached from a single target region to avoid spurious call edges and excessive register usage in other target regions. (parallel region ID: __omp_outlined__1_wrapper, kernel ID: __omp_offloading}}
	{			{
	}			}
	bar1();			bar1();
	#pragma omp parallel // #4			#pragma omp parallel // #4
	// all-remark@#4 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nesed inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}}			// all-remark@#4 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nested inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}}
	// all-remark@#4 {{Specialize parallel region that is only reached from a single target region to avoid spurious call edges and excessive register usage in other target regions. (parallel region ID: __omp_outlined__3_wrapper, kernel ID: __omp_offloading}}			// all-remark@#4 {{Specialize parallel region that is only reached from a single target region to avoid spurious call edges and excessive register usage in other target regions. (parallel region ID: __omp_outlined__3_wrapper, kernel ID: __omp_offloading}}
	{			{
	}			}
	}			}
	}			}

	void foo2(void) {			void foo2(void) {
	#pragma omp target teams // #5			#pragma omp target teams // #5
	// all-remark@#5 {{Target region containing the parallel region that is specialized. (parallel region ID: __omp_outlined__5_wrapper, kernel ID: __omp_offloading}}			// all-remark@#5 {{Target region containing the parallel region that is specialized. (parallel region ID: __omp_outlined__5_wrapper, kernel ID: __omp_offloading}}
	// all-remark@#5 {{Target region containing the parallel region that is specialized. (parallel region ID: __omp_outlined__7_wrapper, kernel ID: __omp_offloading}}			// all-remark@#5 {{Target region containing the parallel region that is specialized. (parallel region ID: __omp_outlined__7_wrapper, kernel ID: __omp_offloading}}
	{			{
	#pragma omp parallel // #6			#pragma omp parallel // #6
	// all-remark@#6 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nesed inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}}			// all-remark@#6 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nested inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}}
	// all-remark@#6 {{Specialize parallel region that is only reached from a single target region to avoid spurious call edges and excessive register usage in other target regions. (parallel region ID: __omp_outlined__5_wrapper, kernel ID: __omp_offloading}}			// all-remark@#6 {{Specialize parallel region that is only reached from a single target region to avoid spurious call edges and excessive register usage in other target regions. (parallel region ID: __omp_outlined__5_wrapper, kernel ID: __omp_offloading}}
	{			{
	}			}
	bar1();			bar1();
	bar2();			bar2();
	#pragma omp parallel // #7			#pragma omp parallel // #7
	// all-remark@#7 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nesed inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}}			// all-remark@#7 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nested inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}}
	// all-remark@#7 {{Specialize parallel region that is only reached from a single target region to avoid spurious call edges and excessive register usage in other target regions. (parallel region ID: __omp_outlined__7_wrapper, kernel ID: __omp_offloading}}			// all-remark@#7 {{Specialize parallel region that is only reached from a single target region to avoid spurious call edges and excessive register usage in other target regions. (parallel region ID: __omp_outlined__7_wrapper, kernel ID: __omp_offloading}}
	{			{
	}			}
	bar1();			bar1();
	bar2();			bar2();
	}			}
	}			}

	void foo3(void) {			void foo3(void) {
	#pragma omp target teams // #8			#pragma omp target teams // #8
	// all-remark@#8 {{Target region containing the parallel region that is specialized. (parallel region ID: __omp_outlined__9_wrapper, kernel ID: __omp_offloading}}			// all-remark@#8 {{Target region containing the parallel region that is specialized. (parallel region ID: __omp_outlined__9_wrapper, kernel ID: __omp_offloading}}
	// all-remark@#8 {{Target region containing the parallel region that is specialized. (parallel region ID: __omp_outlined__10_wrapper, kernel ID: __omp_offloading}}			// all-remark@#8 {{Target region containing the parallel region that is specialized. (parallel region ID: __omp_outlined__10_wrapper, kernel ID: __omp_offloading}}
	{			{
	#pragma omp parallel // #9			#pragma omp parallel // #9
	// all-remark@#9 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nesed inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}}			// all-remark@#9 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nested inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}}
	// all-remark@#9 {{Specialize parallel region that is only reached from a single target region to avoid spurious call edges and excessive register usage in other target regions. (parallel region ID: __omp_outlined__9_wrapper, kernel ID: __omp_offloading}}			// all-remark@#9 {{Specialize parallel region that is only reached from a single target region to avoid spurious call edges and excessive register usage in other target regions. (parallel region ID: __omp_outlined__9_wrapper, kernel ID: __omp_offloading}}
	{			{
	}			}
	bar1();			bar1();
	bar2();			bar2();
	#pragma omp parallel // #10			#pragma omp parallel // #10
	// all-remark@#10 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nesed inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}}			// all-remark@#10 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nested inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}}
	// all-remark@#10 {{Specialize parallel region that is only reached from a single target region to avoid spurious call edges and excessive register usage in other target regions. (parallel region ID: __omp_outlined__10_wrapper, kernel ID: __omp_offloading}}			// all-remark@#10 {{Specialize parallel region that is only reached from a single target region to avoid spurious call edges and excessive register usage in other target regions. (parallel region ID: __omp_outlined__10_wrapper, kernel ID: __omp_offloading}}
	{			{
	}			}
	bar1();			bar1();
	bar2();			bar2();
	}			}
	}			}

	void spmd(void) {			void spmd(void) {
	// Verify we do not emit the remarks above for "SPMD" regions.			// Verify we do not emit the remarks above for "SPMD" regions.
	#pragma omp target teams			#pragma omp target teams
	#pragma omp parallel			#pragma omp parallel
	{			{
	}			}

	#pragma omp target teams distribute parallel for			#pragma omp target teams distribute parallel for
	for (int i = 0; i < 100; ++i) {			for (int i = 0; i < 100; ++i) {
	}			}
	}			}

	// all-remark@* 3 {{OpenMP runtime call __kmpc_global_thread_num moved to}}			// all-remark@* 5 {{OpenMP runtime call __kmpc_global_thread_num moved to}}
	// all-remark@* 3 {{OpenMP runtime call __kmpc_global_thread_num deduplicated}}			// all-remark@* 12 {{OpenMP runtime call __kmpc_global_thread_num deduplicated}}

clang/test/OpenMP/remarks_parallel_in_target_state_machine.c

	// RUN: %clang_cc1 -verify=host -Rpass=openmp -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -verify=host -Rpass=openmp -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -verify -Rpass=openmp -fopenmp -O2 -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o %t.out			// RUN: %clang_cc1 -verify -Rpass=openmp -fopenmp -O2 -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o %t.out
	// RUN: %clang_cc1 -fexperimental-new-pass-manager -verify -Rpass=openmp -fopenmp -O2 -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o %t.out			// RUN: %clang_cc1 -fexperimental-new-pass-manager -verify -Rpass=openmp -fopenmp -O2 -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o %t.out

	// host-no-diagnostics			// host-no-diagnostics

	void bar(void) { // expected-remark {{[OMP100] Potentially unknown OpenMP target region caller}}			void bar(void) { // expected-remark {{[OMP100] Potentially unknown OpenMP target region caller}}
	#pragma omp parallel // #1 \			#pragma omp parallel // #1 \
	// expected-remark@#1 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nesed inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}} \			// expected-remark@#1 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nested inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}} \
	// expected-remark@#1 {{Parallel region is not known to be called from a unique single target region, maybe the surrounding function has external linkage?; will not attempt to rewrite the state machine use.}}			// expected-remark@#1 {{Parallel region is not known to be called from a unique single target region, maybe the surrounding function has external linkage?; will not attempt to rewrite the state machine use.}}
	{			{
	}			}
	}			}

	void foo(void) {			void foo(void) {
	#pragma omp target teams // #2 \			#pragma omp target teams // #2 \
	// expected-remark@#2 {{Target region containing the parallel region that is specialized. (parallel region ID: __omp_outlined__1_wrapper, kernel ID: __omp_offloading}} \			// expected-remark@#2 {{Target region containing the parallel region that is specialized. (parallel region ID: __omp_outlined__1_wrapper, kernel ID: __omp_offloading}} \
	// expected-remark@#2 {{Target region containing the parallel region that is specialized. (parallel region ID: __omp_outlined__3_wrapper, kernel ID: __omp_offloading}}			// expected-remark@#2 {{Target region containing the parallel region that is specialized. (parallel region ID: __omp_outlined__3_wrapper, kernel ID: __omp_offloading}}
	{			{
	#pragma omp parallel // #3 \			#pragma omp parallel // #3 \
	// expected-remark@#3 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nesed inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}} \			// expected-remark@#3 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nested inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}} \
	// expected-remark@#3 {{Specialize parallel region that is only reached from a single target region to avoid spurious call edges and excessive register usage in other target regions. (parallel region ID: __omp_outlined__1_wrapper, kernel ID: __omp_offloading}}			// expected-remark@#3 {{Specialize parallel region that is only reached from a single target region to avoid spurious call edges and excessive register usage in other target regions. (parallel region ID: __omp_outlined__1_wrapper, kernel ID: __omp_offloading}}
	{			{
	}			}
	bar();			bar();
	#pragma omp parallel // #4 \			#pragma omp parallel // #4 \
	// expected-remark@#4 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nesed inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}} \			// expected-remark@#4 {{Found a parallel region that is called in a target region but not part of a combined target construct nor nested inside a target construct without intermediate code. This can lead to excessive register usage for unrelated target regions in the same translation unit due to spurious call edges assumed by ptxas.}} \
	// expected-remark@#4 {{Specialize parallel region that is only reached from a single target region to avoid spurious call edges and excessive register usage in other target regions. (parallel region ID: __omp_outlined__3_wrapper, kernel ID: __omp_offloading}}			// expected-remark@#4 {{Specialize parallel region that is only reached from a single target region to avoid spurious call edges and excessive register usage in other target regions. (parallel region ID: __omp_outlined__3_wrapper, kernel ID: __omp_offloading}}
	{			{
	}			}
	}			}
	}			}

	void spmd(void) {			void spmd(void) {
	// Verify we do not emit the remarks above for "SPMD" regions.			// Verify we do not emit the remarks above for "SPMD" regions.
	#pragma omp target teams			#pragma omp target teams
	#pragma omp parallel			#pragma omp parallel
	{			{
	}			}

	#pragma omp target teams distribute parallel for			#pragma omp target teams distribute parallel for
	for (int i = 0; i < 100; ++i) {			for (int i = 0; i < 100; ++i) {
	}			}
	}			}

	// expected-remark@* {{OpenMP runtime call __kmpc_global_thread_num moved to}}			// expected-remark@* {{OpenMP runtime call __kmpc_global_thread_num moved to}}
	// expected-remark@* {{OpenMP runtime call __kmpc_global_thread_num deduplicated}}			// expected-remark@* 2 {{OpenMP runtime call __kmpc_global_thread_num deduplicated}}

clang/test/OpenMP/target_parallel_debug_codegen.cpp

		// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py UTC_ARGS: --function-signature --include-generated-funcs --replace-function-regex "__omp_offloading_[0-9a-z]+_[0-9a-z]+" --prefix-filecheck-ir-name _
// RUN: %clang_cc1 -DCK1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -fopenmp-cuda-mode -emit-llvm-bc %s -o %t-ppc-host.bc -fopenmp-version=45		// RUN: %clang_cc1 -DCK1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -fopenmp-cuda-mode -emit-llvm-bc %s -o %t-ppc-host.bc -fopenmp-version=45
// RUN: %clang_cc1 -DCK1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -fopenmp-cuda-mode -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -debug-info-kind=limited -fopenmp-version=45 \| FileCheck %s		// RUN: %clang_cc1 -DCK1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -fopenmp-cuda-mode -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -debug-info-kind=limited -fopenmp-version=45 \| FileCheck %s
// expected-no-diagnostics		// expected-no-diagnostics

template <unsigned *ddd>		template <unsigned *ddd>
struct S {		struct S {
static int a;		static int a;
};		};

extern unsigned aaa;		extern unsigned aaa;
template<> int S<&aaa>::a;		template<> int S<&aaa>::a;

template struct S<&aaa>;		template struct S<&aaa>;
// CHECK-NOT: @aaa

int main() {		int main() {
/* int(b)[a]; /		/* int(b)[a]; /
/* int (c)[a]; /		/* int (c)[a]; /
bool bb;		bool bb;
int a;		int a;
int b[10][10];		int b[10][10];
int c[10][10][10];		int c[10][10][10];
Show All 36 Lines	#pragma omp target parallel map(tofrom \
a = 5;		a = 5;
b[0][a] = 10;		b[0][a] = 10;
c[0][0][a] = 11;		c[0][0][a] = 11;
b[0][a] = c[0][0][a];		b[0][a] = c[0][0][a];
bb = b[0][a];		bb = b[0][a];
}		}
return 0;		return 0;
}		}
		// CHECK-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l23_debug__
// CHECK: define internal void @__omp_offloading{{[^(]+}}([10 x [10 x [10 x i32]]] addrspace(1)* {{[^,]+}}, i32 {{[^,]+}}, [10 x [10 x i32]]* {{[^,]+}}, i8 addrspace(1)* noalias{{[^,]+}})		// CHECK-SAME: ([10 x [10 x [10 x i32]]] addrspace(1)* noalias [[C:%.]], i32 [[A:%.]], [10 x [10 x i32]]* noalias [[B:%.]], i8 addrspace(1) noalias [[BB:%.*]]) #[[ATTR0:[0-9]+]] !dbg [[DBG22:![0-9]+]] {
// CHECK: addrspacecast [10 x [10 x [10 x i32]]] addrspace(1)* %{{.+}} to [10 x [10 x [10 x i32]]]*		// CHECK-NEXT: entry:
// CHECK: call void [[NONDEBUG_WRAPPER:.+]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]]* {{[^,]+}}, i64 {{[^,]+}}, [10 x [10 x i32]]* {{[^,]+}}, i8* {{[^)]+}})		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]] addrspace(1), align 8
		// CHECK-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
// CHECK: define internal void [[DEBUG_PARALLEL:@.+]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]] addrspace(1)* noalias{{[^,]+}}, i32 {{[^,]+}}, [10 x [10 x i32]]* noalias{{[^,]+}}, i8 addrspace(1)* noalias{{[^)]+}})		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]], align 8
// CHECK: addrspacecast [10 x [10 x [10 x i32]]] addrspace(1)* %{{.+}} to [10 x [10 x [10 x i32]]]*		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8 addrspace(1), align 8
		// CHECK-NEXT: [[TMP:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
// CHECK: define internal void [[NONDEBUG_WRAPPER]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i64 {{[^,]+}}, [10 x [10 x i32]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i8* nonnull align {{[0-9]+}} dereferenceable{{[^)]+}})		// CHECK-NEXT: [[_TMP1:%.]] = alloca [10 x [10 x i32]], align 8
// CHECK: addrspacecast [10 x [10 x [10 x i32]]]* %{{.+}} to [10 x [10 x [10 x i32]]] addrspace(1)*		// CHECK-NEXT: [[_TMP2:%.]] = alloca i8, align 8
// CHECK: call void [[DEBUG_PARALLEL]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]] addrspace(1)* {{[^,]+}}, i32 {{[^,]+}}, [10 x [10 x i32]]* {{[^,]+}}, i8 addrspace(1)* {{[^)]+}})		// CHECK-NEXT: [[A_CASTED:%.*]] = alloca i64, align 8
		// CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [4 x i8], align 8
// CHECK: define weak void @__omp_offloading_{{[^(]+}}([10 x [10 x [10 x i32]]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i64 {{[^,]+}}, [10 x [10 x i32]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i8* nonnull align {{[0-9]+}} dereferenceable{{[^)]+}})		// CHECK-NEXT: store [10 x [10 x [10 x i32]]] addrspace(1)* [[C]], [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8
// CHECK: addrspacecast [10 x [10 x [10 x i32]]]* %{{.+}} to [10 x [10 x [10 x i32]]] addrspace(1)*		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], metadata [[META37:![0-9]+]], metadata !DIExpression()), !dbg [[DBG38:![0-9]+]]
// CHECK: call void @__omp_offloading_{{[^(]+}}([10 x [10 x [10 x i32]]] addrspace(1)* {{[^,]+}}, i32 {{[^,]+}}, [10 x [10 x i32]]* {{[^,]+}}, i8 addrspace(1)* {{[^)]+}})		// CHECK-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[A_ADDR]], metadata [[META39:![0-9]+]], metadata !DIExpression()), !dbg [[DBG40:![0-9]+]]
// CHECK: define internal void @__omp_offloading_{{[^(]+}}([10 x [10 x [10 x i32]]] addrspace(1)* noalias{{[^,]+}}, i32 {{[^,]+}}, [10 x [10 x i32]] addrspace(1)* noalias{{[^,]+}}, i8 addrspace(1)* noalias{{[^)]+}})		// CHECK-NEXT: store [10 x [10 x i32]]* [[B]], [10 x [10 x i32]]** [[B_ADDR]], align 8
// CHECK: addrspacecast [10 x [10 x [10 x i32]]] addrspace(1)* %{{.+}} to [10 x [10 x [10 x i32]]]*		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]]** [[B_ADDR]], metadata [[META41:![0-9]+]], metadata !DIExpression()), !dbg [[DBG42:![0-9]+]]
// CHECK: addrspacecast [10 x [10 x i32]] addrspace(1)* %{{.+}} to [10 x [10 x i32]]*		// CHECK-NEXT: store i8 addrspace(1)* [[BB]], i8 addrspace(1)** [[BB_ADDR]], align 8
// CHECK: call void [[NONDEBUG_WRAPPER:.+]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]]* {{[^,]+}}, i64 {{[^,]+}}, [10 x [10 x i32]]* {{[^,]+}}, i8* {{[^)]+}})		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8 addrspace(1)** [[BB_ADDR]], metadata [[META43:![0-9]+]], metadata !DIExpression()), !dbg [[DBG44:![0-9]+]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]] addrspace(1), [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8, !dbg [[DBG45:![0-9]+]]
// CHECK: define internal void [[DEBUG_PARALLEL:@.+]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]] addrspace(1)* noalias{{[^,]+}}, i32 {{[^,]+}}, [10 x [10 x i32]] addrspace(1)* noalias{{[^,]+}}, i8 addrspace(1)* {{[^)]+}})		// CHECK-NEXT: [[TMP1:%.]] = addrspacecast [10 x [10 x [10 x i32]]] addrspace(1) [[TMP0]] to [10 x [10 x [10 x i32]]]*, !dbg [[DBG45]]
// CHECK: addrspacecast [10 x [10 x [10 x i32]]] addrspace(1)* %{{.+}} to [10 x [10 x [10 x i32]]]*		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[TMP1]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG45]]
// CHECK: addrspacecast [10 x [10 x i32]] addrspace(1)* %{{.+}} to [10 x [10 x i32]]*		// CHECK-NEXT: [[TMP2:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG45]]
		// CHECK-NEXT: [[TMP3:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG45]]
// CHECK: define internal void [[NONDEBUG_WRAPPER]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i64 {{[^,]+}}, [10 x [10 x i32]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i8* nonnull align {{[0-9]+}} dereferenceable{{[^)]+}})		// CHECK-NEXT: store [10 x [10 x i32]]* [[TMP3]], [10 x [10 x i32]]** [[_TMP1]], align 8, !dbg [[DBG45]]
// CHECK: addrspacecast [10 x [10 x [10 x i32]]]* %{{.+}} to [10 x [10 x [10 x i32]]] addrspace(1)*		// CHECK-NEXT: [[TMP4:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[_TMP1]], align 8, !dbg [[DBG45]]
// CHECK: addrspacecast [10 x [10 x i32]]* %{{.+}} to [10 x [10 x i32]] addrspace(1)*		// CHECK-NEXT: [[TMP5:%.]] = load i8 addrspace(1), i8 addrspace(1)** [[BB_ADDR]], align 8, !dbg [[DBG45]]
// CHECK: call void [[DEBUG_PARALLEL]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]] addrspace(1)* {{[^,]+}}, i32 {{[^,]+}}, [10 x [10 x i32]] addrspace(1)* {{[^,]+}}, i8 addrspace(1)* {{[^)]+}})		// CHECK-NEXT: [[TMP6:%.]] = addrspacecast i8 addrspace(1) [[TMP5]] to i8*, !dbg [[DBG45]]
		// CHECK-NEXT: store i8* [[TMP6]], i8** [[_TMP2]], align 8, !dbg [[DBG45]]
// CHECK: define weak void @__omp_offloading_{{[^(]+}}([10 x [10 x [10 x i32]]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i64 {{[^,]+}}, [10 x [10 x i32]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i8* nonnull align {{[0-9]+}} dereferenceable{{[^)]+}})		// CHECK-NEXT: [[TMP7:%.]] = load i8, i8** [[_TMP2]], align 8, !dbg [[DBG45]]
// CHECK: addrspacecast [10 x [10 x [10 x i32]]]* %{{.+}} to [10 x [10 x [10 x i32]]] addrspace(1)*		// CHECK-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x(), !dbg [[DBG45]]
// CHECK: addrspacecast [10 x [10 x i32]]* %{{.+}} to [10 x [10 x i32]] addrspace(1)*		// CHECK-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1), !dbg [[DBG45]]
// CHECK: call void @__omp_offloading_{{[^(]+}}([10 x [10 x [10 x i32]]] addrspace(1)* {{[^,]+}}, i32 {{[^,]+}}, [10 x [10 x i32]] addrspace(1)* {{[^,]+}}, i8 addrspace(1)* {{[^)]+}})		// CHECK-NEXT: call void @__kmpc_data_sharing_init_stack_spmd(), !dbg [[DBG45]]
		// CHECK-NEXT: br label [[DOTEXECUTE:%.*]], !dbg [[DBG45]]
// CHECK: define internal void @__omp_offloading_{{[^(]+}}([10 x [10 x [10 x i32]]] addrspace(1)* noalias{{[^,]+}}, i32 addrspace(1)* noalias{{[^,]+}}, [10 x [10 x i32]] addrspace(1)* noalias{{[^,]+}}, i8 addrspace(1)* noalias{{[^)]+}})		// CHECK: .execute:
// CHECK: addrspacecast [10 x [10 x [10 x i32]]] addrspace(1)* %{{.+}} to [10 x [10 x [10 x i32]]]*		// CHECK-NEXT: [[TMP8:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1:[0-9]+]])
// CHECK: addrspacecast i32 addrspace(1)* %{{.+}} to i32*		// CHECK-NEXT: [[TMP9:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG46:![0-9]+]]
// CHECK: addrspacecast [10 x [10 x i32]] addrspace(1)* %{{.+}} to [10 x [10 x i32]]*		// CHECK-NEXT: [[CONV:%.]] = bitcast i64 [[A_CASTED]] to i32*, !dbg [[DBG46]]
// CHECK: call void @[[NONDEBUG_WRAPPER:.+]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]]* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x i32]]* {{[^,]+}}, i8* {{[^)]+}})		// CHECK-NEXT: store i32 [[TMP9]], i32* [[CONV]], align 4, !dbg [[DBG46]]
		// CHECK-NEXT: [[TMP10:%.]] = load i64, i64 [[A_CASTED]], align 8, !dbg [[DBG46]]
// CHECK: define internal void @[[DEBUG_PARALLEL:.+]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]] addrspace(1)* noalias{{[^,]+}}, i32 addrspace(1)* noalias{{[^,]+}}, [10 x [10 x i32]] addrspace(1)* noalias{{[^,]+}}, i8 addrspace(1)* noalias{{[^)]+}})		// CHECK-NEXT: [[TMP11:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0, !dbg [[DBG46]]
// CHECK: addrspacecast [10 x [10 x [10 x i32]]] addrspace(1)* %{{.+}} to [10 x [10 x [10 x i32]]]*		// CHECK-NEXT: [[TMP12:%.]] = bitcast [10 x [10 x [10 x i32]]] [[TMP2]] to i8*, !dbg [[DBG46]]
// CHECK: addrspacecast i32 addrspace(1)* %{{.+}} to i32*		// CHECK-NEXT: store i8* [[TMP12]], i8** [[TMP11]], align 8, !dbg [[DBG46]]
// CHECK: addrspacecast [10 x [10 x i32]] addrspace(1)* %{{.+}} to [10 x [10 x i32]]*		// CHECK-NEXT: [[TMP13:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1, !dbg [[DBG46]]
		// CHECK-NEXT: [[TMP14:%.]] = inttoptr i64 [[TMP10]] to i8, !dbg [[DBG46]]
// CHECK: define internal void @[[NONDEBUG_WRAPPER]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i32* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, [10 x [10 x i32]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i8* nonnull align {{[0-9]+}} dereferenceable{{[^)]+}})		// CHECK-NEXT: store i8* [[TMP14]], i8** [[TMP13]], align 8, !dbg [[DBG46]]
// CHECK: addrspacecast [10 x [10 x [10 x i32]]]* %{{.+}} to [10 x [10 x [10 x i32]]] addrspace(1)*		// CHECK-NEXT: [[TMP15:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 2, !dbg [[DBG46]]
// CHECK: addrspacecast i32* %{{.+}} to i32 addrspace(1)*		// CHECK-NEXT: [[TMP16:%.]] = bitcast [10 x [10 x i32]] [[TMP4]] to i8*, !dbg [[DBG46]]
// CHECK: addrspacecast [10 x [10 x i32]]* %{{.+}} to [10 x [10 x i32]] addrspace(1)*		// CHECK-NEXT: store i8* [[TMP16]], i8** [[TMP15]], align 8, !dbg [[DBG46]]
// CHECK: call void @[[DEBUG_PARALLEL]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]] addrspace(1)* {{[^,]+}}, i32 addrspace(1)* {{[^,]+}}, [10 x [10 x i32]] addrspace(1)* {{[^,]+}}, i8 addrspace(1)* {{[^)]+}})		// CHECK-NEXT: [[TMP17:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 3, !dbg [[DBG46]]
		// CHECK-NEXT: store i8* [[TMP7]], i8** [[TMP17]], align 8, !dbg [[DBG46]]
// CHECK: define weak void @__omp_offloading_{{[^(]+}}([10 x [10 x [10 x i32]]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i32* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, [10 x [10 x i32]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i8* nonnull align {{[0-9]+}} dereferenceable{{[^)]+}})		// CHECK-NEXT: [[TMP18:%.]] = bitcast [4 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**, !dbg [[DBG46]]
// CHECK: addrspacecast [10 x [10 x [10 x i32]]]* %{{.+}} to [10 x [10 x [10 x i32]]] addrspace(1)*		// CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP8]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, [10 x [10 x [10 x i32]]], i64, [10 x [10 x i32]], i8) @__omp_outlined__ to i8), i8 null, i8** [[TMP18]], i64 4), !dbg [[DBG46]]
// CHECK: addrspacecast i32* %{{.+}} to i32 addrspace(1)*		// CHECK-NEXT: br label [[DOTOMP_DEINIT:%.*]], !dbg [[DBG47:![0-9]+]]
// CHECK: addrspacecast [10 x [10 x i32]]* %{{.+}} to [10 x [10 x i32]] addrspace(1)*		// CHECK: .omp.deinit:
// CHECK: call void @__omp_offloading_{{[^(]+}}([10 x [10 x [10 x i32]]] addrspace(1)* {{[^,]+}}, i32 addrspace(1)* {{[^,]+}}, [10 x [10 x i32]] addrspace(1)* {{[^,]+}}, i8 addrspace(1)* {{[^)]+}})		// CHECK-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1), !dbg [[DBG47]]
		// CHECK-NEXT: br label [[DOTEXIT:%.*]], !dbg [[DBG47]]
// CHECK: !DILocalVariable(name: ".global_tid.",		// CHECK: .exit:
// CHECK-SAME: DIFlagArtificial		// CHECK-NEXT: ret void, !dbg [[DBG49:![0-9]+]]
// CHECK: !DILocalVariable(name: ".bound_tid.",		//
// CHECK-SAME: DIFlagArtificial		//
// CHECK: !DILocalVariable(name: "c",		// CHECK-LABEL: define {{[^@]+}}@__omp_outlined___debug__
// CHECK-SAME: line: 22		// CHECK-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], [10 x [10 x [10 x i32]]] addrspace(1) noalias [[C:%.]], i32 [[A:%.]], [10 x [10 x i32]]* noalias [[B:%.]], i8 addrspace(1) noalias [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG50:![0-9]+]] {
// CHECK: !DILocalVariable(name: "a",		// CHECK-NEXT: entry:
// CHECK-SAME: line: 20		// CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
// CHECK: !DILocalVariable(name: "b",		// CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
// CHECK-SAME: line: 21		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]] addrspace(1), align 8
		// CHECK-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
// CHECK-DAG: distinct !DISubprogram(name: "[[NONDEBUG_WRAPPER]]",		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]], align 8
// CHECK-DAG: distinct !DISubprogram(name: "[[DEBUG_PARALLEL]]",		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8 addrspace(1), align 8
		// CHECK-NEXT: [[TMP:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[_TMP1:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[_TMP2:%.]] = alloca i8, align 8
		// CHECK-NEXT: [[B3:%.*]] = alloca [10 x [10 x i32]], align 4
		// CHECK-NEXT: [[F:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[G:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[H:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[D:%.*]] = alloca i32, align 4
		// CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTGLOBAL_TID__ADDR]], metadata [[META57:![0-9]+]], metadata !DIExpression()), !dbg [[DBG58:![0-9]+]]
		// CHECK-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTBOUND_TID__ADDR]], metadata [[META59:![0-9]+]], metadata !DIExpression()), !dbg [[DBG58]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]] addrspace(1)* [[C]], [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], metadata [[META60:![0-9]+]], metadata !DIExpression()), !dbg [[DBG61:![0-9]+]]
		// CHECK-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[A_ADDR]], metadata [[META62:![0-9]+]], metadata !DIExpression()), !dbg [[DBG63:![0-9]+]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[B]], [10 x [10 x i32]]** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]]** [[B_ADDR]], metadata [[META64:![0-9]+]], metadata !DIExpression()), !dbg [[DBG65:![0-9]+]]
		// CHECK-NEXT: store i8 addrspace(1)* [[BB]], i8 addrspace(1)** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8 addrspace(1)** [[BB_ADDR]], metadata [[META66:![0-9]+]], metadata !DIExpression()), !dbg [[DBG67:![0-9]+]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]] addrspace(1), [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8, !dbg [[DBG68:![0-9]+]]
		// CHECK-NEXT: [[TMP1:%.]] = addrspacecast [10 x [10 x [10 x i32]]] addrspace(1) [[TMP0]] to [10 x [10 x [10 x i32]]]*, !dbg [[DBG68]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[TMP1]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG68]]
		// CHECK-NEXT: [[TMP2:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG68]]
		// CHECK-NEXT: [[TMP3:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG68]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[TMP3]], [10 x [10 x i32]]** [[_TMP1]], align 8, !dbg [[DBG68]]
		// CHECK-NEXT: [[TMP4:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[_TMP1]], align 8, !dbg [[DBG68]]
		// CHECK-NEXT: [[TMP5:%.]] = load i8 addrspace(1), i8 addrspace(1)** [[BB_ADDR]], align 8, !dbg [[DBG68]]
		// CHECK-NEXT: [[TMP6:%.]] = addrspacecast i8 addrspace(1) [[TMP5]] to i8*, !dbg [[DBG68]]
		// CHECK-NEXT: store i8* [[TMP6]], i8** [[_TMP2]], align 8, !dbg [[DBG68]]
		// CHECK-NEXT: [[TMP7:%.]] = load i8, i8** [[_TMP2]], align 8, !dbg [[DBG68]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]]* [[B3]], metadata [[META69:![0-9]+]], metadata !DIExpression()), !dbg [[DBG58]]
		// CHECK-NEXT: [[TMP8:%.]] = bitcast [10 x [10 x i32]] [[B3]] to i8*, !dbg [[DBG68]]
		// CHECK-NEXT: [[TMP9:%.]] = bitcast [10 x [10 x i32]] [[TMP4]] to i8*, !dbg [[DBG68]]
		// CHECK-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 4 [[TMP8]], i8* align 4 [[TMP9]], i64 400, i1 false), !dbg [[DBG68]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[F]], metadata [[META70:![0-9]+]], metadata !DIExpression()), !dbg [[DBG73:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]] [[TMP2]], i64 0, i64 1, !dbg [[DBG74:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX4:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[ARRAYIDX]], i64 0, i64 1, !dbg [[DBG74]]
		// CHECK-NEXT: [[ARRAYIDX5:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX4]], i64 0, i64 1, !dbg [[DBG74]]
		// CHECK-NEXT: store i32* [[ARRAYIDX5]], i32** [[F]], align 8, !dbg [[DBG73]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[G]], metadata [[META75:![0-9]+]], metadata !DIExpression()), !dbg [[DBG76:![0-9]+]]
		// CHECK-NEXT: store i32* [[A_ADDR]], i32** [[G]], align 8, !dbg [[DBG76]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[H]], metadata [[META77:![0-9]+]], metadata !DIExpression()), !dbg [[DBG78:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX6:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[B3]], i64 0, i64 1, !dbg [[DBG79:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX6]], i64 0, i64 1, !dbg [[DBG79]]
		// CHECK-NEXT: store i32* [[ARRAYIDX7]], i32** [[H]], align 8, !dbg [[DBG78]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[D]], metadata [[META80:![0-9]+]], metadata !DIExpression()), !dbg [[DBG81:![0-9]+]]
		// CHECK-NEXT: store i32 15, i32* [[D]], align 4, !dbg [[DBG81]]
		// CHECK-NEXT: store i32 5, i32* [[A_ADDR]], align 4, !dbg [[DBG82:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX8:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[B3]], i64 0, i64 0, !dbg [[DBG83:![0-9]+]]
		// CHECK-NEXT: [[TMP10:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG84:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM:%.*]] = sext i32 [[TMP10]] to i64, !dbg [[DBG83]]
		// CHECK-NEXT: [[ARRAYIDX9:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX8]], i64 0, i64 [[IDXPROM]], !dbg [[DBG83]]
		// CHECK-NEXT: store i32 10, i32* [[ARRAYIDX9]], align 4, !dbg [[DBG85:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX10:%.]] = getelementptr inbounds [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]] [[TMP2]], i64 0, i64 0, !dbg [[DBG86:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX11:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[ARRAYIDX10]], i64 0, i64 0, !dbg [[DBG86]]
		// CHECK-NEXT: [[TMP11:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG87:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM12:%.*]] = sext i32 [[TMP11]] to i64, !dbg [[DBG86]]
		// CHECK-NEXT: [[ARRAYIDX13:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX11]], i64 0, i64 [[IDXPROM12]], !dbg [[DBG86]]
		// CHECK-NEXT: store i32 11, i32* [[ARRAYIDX13]], align 4, !dbg [[DBG88:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX14:%.]] = getelementptr inbounds [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]] [[TMP2]], i64 0, i64 0, !dbg [[DBG89:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX15:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[ARRAYIDX14]], i64 0, i64 0, !dbg [[DBG89]]
		// CHECK-NEXT: [[TMP12:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG90:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM16:%.*]] = sext i32 [[TMP12]] to i64, !dbg [[DBG89]]
		// CHECK-NEXT: [[ARRAYIDX17:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX15]], i64 0, i64 [[IDXPROM16]], !dbg [[DBG89]]
		// CHECK-NEXT: [[TMP13:%.]] = load i32, i32 [[ARRAYIDX17]], align 4, !dbg [[DBG89]]
		// CHECK-NEXT: [[ARRAYIDX18:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[B3]], i64 0, i64 0, !dbg [[DBG91:![0-9]+]]
		// CHECK-NEXT: [[TMP14:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG92:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM19:%.*]] = sext i32 [[TMP14]] to i64, !dbg [[DBG91]]
		// CHECK-NEXT: [[ARRAYIDX20:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX18]], i64 0, i64 [[IDXPROM19]], !dbg [[DBG91]]
		// CHECK-NEXT: store i32 [[TMP13]], i32* [[ARRAYIDX20]], align 4, !dbg [[DBG93:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX21:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[B3]], i64 0, i64 0, !dbg [[DBG94:![0-9]+]]
		// CHECK-NEXT: [[TMP15:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG95:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM22:%.*]] = sext i32 [[TMP15]] to i64, !dbg [[DBG94]]
		// CHECK-NEXT: [[ARRAYIDX23:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX21]], i64 0, i64 [[IDXPROM22]], !dbg [[DBG94]]
		// CHECK-NEXT: [[TMP16:%.]] = load i32, i32 [[ARRAYIDX23]], align 4, !dbg [[DBG94]]
		// CHECK-NEXT: [[TMP17:%.]] = load i8, i8 [[TMP7]], align 1, !dbg [[DBG96:![0-9]+]]
		// CHECK-NEXT: [[TOBOOL:%.*]] = trunc i8 [[TMP17]] to i1, !dbg [[DBG96]]
		// CHECK-NEXT: [[CONV:%.*]] = zext i1 [[TOBOOL]] to i32, !dbg [[DBG96]]
		// CHECK-NEXT: [[OR:%.*]] = or i32 [[CONV]], [[TMP16]], !dbg [[DBG96]]
		// CHECK-NEXT: [[TOBOOL24:%.*]] = icmp ne i32 [[OR]], 0, !dbg [[DBG96]]
		// CHECK-NEXT: [[FROMBOOL:%.*]] = zext i1 [[TOBOOL24]] to i8, !dbg [[DBG96]]
		// CHECK-NEXT: store i8 [[FROMBOOL]], i8* [[TMP7]], align 1, !dbg [[DBG96]]
		// CHECK-NEXT: ret void, !dbg [[DBG97:![0-9]+]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@__omp_outlined__
		// CHECK-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], [10 x [10 x [10 x i32]]] nonnull align 4 dereferenceable(4000) [[C:%.]], i64 [[A:%.]], [10 x [10 x i32]]* nonnull align 4 dereferenceable(400) [[B:%.]], i8 nonnull align 1 dereferenceable(1) [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG98:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[A_ADDR:%.*]] = alloca i64, align 8
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8, align 8
		// CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTGLOBAL_TID__ADDR]], metadata [[META105:![0-9]+]], metadata !DIExpression()), !dbg [[DBG106:![0-9]+]]
		// CHECK-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTBOUND_TID__ADDR]], metadata [[META107:![0-9]+]], metadata !DIExpression()), !dbg [[DBG106]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[C]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]]** [[C_ADDR]], metadata [[META108:![0-9]+]], metadata !DIExpression()), !dbg [[DBG106]]
		// CHECK-NEXT: store i64 [[A]], i64* [[A_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i64* [[A_ADDR]], metadata [[META109:![0-9]+]], metadata !DIExpression()), !dbg [[DBG106]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[B]], [10 x [10 x i32]]** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]]** [[B_ADDR]], metadata [[META110:![0-9]+]], metadata !DIExpression()), !dbg [[DBG106]]
		// CHECK-NEXT: store i8* [[BB]], i8** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8** [[BB_ADDR]], metadata [[META111:![0-9]+]], metadata !DIExpression()), !dbg [[DBG106]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG112:![0-9]+]]
		// CHECK-NEXT: [[CONV:%.]] = bitcast i64 [[A_ADDR]] to i32*, !dbg [[DBG112]]
		// CHECK-NEXT: [[TMP1:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG112]]
		// CHECK-NEXT: [[TMP2:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG112]]
		// CHECK-NEXT: [[TMP3:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8, !dbg [[DBG112]]
		// CHECK-NEXT: [[TMP4:%.]] = load i32, i32** [[DOTBOUND_TID__ADDR]], align 8, !dbg [[DBG112]]
		// CHECK-NEXT: [[TMP5:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG112]]
		// CHECK-NEXT: [[TMP6:%.]] = load i32, i32 [[CONV]], align 8, !dbg [[DBG112]]
		// CHECK-NEXT: [[TMP7:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG112]]
		// CHECK-NEXT: [[TMP8:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG112]]
		// CHECK-NEXT: [[TMP9:%.]] = addrspacecast [10 x [10 x [10 x i32]]] [[TMP5]] to [10 x [10 x [10 x i32]]] addrspace(1)*, !dbg [[DBG112]]
		// CHECK-NEXT: [[TMP10:%.]] = addrspacecast i8 [[TMP8]] to i8 addrspace(1)*, !dbg [[DBG112]]
		// CHECK-NEXT: call void @__omp_outlined___debug__(i32* [[TMP3]], i32* [[TMP4]], [10 x [10 x [10 x i32]]] addrspace(1)* [[TMP9]], i32 [[TMP6]], [10 x [10 x i32]]* [[TMP7]], i8 addrspace(1)* [[TMP10]]) #[[ATTR4:[0-9]+]], !dbg [[DBG112]]
		// CHECK-NEXT: ret void, !dbg [[DBG112]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l23
		// CHECK-SAME: ([10 x [10 x [10 x i32]]]* nonnull align 4 dereferenceable(4000) [[C:%.]], i64 [[A:%.]], [10 x [10 x i32]]* nonnull align 4 dereferenceable(400) [[B:%.]], i8 nonnull align 1 dereferenceable(1) [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG113:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[A_ADDR:%.*]] = alloca i64, align 8
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8, align 8
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[C]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]]** [[C_ADDR]], metadata [[META116:![0-9]+]], metadata !DIExpression()), !dbg [[DBG117:![0-9]+]]
		// CHECK-NEXT: store i64 [[A]], i64* [[A_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i64* [[A_ADDR]], metadata [[META118:![0-9]+]], metadata !DIExpression()), !dbg [[DBG117]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[B]], [10 x [10 x i32]]** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]]** [[B_ADDR]], metadata [[META119:![0-9]+]], metadata !DIExpression()), !dbg [[DBG117]]
		// CHECK-NEXT: store i8* [[BB]], i8** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8** [[BB_ADDR]], metadata [[META120:![0-9]+]], metadata !DIExpression()), !dbg [[DBG117]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG121:![0-9]+]]
		// CHECK-NEXT: [[CONV:%.]] = bitcast i64 [[A_ADDR]] to i32*, !dbg [[DBG121]]
		// CHECK-NEXT: [[TMP1:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG121]]
		// CHECK-NEXT: [[TMP2:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG121]]
		// CHECK-NEXT: [[TMP3:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG121]]
		// CHECK-NEXT: [[TMP4:%.]] = load i32, i32 [[CONV]], align 8, !dbg [[DBG121]]
		// CHECK-NEXT: [[TMP5:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG121]]
		// CHECK-NEXT: [[TMP6:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG121]]
		// CHECK-NEXT: [[TMP7:%.]] = addrspacecast [10 x [10 x [10 x i32]]] [[TMP3]] to [10 x [10 x [10 x i32]]] addrspace(1)*, !dbg [[DBG121]]
		// CHECK-NEXT: [[TMP8:%.]] = addrspacecast i8 [[TMP6]] to i8 addrspace(1)*, !dbg [[DBG121]]
		// CHECK-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l23_debug__([10 x [10 x [10 x i32]]] addrspace(1)* [[TMP7]], i32 [[TMP4]], [10 x [10 x i32]]* [[TMP5]], i8 addrspace(1)* [[TMP8]]) #[[ATTR4]], !dbg [[DBG121]]
		// CHECK-NEXT: ret void, !dbg [[DBG121]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l37_debug__
		// CHECK-SAME: ([10 x [10 x [10 x i32]]] addrspace(1)* noalias [[C:%.]], i32 [[A:%.]], [10 x [10 x i32]] addrspace(1)* noalias [[B:%.]], i8 addrspace(1) noalias [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG122:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]] addrspace(1), align 8
		// CHECK-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]] addrspace(1), align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8 addrspace(1), align 8
		// CHECK-NEXT: [[TMP:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[_TMP1:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[_TMP2:%.]] = alloca i8, align 8
		// CHECK-NEXT: [[A_CASTED:%.*]] = alloca i64, align 8
		// CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [4 x i8], align 8
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]] addrspace(1)* [[C]], [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], metadata [[META127:![0-9]+]], metadata !DIExpression()), !dbg [[DBG128:![0-9]+]]
		// CHECK-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[A_ADDR]], metadata [[META129:![0-9]+]], metadata !DIExpression()), !dbg [[DBG130:![0-9]+]]
		// CHECK-NEXT: store [10 x [10 x i32]] addrspace(1)* [[B]], [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], metadata [[META131:![0-9]+]], metadata !DIExpression()), !dbg [[DBG132:![0-9]+]]
		// CHECK-NEXT: store i8 addrspace(1)* [[BB]], i8 addrspace(1)** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8 addrspace(1)** [[BB_ADDR]], metadata [[META133:![0-9]+]], metadata !DIExpression()), !dbg [[DBG134:![0-9]+]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]] addrspace(1), [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8, !dbg [[DBG135:![0-9]+]]
		// CHECK-NEXT: [[TMP1:%.]] = addrspacecast [10 x [10 x [10 x i32]]] addrspace(1) [[TMP0]] to [10 x [10 x [10 x i32]]]*, !dbg [[DBG135]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[TMP1]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG135]]
		// CHECK-NEXT: [[TMP2:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG135]]
		// CHECK-NEXT: [[TMP3:%.]] = load [10 x [10 x i32]] addrspace(1), [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], align 8, !dbg [[DBG135]]
		// CHECK-NEXT: [[TMP4:%.]] = addrspacecast [10 x [10 x i32]] addrspace(1) [[TMP3]] to [10 x [10 x i32]]*, !dbg [[DBG135]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[TMP4]], [10 x [10 x i32]]** [[_TMP1]], align 8, !dbg [[DBG135]]
		// CHECK-NEXT: [[TMP5:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[_TMP1]], align 8, !dbg [[DBG135]]
		// CHECK-NEXT: [[TMP6:%.]] = load i8 addrspace(1), i8 addrspace(1)** [[BB_ADDR]], align 8, !dbg [[DBG135]]
		// CHECK-NEXT: [[TMP7:%.]] = addrspacecast i8 addrspace(1) [[TMP6]] to i8*, !dbg [[DBG135]]
		// CHECK-NEXT: store i8* [[TMP7]], i8** [[_TMP2]], align 8, !dbg [[DBG135]]
		// CHECK-NEXT: [[TMP8:%.]] = load i8, i8** [[_TMP2]], align 8, !dbg [[DBG135]]
		// CHECK-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x(), !dbg [[DBG135]]
		// CHECK-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1), !dbg [[DBG135]]
		// CHECK-NEXT: call void @__kmpc_data_sharing_init_stack_spmd(), !dbg [[DBG135]]
		// CHECK-NEXT: br label [[DOTEXECUTE:%.*]], !dbg [[DBG135]]
		// CHECK: .execute:
		// CHECK-NEXT: [[TMP9:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3:[0-9]+]])
		// CHECK-NEXT: [[TMP10:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG136:![0-9]+]]
		// CHECK-NEXT: [[CONV:%.]] = bitcast i64 [[A_CASTED]] to i32*, !dbg [[DBG136]]
		// CHECK-NEXT: store i32 [[TMP10]], i32* [[CONV]], align 4, !dbg [[DBG136]]
		// CHECK-NEXT: [[TMP11:%.]] = load i64, i64 [[A_CASTED]], align 8, !dbg [[DBG136]]
		// CHECK-NEXT: [[TMP12:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0, !dbg [[DBG136]]
		// CHECK-NEXT: [[TMP13:%.]] = bitcast [10 x [10 x [10 x i32]]] [[TMP2]] to i8*, !dbg [[DBG136]]
		// CHECK-NEXT: store i8* [[TMP13]], i8** [[TMP12]], align 8, !dbg [[DBG136]]
		// CHECK-NEXT: [[TMP14:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1, !dbg [[DBG136]]
		// CHECK-NEXT: [[TMP15:%.]] = inttoptr i64 [[TMP11]] to i8, !dbg [[DBG136]]
		// CHECK-NEXT: store i8* [[TMP15]], i8** [[TMP14]], align 8, !dbg [[DBG136]]
		// CHECK-NEXT: [[TMP16:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 2, !dbg [[DBG136]]
		// CHECK-NEXT: [[TMP17:%.]] = bitcast [10 x [10 x i32]] [[TMP5]] to i8*, !dbg [[DBG136]]
		// CHECK-NEXT: store i8* [[TMP17]], i8** [[TMP16]], align 8, !dbg [[DBG136]]
		// CHECK-NEXT: [[TMP18:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 3, !dbg [[DBG136]]
		// CHECK-NEXT: store i8* [[TMP8]], i8** [[TMP18]], align 8, !dbg [[DBG136]]
		// CHECK-NEXT: [[TMP19:%.]] = bitcast [4 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**, !dbg [[DBG136]]
		// CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB3]], i32 [[TMP9]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, [10 x [10 x [10 x i32]]], i64, [10 x [10 x i32]], i8) @__omp_outlined__2 to i8), i8 null, i8** [[TMP19]], i64 4), !dbg [[DBG136]]
		// CHECK-NEXT: br label [[DOTOMP_DEINIT:%.*]], !dbg [[DBG137:![0-9]+]]
		// CHECK: .omp.deinit:
		// CHECK-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1), !dbg [[DBG137]]
		// CHECK-NEXT: br label [[DOTEXIT:%.*]], !dbg [[DBG137]]
		// CHECK: .exit:
		// CHECK-NEXT: ret void, !dbg [[DBG139:![0-9]+]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@__omp_outlined___debug__1
		// CHECK-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], [10 x [10 x [10 x i32]]] addrspace(1) noalias [[C:%.]], i32 [[A:%.]], [10 x [10 x i32]] addrspace(1)* noalias [[B:%.]], i8 addrspace(1) noalias [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG140:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]] addrspace(1), align 8
		// CHECK-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]] addrspace(1), align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8 addrspace(1), align 8
		// CHECK-NEXT: [[TMP:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[_TMP1:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[_TMP2:%.]] = alloca i8, align 8
		// CHECK-NEXT: [[F:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[G:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[H:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[D:%.*]] = alloca i32, align 4
		// CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTGLOBAL_TID__ADDR]], metadata [[META143:![0-9]+]], metadata !DIExpression()), !dbg [[DBG144:![0-9]+]]
		// CHECK-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTBOUND_TID__ADDR]], metadata [[META145:![0-9]+]], metadata !DIExpression()), !dbg [[DBG144]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]] addrspace(1)* [[C]], [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], metadata [[META146:![0-9]+]], metadata !DIExpression()), !dbg [[DBG147:![0-9]+]]
		// CHECK-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[A_ADDR]], metadata [[META148:![0-9]+]], metadata !DIExpression()), !dbg [[DBG149:![0-9]+]]
		// CHECK-NEXT: store [10 x [10 x i32]] addrspace(1)* [[B]], [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], metadata [[META150:![0-9]+]], metadata !DIExpression()), !dbg [[DBG151:![0-9]+]]
		// CHECK-NEXT: store i8 addrspace(1)* [[BB]], i8 addrspace(1)** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8 addrspace(1)** [[BB_ADDR]], metadata [[META152:![0-9]+]], metadata !DIExpression()), !dbg [[DBG153:![0-9]+]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]] addrspace(1), [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8, !dbg [[DBG154:![0-9]+]]
		// CHECK-NEXT: [[TMP1:%.]] = addrspacecast [10 x [10 x [10 x i32]]] addrspace(1) [[TMP0]] to [10 x [10 x [10 x i32]]]*, !dbg [[DBG154]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[TMP1]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG154]]
		// CHECK-NEXT: [[TMP2:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG154]]
		// CHECK-NEXT: [[TMP3:%.]] = load [10 x [10 x i32]] addrspace(1), [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], align 8, !dbg [[DBG154]]
		// CHECK-NEXT: [[TMP4:%.]] = addrspacecast [10 x [10 x i32]] addrspace(1) [[TMP3]] to [10 x [10 x i32]]*, !dbg [[DBG154]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[TMP4]], [10 x [10 x i32]]** [[_TMP1]], align 8, !dbg [[DBG154]]
		// CHECK-NEXT: [[TMP5:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[_TMP1]], align 8, !dbg [[DBG154]]
		// CHECK-NEXT: [[TMP6:%.]] = load i8 addrspace(1), i8 addrspace(1)** [[BB_ADDR]], align 8, !dbg [[DBG154]]
		// CHECK-NEXT: [[TMP7:%.]] = addrspacecast i8 addrspace(1) [[TMP6]] to i8*, !dbg [[DBG154]]
		// CHECK-NEXT: store i8* [[TMP7]], i8** [[_TMP2]], align 8, !dbg [[DBG154]]
		// CHECK-NEXT: [[TMP8:%.]] = load i8, i8** [[_TMP2]], align 8, !dbg [[DBG154]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[F]], metadata [[META155:![0-9]+]], metadata !DIExpression()), !dbg [[DBG157:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]] [[TMP2]], i64 0, i64 1, !dbg [[DBG158:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX3:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[ARRAYIDX]], i64 0, i64 1, !dbg [[DBG158]]
		// CHECK-NEXT: [[ARRAYIDX4:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX3]], i64 0, i64 1, !dbg [[DBG158]]
		// CHECK-NEXT: store i32* [[ARRAYIDX4]], i32** [[F]], align 8, !dbg [[DBG157]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[G]], metadata [[META159:![0-9]+]], metadata !DIExpression()), !dbg [[DBG160:![0-9]+]]
		// CHECK-NEXT: store i32* [[A_ADDR]], i32** [[G]], align 8, !dbg [[DBG160]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[H]], metadata [[META161:![0-9]+]], metadata !DIExpression()), !dbg [[DBG162:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX5:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[TMP5]], i64 0, i64 1, !dbg [[DBG163:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX6:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX5]], i64 0, i64 1, !dbg [[DBG163]]
		// CHECK-NEXT: store i32* [[ARRAYIDX6]], i32** [[H]], align 8, !dbg [[DBG162]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[D]], metadata [[META164:![0-9]+]], metadata !DIExpression()), !dbg [[DBG165:![0-9]+]]
		// CHECK-NEXT: store i32 15, i32* [[D]], align 4, !dbg [[DBG165]]
		// CHECK-NEXT: store i32 5, i32* [[A_ADDR]], align 4, !dbg [[DBG166:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[TMP5]], i64 0, i64 0, !dbg [[DBG167:![0-9]+]]
		// CHECK-NEXT: [[TMP9:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG168:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM:%.*]] = sext i32 [[TMP9]] to i64, !dbg [[DBG167]]
		// CHECK-NEXT: [[ARRAYIDX8:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX7]], i64 0, i64 [[IDXPROM]], !dbg [[DBG167]]
		// CHECK-NEXT: store i32 10, i32* [[ARRAYIDX8]], align 4, !dbg [[DBG169:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX9:%.]] = getelementptr inbounds [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]] [[TMP2]], i64 0, i64 0, !dbg [[DBG170:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX10:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[ARRAYIDX9]], i64 0, i64 0, !dbg [[DBG170]]
		// CHECK-NEXT: [[TMP10:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG171:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM11:%.*]] = sext i32 [[TMP10]] to i64, !dbg [[DBG170]]
		// CHECK-NEXT: [[ARRAYIDX12:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX10]], i64 0, i64 [[IDXPROM11]], !dbg [[DBG170]]
		// CHECK-NEXT: store i32 11, i32* [[ARRAYIDX12]], align 4, !dbg [[DBG172:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX13:%.]] = getelementptr inbounds [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]] [[TMP2]], i64 0, i64 0, !dbg [[DBG173:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX14:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[ARRAYIDX13]], i64 0, i64 0, !dbg [[DBG173]]
		// CHECK-NEXT: [[TMP11:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG174:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM15:%.*]] = sext i32 [[TMP11]] to i64, !dbg [[DBG173]]
		// CHECK-NEXT: [[ARRAYIDX16:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX14]], i64 0, i64 [[IDXPROM15]], !dbg [[DBG173]]
		// CHECK-NEXT: [[TMP12:%.]] = load i32, i32 [[ARRAYIDX16]], align 4, !dbg [[DBG173]]
		// CHECK-NEXT: [[ARRAYIDX17:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[TMP5]], i64 0, i64 0, !dbg [[DBG175:![0-9]+]]
		// CHECK-NEXT: [[TMP13:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG176:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM18:%.*]] = sext i32 [[TMP13]] to i64, !dbg [[DBG175]]
		// CHECK-NEXT: [[ARRAYIDX19:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX17]], i64 0, i64 [[IDXPROM18]], !dbg [[DBG175]]
		// CHECK-NEXT: store i32 [[TMP12]], i32* [[ARRAYIDX19]], align 4, !dbg [[DBG177:![0-9]+]]
		// CHECK-NEXT: [[TMP14:%.]] = load i8, i8 [[TMP8]], align 1, !dbg [[DBG178:![0-9]+]]
		// CHECK-NEXT: [[TOBOOL:%.*]] = trunc i8 [[TMP14]] to i1, !dbg [[DBG178]]
		// CHECK-NEXT: [[CONV:%.*]] = zext i1 [[TOBOOL]] to i32, !dbg [[DBG178]]
		// CHECK-NEXT: store i32 [[CONV]], i32* [[D]], align 4, !dbg [[DBG179:![0-9]+]]
		// CHECK-NEXT: ret void, !dbg [[DBG180:![0-9]+]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@__omp_outlined__2
		// CHECK-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], [10 x [10 x [10 x i32]]] nonnull align 4 dereferenceable(4000) [[C:%.]], i64 [[A:%.]], [10 x [10 x i32]]* nonnull align 4 dereferenceable(400) [[B:%.]], i8 nonnull align 1 dereferenceable(1) [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG181:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[A_ADDR:%.*]] = alloca i64, align 8
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8, align 8
		// CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTGLOBAL_TID__ADDR]], metadata [[META182:![0-9]+]], metadata !DIExpression()), !dbg [[DBG183:![0-9]+]]
		// CHECK-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTBOUND_TID__ADDR]], metadata [[META184:![0-9]+]], metadata !DIExpression()), !dbg [[DBG183]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[C]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]]** [[C_ADDR]], metadata [[META185:![0-9]+]], metadata !DIExpression()), !dbg [[DBG183]]
		// CHECK-NEXT: store i64 [[A]], i64* [[A_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i64* [[A_ADDR]], metadata [[META186:![0-9]+]], metadata !DIExpression()), !dbg [[DBG183]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[B]], [10 x [10 x i32]]** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]]** [[B_ADDR]], metadata [[META187:![0-9]+]], metadata !DIExpression()), !dbg [[DBG183]]
		// CHECK-NEXT: store i8* [[BB]], i8** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8** [[BB_ADDR]], metadata [[META188:![0-9]+]], metadata !DIExpression()), !dbg [[DBG183]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG189:![0-9]+]]
		// CHECK-NEXT: [[CONV:%.]] = bitcast i64 [[A_ADDR]] to i32*, !dbg [[DBG189]]
		// CHECK-NEXT: [[TMP1:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG189]]
		// CHECK-NEXT: [[TMP2:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG189]]
		// CHECK-NEXT: [[TMP3:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8, !dbg [[DBG189]]
		// CHECK-NEXT: [[TMP4:%.]] = load i32, i32** [[DOTBOUND_TID__ADDR]], align 8, !dbg [[DBG189]]
		// CHECK-NEXT: [[TMP5:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG189]]
		// CHECK-NEXT: [[TMP6:%.]] = load i32, i32 [[CONV]], align 8, !dbg [[DBG189]]
		// CHECK-NEXT: [[TMP7:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG189]]
		// CHECK-NEXT: [[TMP8:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG189]]
		// CHECK-NEXT: [[TMP9:%.]] = addrspacecast [10 x [10 x [10 x i32]]] [[TMP5]] to [10 x [10 x [10 x i32]]] addrspace(1)*, !dbg [[DBG189]]
		// CHECK-NEXT: [[TMP10:%.]] = addrspacecast [10 x [10 x i32]] [[TMP7]] to [10 x [10 x i32]] addrspace(1)*, !dbg [[DBG189]]
		// CHECK-NEXT: [[TMP11:%.]] = addrspacecast i8 [[TMP8]] to i8 addrspace(1)*, !dbg [[DBG189]]
		// CHECK-NEXT: call void @__omp_outlined___debug__1(i32* [[TMP3]], i32* [[TMP4]], [10 x [10 x [10 x i32]]] addrspace(1)* [[TMP9]], i32 [[TMP6]], [10 x [10 x i32]] addrspace(1)* [[TMP10]], i8 addrspace(1)* [[TMP11]]) #[[ATTR4]], !dbg [[DBG189]]
		// CHECK-NEXT: ret void, !dbg [[DBG189]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l37
		// CHECK-SAME: ([10 x [10 x [10 x i32]]]* nonnull align 4 dereferenceable(4000) [[C:%.]], i64 [[A:%.]], [10 x [10 x i32]]* nonnull align 4 dereferenceable(400) [[B:%.]], i8 nonnull align 1 dereferenceable(1) [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG190:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[A_ADDR:%.*]] = alloca i64, align 8
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8, align 8
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[C]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]]** [[C_ADDR]], metadata [[META191:![0-9]+]], metadata !DIExpression()), !dbg [[DBG192:![0-9]+]]
		// CHECK-NEXT: store i64 [[A]], i64* [[A_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i64* [[A_ADDR]], metadata [[META193:![0-9]+]], metadata !DIExpression()), !dbg [[DBG192]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[B]], [10 x [10 x i32]]** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]]** [[B_ADDR]], metadata [[META194:![0-9]+]], metadata !DIExpression()), !dbg [[DBG192]]
		// CHECK-NEXT: store i8* [[BB]], i8** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8** [[BB_ADDR]], metadata [[META195:![0-9]+]], metadata !DIExpression()), !dbg [[DBG192]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG196:![0-9]+]]
		// CHECK-NEXT: [[CONV:%.]] = bitcast i64 [[A_ADDR]] to i32*, !dbg [[DBG196]]
		// CHECK-NEXT: [[TMP1:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG196]]
		// CHECK-NEXT: [[TMP2:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG196]]
		// CHECK-NEXT: [[TMP3:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG196]]
		// CHECK-NEXT: [[TMP4:%.]] = load i32, i32 [[CONV]], align 8, !dbg [[DBG196]]
		// CHECK-NEXT: [[TMP5:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG196]]
		// CHECK-NEXT: [[TMP6:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG196]]
		// CHECK-NEXT: [[TMP7:%.]] = addrspacecast [10 x [10 x [10 x i32]]] [[TMP3]] to [10 x [10 x [10 x i32]]] addrspace(1)*, !dbg [[DBG196]]
		// CHECK-NEXT: [[TMP8:%.]] = addrspacecast [10 x [10 x i32]] [[TMP5]] to [10 x [10 x i32]] addrspace(1)*, !dbg [[DBG196]]
		// CHECK-NEXT: [[TMP9:%.]] = addrspacecast i8 [[TMP6]] to i8 addrspace(1)*, !dbg [[DBG196]]
		// CHECK-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l37_debug__([10 x [10 x [10 x i32]]] addrspace(1)* [[TMP7]], i32 [[TMP4]], [10 x [10 x i32]] addrspace(1)* [[TMP8]], i8 addrspace(1)* [[TMP9]]) #[[ATTR4]], !dbg [[DBG196]]
		// CHECK-NEXT: ret void, !dbg [[DBG196]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l51_debug__
		// CHECK-SAME: ([10 x [10 x [10 x i32]]] addrspace(1)* noalias [[C:%.]], i32 addrspace(1) noalias [[A:%.]], [10 x [10 x i32]] addrspace(1) noalias [[B:%.]], i8 addrspace(1) noalias [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG197:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]] addrspace(1), align 8
		// CHECK-NEXT: [[A_ADDR:%.]] = alloca i32 addrspace(1), align 8
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]] addrspace(1), align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8 addrspace(1), align 8
		// CHECK-NEXT: [[TMP:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[_TMP1:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[_TMP2:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[_TMP3:%.]] = alloca i8, align 8
		// CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [4 x i8], align 8
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]] addrspace(1)* [[C]], [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], metadata [[META202:![0-9]+]], metadata !DIExpression()), !dbg [[DBG203:![0-9]+]]
		// CHECK-NEXT: store i32 addrspace(1)* [[A]], i32 addrspace(1)** [[A_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32 addrspace(1)** [[A_ADDR]], metadata [[META204:![0-9]+]], metadata !DIExpression()), !dbg [[DBG205:![0-9]+]]
		// CHECK-NEXT: store [10 x [10 x i32]] addrspace(1)* [[B]], [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], metadata [[META206:![0-9]+]], metadata !DIExpression()), !dbg [[DBG207:![0-9]+]]
		// CHECK-NEXT: store i8 addrspace(1)* [[BB]], i8 addrspace(1)** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8 addrspace(1)** [[BB_ADDR]], metadata [[META208:![0-9]+]], metadata !DIExpression()), !dbg [[DBG209:![0-9]+]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]] addrspace(1), [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8, !dbg [[DBG210:![0-9]+]]
		// CHECK-NEXT: [[TMP1:%.]] = addrspacecast [10 x [10 x [10 x i32]]] addrspace(1) [[TMP0]] to [10 x [10 x [10 x i32]]]*, !dbg [[DBG210]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[TMP1]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG210]]
		// CHECK-NEXT: [[TMP2:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG210]]
		// CHECK-NEXT: [[TMP3:%.]] = load i32 addrspace(1), i32 addrspace(1)** [[A_ADDR]], align 8, !dbg [[DBG210]]
		// CHECK-NEXT: [[TMP4:%.]] = addrspacecast i32 addrspace(1) [[TMP3]] to i32*, !dbg [[DBG210]]
		// CHECK-NEXT: store i32* [[TMP4]], i32** [[_TMP1]], align 8, !dbg [[DBG210]]
		// CHECK-NEXT: [[TMP5:%.]] = load i32, i32** [[_TMP1]], align 8, !dbg [[DBG210]]
		// CHECK-NEXT: [[TMP6:%.]] = load [10 x [10 x i32]] addrspace(1), [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], align 8, !dbg [[DBG210]]
		// CHECK-NEXT: [[TMP7:%.]] = addrspacecast [10 x [10 x i32]] addrspace(1) [[TMP6]] to [10 x [10 x i32]]*, !dbg [[DBG210]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[TMP7]], [10 x [10 x i32]]** [[_TMP2]], align 8, !dbg [[DBG210]]
		// CHECK-NEXT: [[TMP8:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[_TMP2]], align 8, !dbg [[DBG210]]
		// CHECK-NEXT: [[TMP9:%.]] = load i8 addrspace(1), i8 addrspace(1)** [[BB_ADDR]], align 8, !dbg [[DBG210]]
		// CHECK-NEXT: [[TMP10:%.]] = addrspacecast i8 addrspace(1) [[TMP9]] to i8*, !dbg [[DBG210]]
		// CHECK-NEXT: store i8* [[TMP10]], i8** [[_TMP3]], align 8, !dbg [[DBG210]]
		// CHECK-NEXT: [[TMP11:%.]] = load i8, i8** [[_TMP3]], align 8, !dbg [[DBG210]]
		// CHECK-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x(), !dbg [[DBG210]]
		// CHECK-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 1), !dbg [[DBG210]]
		// CHECK-NEXT: call void @__kmpc_data_sharing_init_stack_spmd(), !dbg [[DBG210]]
		// CHECK-NEXT: br label [[DOTEXECUTE:%.*]], !dbg [[DBG210]]
		// CHECK: .execute:
		// CHECK-NEXT: [[TMP12:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB5:[0-9]+]])
		// CHECK-NEXT: [[TMP13:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0, !dbg [[DBG211:![0-9]+]]
		// CHECK-NEXT: [[TMP14:%.]] = bitcast [10 x [10 x [10 x i32]]] [[TMP2]] to i8*, !dbg [[DBG211]]
		// CHECK-NEXT: store i8* [[TMP14]], i8** [[TMP13]], align 8, !dbg [[DBG211]]
		// CHECK-NEXT: [[TMP15:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1, !dbg [[DBG211]]
		// CHECK-NEXT: [[TMP16:%.]] = bitcast i32 [[TMP5]] to i8*, !dbg [[DBG211]]
		// CHECK-NEXT: store i8* [[TMP16]], i8** [[TMP15]], align 8, !dbg [[DBG211]]
		// CHECK-NEXT: [[TMP17:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 2, !dbg [[DBG211]]
		// CHECK-NEXT: [[TMP18:%.]] = bitcast [10 x [10 x i32]] [[TMP8]] to i8*, !dbg [[DBG211]]
		// CHECK-NEXT: store i8* [[TMP18]], i8** [[TMP17]], align 8, !dbg [[DBG211]]
		// CHECK-NEXT: [[TMP19:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 3, !dbg [[DBG211]]
		// CHECK-NEXT: store i8* [[TMP11]], i8** [[TMP19]], align 8, !dbg [[DBG211]]
		// CHECK-NEXT: [[TMP20:%.]] = bitcast [4 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**, !dbg [[DBG211]]
		// CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB5]], i32 [[TMP12]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, [10 x [10 x [10 x i32]]], i32, [10 x [10 x i32]], i8)* @__omp_outlined__4 to i8), i8 null, i8** [[TMP20]], i64 4), !dbg [[DBG211]]
		// CHECK-NEXT: br label [[DOTOMP_DEINIT:%.*]], !dbg [[DBG212:![0-9]+]]
		// CHECK: .omp.deinit:
		// CHECK-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 1), !dbg [[DBG212]]
		// CHECK-NEXT: br label [[DOTEXIT:%.*]], !dbg [[DBG212]]
		// CHECK: .exit:
		// CHECK-NEXT: ret void, !dbg [[DBG214:![0-9]+]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@__omp_outlined___debug__3
		// CHECK-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], [10 x [10 x [10 x i32]]] addrspace(1) noalias [[C:%.]], i32 addrspace(1) noalias [[A:%.]], [10 x [10 x i32]] addrspace(1) noalias [[B:%.]], i8 addrspace(1) noalias [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG215:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]] addrspace(1), align 8
		// CHECK-NEXT: [[A_ADDR:%.]] = alloca i32 addrspace(1), align 8
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]] addrspace(1), align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8 addrspace(1), align 8
		// CHECK-NEXT: [[TMP:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[_TMP1:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[_TMP2:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[_TMP3:%.]] = alloca i8, align 8
		// CHECK-NEXT: [[F:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[G:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[H:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[D:%.*]] = alloca i32, align 4
		// CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTGLOBAL_TID__ADDR]], metadata [[META218:![0-9]+]], metadata !DIExpression()), !dbg [[DBG219:![0-9]+]]
		// CHECK-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTBOUND_TID__ADDR]], metadata [[META220:![0-9]+]], metadata !DIExpression()), !dbg [[DBG219]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]] addrspace(1)* [[C]], [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], metadata [[META221:![0-9]+]], metadata !DIExpression()), !dbg [[DBG222:![0-9]+]]
		// CHECK-NEXT: store i32 addrspace(1)* [[A]], i32 addrspace(1)** [[A_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32 addrspace(1)** [[A_ADDR]], metadata [[META223:![0-9]+]], metadata !DIExpression()), !dbg [[DBG224:![0-9]+]]
		// CHECK-NEXT: store [10 x [10 x i32]] addrspace(1)* [[B]], [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], metadata [[META225:![0-9]+]], metadata !DIExpression()), !dbg [[DBG226:![0-9]+]]
		// CHECK-NEXT: store i8 addrspace(1)* [[BB]], i8 addrspace(1)** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8 addrspace(1)** [[BB_ADDR]], metadata [[META227:![0-9]+]], metadata !DIExpression()), !dbg [[DBG228:![0-9]+]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]] addrspace(1), [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8, !dbg [[DBG229:![0-9]+]]
		// CHECK-NEXT: [[TMP1:%.]] = addrspacecast [10 x [10 x [10 x i32]]] addrspace(1) [[TMP0]] to [10 x [10 x [10 x i32]]]*, !dbg [[DBG229]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[TMP1]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG229]]
		// CHECK-NEXT: [[TMP2:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG229]]
		// CHECK-NEXT: [[TMP3:%.]] = load i32 addrspace(1), i32 addrspace(1)** [[A_ADDR]], align 8, !dbg [[DBG229]]
		// CHECK-NEXT: [[TMP4:%.]] = addrspacecast i32 addrspace(1) [[TMP3]] to i32*, !dbg [[DBG229]]
		// CHECK-NEXT: store i32* [[TMP4]], i32** [[_TMP1]], align 8, !dbg [[DBG229]]
		// CHECK-NEXT: [[TMP5:%.]] = load i32, i32** [[_TMP1]], align 8, !dbg [[DBG229]]
		// CHECK-NEXT: [[TMP6:%.]] = load [10 x [10 x i32]] addrspace(1), [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], align 8, !dbg [[DBG229]]
		// CHECK-NEXT: [[TMP7:%.]] = addrspacecast [10 x [10 x i32]] addrspace(1) [[TMP6]] to [10 x [10 x i32]]*, !dbg [[DBG229]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[TMP7]], [10 x [10 x i32]]** [[_TMP2]], align 8, !dbg [[DBG229]]
		// CHECK-NEXT: [[TMP8:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[_TMP2]], align 8, !dbg [[DBG229]]
		// CHECK-NEXT: [[TMP9:%.]] = load i8 addrspace(1), i8 addrspace(1)** [[BB_ADDR]], align 8, !dbg [[DBG229]]
		// CHECK-NEXT: [[TMP10:%.]] = addrspacecast i8 addrspace(1) [[TMP9]] to i8*, !dbg [[DBG229]]
		// CHECK-NEXT: store i8* [[TMP10]], i8** [[_TMP3]], align 8, !dbg [[DBG229]]
		// CHECK-NEXT: [[TMP11:%.]] = load i8, i8** [[_TMP3]], align 8, !dbg [[DBG229]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[F]], metadata [[META230:![0-9]+]], metadata !DIExpression()), !dbg [[DBG232:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]] [[TMP2]], i64 0, i64 1, !dbg [[DBG233:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX4:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[ARRAYIDX]], i64 0, i64 1, !dbg [[DBG233]]
		// CHECK-NEXT: [[ARRAYIDX5:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX4]], i64 0, i64 1, !dbg [[DBG233]]
		// CHECK-NEXT: store i32* [[ARRAYIDX5]], i32** [[F]], align 8, !dbg [[DBG232]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[G]], metadata [[META234:![0-9]+]], metadata !DIExpression()), !dbg [[DBG235:![0-9]+]]
		// CHECK-NEXT: store i32* [[TMP5]], i32** [[G]], align 8, !dbg [[DBG235]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[H]], metadata [[META236:![0-9]+]], metadata !DIExpression()), !dbg [[DBG237:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX6:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[TMP8]], i64 0, i64 1, !dbg [[DBG238:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX6]], i64 0, i64 1, !dbg [[DBG238]]
		// CHECK-NEXT: store i32* [[ARRAYIDX7]], i32** [[H]], align 8, !dbg [[DBG237]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[D]], metadata [[META239:![0-9]+]], metadata !DIExpression()), !dbg [[DBG240:![0-9]+]]
		// CHECK-NEXT: store i32 15, i32* [[D]], align 4, !dbg [[DBG240]]
		// CHECK-NEXT: store i32 5, i32* [[TMP5]], align 4, !dbg [[DBG241:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX8:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[TMP8]], i64 0, i64 0, !dbg [[DBG242:![0-9]+]]
		// CHECK-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP5]], align 4, !dbg [[DBG243:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM:%.*]] = sext i32 [[TMP12]] to i64, !dbg [[DBG242]]
		// CHECK-NEXT: [[ARRAYIDX9:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX8]], i64 0, i64 [[IDXPROM]], !dbg [[DBG242]]
		// CHECK-NEXT: store i32 10, i32* [[ARRAYIDX9]], align 4, !dbg [[DBG244:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX10:%.]] = getelementptr inbounds [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]] [[TMP2]], i64 0, i64 0, !dbg [[DBG245:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX11:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[ARRAYIDX10]], i64 0, i64 0, !dbg [[DBG245]]
		// CHECK-NEXT: [[TMP13:%.]] = load i32, i32 [[TMP5]], align 4, !dbg [[DBG246:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM12:%.*]] = sext i32 [[TMP13]] to i64, !dbg [[DBG245]]
		// CHECK-NEXT: [[ARRAYIDX13:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX11]], i64 0, i64 [[IDXPROM12]], !dbg [[DBG245]]
		// CHECK-NEXT: store i32 11, i32* [[ARRAYIDX13]], align 4, !dbg [[DBG247:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX14:%.]] = getelementptr inbounds [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]] [[TMP2]], i64 0, i64 0, !dbg [[DBG248:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX15:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[ARRAYIDX14]], i64 0, i64 0, !dbg [[DBG248]]
		// CHECK-NEXT: [[TMP14:%.]] = load i32, i32 [[TMP5]], align 4, !dbg [[DBG249:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM16:%.*]] = sext i32 [[TMP14]] to i64, !dbg [[DBG248]]
		// CHECK-NEXT: [[ARRAYIDX17:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX15]], i64 0, i64 [[IDXPROM16]], !dbg [[DBG248]]
		// CHECK-NEXT: [[TMP15:%.]] = load i32, i32 [[ARRAYIDX17]], align 4, !dbg [[DBG248]]
		// CHECK-NEXT: [[ARRAYIDX18:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[TMP8]], i64 0, i64 0, !dbg [[DBG250:![0-9]+]]
		// CHECK-NEXT: [[TMP16:%.]] = load i32, i32 [[TMP5]], align 4, !dbg [[DBG251:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM19:%.*]] = sext i32 [[TMP16]] to i64, !dbg [[DBG250]]
		// CHECK-NEXT: [[ARRAYIDX20:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX18]], i64 0, i64 [[IDXPROM19]], !dbg [[DBG250]]
		// CHECK-NEXT: store i32 [[TMP15]], i32* [[ARRAYIDX20]], align 4, !dbg [[DBG252:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX21:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[TMP8]], i64 0, i64 0, !dbg [[DBG253:![0-9]+]]
		// CHECK-NEXT: [[TMP17:%.]] = load i32, i32 [[TMP5]], align 4, !dbg [[DBG254:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM22:%.*]] = sext i32 [[TMP17]] to i64, !dbg [[DBG253]]
		// CHECK-NEXT: [[ARRAYIDX23:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX21]], i64 0, i64 [[IDXPROM22]], !dbg [[DBG253]]
		// CHECK-NEXT: [[TMP18:%.]] = load i32, i32 [[ARRAYIDX23]], align 4, !dbg [[DBG253]]
		// CHECK-NEXT: [[TOBOOL:%.*]] = icmp ne i32 [[TMP18]], 0, !dbg [[DBG253]]
		// CHECK-NEXT: [[FROMBOOL:%.*]] = zext i1 [[TOBOOL]] to i8, !dbg [[DBG255:![0-9]+]]
		// CHECK-NEXT: store i8 [[FROMBOOL]], i8* [[TMP11]], align 1, !dbg [[DBG255]]
		// CHECK-NEXT: ret void, !dbg [[DBG256:![0-9]+]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@__omp_outlined__4
		// CHECK-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], [10 x [10 x [10 x i32]]] nonnull align 4 dereferenceable(4000) [[C:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], [10 x [10 x i32]] nonnull align 4 dereferenceable(400) [[B:%.]], i8 nonnull align 1 dereferenceable(1) [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG257:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8, align 8
		// CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTGLOBAL_TID__ADDR]], metadata [[META260:![0-9]+]], metadata !DIExpression()), !dbg [[DBG261:![0-9]+]]
		// CHECK-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTBOUND_TID__ADDR]], metadata [[META262:![0-9]+]], metadata !DIExpression()), !dbg [[DBG261]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[C]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]]** [[C_ADDR]], metadata [[META263:![0-9]+]], metadata !DIExpression()), !dbg [[DBG261]]
		// CHECK-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[A_ADDR]], metadata [[META264:![0-9]+]], metadata !DIExpression()), !dbg [[DBG261]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[B]], [10 x [10 x i32]]** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]]** [[B_ADDR]], metadata [[META265:![0-9]+]], metadata !DIExpression()), !dbg [[DBG261]]
		// CHECK-NEXT: store i8* [[BB]], i8** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8** [[BB_ADDR]], metadata [[META266:![0-9]+]], metadata !DIExpression()), !dbg [[DBG261]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG267:![0-9]+]]
		// CHECK-NEXT: [[TMP1:%.]] = load i32, i32** [[A_ADDR]], align 8, !dbg [[DBG267]]
		// CHECK-NEXT: [[TMP2:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG267]]
		// CHECK-NEXT: [[TMP3:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG267]]
		// CHECK-NEXT: [[TMP4:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8, !dbg [[DBG267]]
		// CHECK-NEXT: [[TMP5:%.]] = load i32, i32** [[DOTBOUND_TID__ADDR]], align 8, !dbg [[DBG267]]
		// CHECK-NEXT: [[TMP6:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG267]]
		// CHECK-NEXT: [[TMP7:%.]] = load i32, i32** [[A_ADDR]], align 8, !dbg [[DBG267]]
		// CHECK-NEXT: [[TMP8:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG267]]
		// CHECK-NEXT: [[TMP9:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG267]]
		// CHECK-NEXT: [[TMP10:%.]] = addrspacecast [10 x [10 x [10 x i32]]] [[TMP6]] to [10 x [10 x [10 x i32]]] addrspace(1)*, !dbg [[DBG267]]
		// CHECK-NEXT: [[TMP11:%.]] = addrspacecast i32 [[TMP7]] to i32 addrspace(1)*, !dbg [[DBG267]]
		// CHECK-NEXT: [[TMP12:%.]] = addrspacecast [10 x [10 x i32]] [[TMP8]] to [10 x [10 x i32]] addrspace(1)*, !dbg [[DBG267]]
		// CHECK-NEXT: [[TMP13:%.]] = addrspacecast i8 [[TMP9]] to i8 addrspace(1)*, !dbg [[DBG267]]
		// CHECK-NEXT: call void @__omp_outlined___debug__3(i32* [[TMP4]], i32* [[TMP5]], [10 x [10 x [10 x i32]]] addrspace(1)* [[TMP10]], i32 addrspace(1)* [[TMP11]], [10 x [10 x i32]] addrspace(1)* [[TMP12]], i8 addrspace(1)* [[TMP13]]) #[[ATTR4]], !dbg [[DBG267]]
		// CHECK-NEXT: ret void, !dbg [[DBG267]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l51
		// CHECK-SAME: ([10 x [10 x [10 x i32]]]* nonnull align 4 dereferenceable(4000) [[C:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], [10 x [10 x i32]] nonnull align 4 dereferenceable(400) [[B:%.]], i8 nonnull align 1 dereferenceable(1) [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG268:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8, align 8
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[C]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]]** [[C_ADDR]], metadata [[META271:![0-9]+]], metadata !DIExpression()), !dbg [[DBG272:![0-9]+]]
		// CHECK-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[A_ADDR]], metadata [[META273:![0-9]+]], metadata !DIExpression()), !dbg [[DBG272]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[B]], [10 x [10 x i32]]** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]]** [[B_ADDR]], metadata [[META274:![0-9]+]], metadata !DIExpression()), !dbg [[DBG272]]
		// CHECK-NEXT: store i8* [[BB]], i8** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8** [[BB_ADDR]], metadata [[META275:![0-9]+]], metadata !DIExpression()), !dbg [[DBG272]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG276:![0-9]+]]
		// CHECK-NEXT: [[TMP1:%.]] = load i32, i32** [[A_ADDR]], align 8, !dbg [[DBG276]]
		// CHECK-NEXT: [[TMP2:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG276]]
		// CHECK-NEXT: [[TMP3:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG276]]
		// CHECK-NEXT: [[TMP4:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG276]]
		// CHECK-NEXT: [[TMP5:%.]] = load i32, i32** [[A_ADDR]], align 8, !dbg [[DBG276]]
		// CHECK-NEXT: [[TMP6:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG276]]
		// CHECK-NEXT: [[TMP7:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG276]]
		// CHECK-NEXT: [[TMP8:%.]] = addrspacecast [10 x [10 x [10 x i32]]] [[TMP4]] to [10 x [10 x [10 x i32]]] addrspace(1)*, !dbg [[DBG276]]
		// CHECK-NEXT: [[TMP9:%.]] = addrspacecast i32 [[TMP5]] to i32 addrspace(1)*, !dbg [[DBG276]]
		// CHECK-NEXT: [[TMP10:%.]] = addrspacecast [10 x [10 x i32]] [[TMP6]] to [10 x [10 x i32]] addrspace(1)*, !dbg [[DBG276]]
		// CHECK-NEXT: [[TMP11:%.]] = addrspacecast i8 [[TMP7]] to i8 addrspace(1)*, !dbg [[DBG276]]
		// CHECK-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l51_debug__([10 x [10 x [10 x i32]]] addrspace(1)* [[TMP8]], i32 addrspace(1)* [[TMP9]], [10 x [10 x i32]] addrspace(1)* [[TMP10]], i8 addrspace(1)* [[TMP11]]) #[[ATTR4]], !dbg [[DBG276]]
		// CHECK-NEXT: ret void, !dbg [[DBG276]]
		//

clang/test/OpenMP/target_parallel_for_debug_codegen.cpp

		// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py UTC_ARGS: --function-signature --include-generated-funcs --replace-function-regex "__omp_offloading_[0-9a-z]+_[0-9a-z]+" --prefix-filecheck-ir-name _
// RUN: %clang_cc1 -DCK1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -fopenmp-cuda-mode -emit-llvm-bc %s -o %t-ppc-host.bc		// RUN: %clang_cc1 -DCK1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -fopenmp-cuda-mode -emit-llvm-bc %s -o %t-ppc-host.bc
// RUN: %clang_cc1 -DCK1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -fopenmp-cuda-mode -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -debug-info-kind=limited \| FileCheck %s		// RUN: %clang_cc1 -DCK1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -fopenmp-cuda-mode -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - -debug-info-kind=limited \| FileCheck %s
// expected-no-diagnostics		// expected-no-diagnostics

int main() {		int main() {
/* int(b)[a]; /		/* int(b)[a]; /
/* int (c)[a]; /		/* int (c)[a]; /
bool bb;		bool bb;
Show All 39 Lines	for (int i = 0; i < 10; ++i) {
a = 5;		a = 5;
b[0][a] = 10;		b[0][a] = 10;
c[0][0][a] = 11;		c[0][0][a] = 11;
b[0][a] = c[0][0][a];		b[0][a] = c[0][0][a];
bb = b[0][a];		bb = b[0][a];
}		}
return 0;		return 0;
}		}
		// CHECK-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l13_debug__
// CHECK: define internal void @__omp_offloading{{[^(]+}}([10 x [10 x [10 x i32]]] addrspace(1)* {{[^,]+}}, i32 {{[^,]+}}, [10 x [10 x i32]]* {{[^,]+}}, i8 addrspace(1)* noalias{{[^,]+}}, i1 {{[^)]+}})		// CHECK-SAME: ([10 x [10 x [10 x i32]]] addrspace(1)* noalias [[C:%.]], i32 [[A:%.]], [10 x [10 x i32]]* noalias [[B:%.]], i8 addrspace(1) noalias [[BB:%.]], i1 zeroext [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0:[0-9]+]] !dbg [[DBG12:![0-9]+]] {
// CHECK: addrspacecast [10 x [10 x [10 x i32]]] addrspace(1)* %{{.+}} to [10 x [10 x [10 x i32]]]*		// CHECK-NEXT: entry:
// CHECK: call void [[NONDEBUG_WRAPPER:.+]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]]* {{[^,]+}}, i64 {{[^,]+}}, [10 x [10 x i32]]* {{[^,]+}}, i8* {{[^)]+}})		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]] addrspace(1), align 8
		// CHECK-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
// CHECK: define internal void [[DEBUG_PARALLEL:.+]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]] addrspace(1)* noalias{{[^,]+}}, i32 {{[^,]+}}, [10 x [10 x i32]]* noalias{{[^,]+}}, i8 addrspace(1)* noalias{{[^)]+}})		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]], align 8
// CHECK: addrspacecast [10 x [10 x [10 x i32]]] addrspace(1)* %{{.+}} to [10 x [10 x [10 x i32]]]*		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8 addrspace(1), align 8
		// CHECK-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i8, align 1
// CHECK: define internal void [[NONDEBUG_WRAPPER]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i64 {{[^,]+}}, [10 x [10 x i32]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i8* nonnull align {{[0-9]+}} dereferenceable{{[^)]+}})		// CHECK-NEXT: [[TMP:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
// CHECK: addrspacecast [10 x [10 x [10 x i32]]]* %{{.+}} to [10 x [10 x [10 x i32]]] addrspace(1)*		// CHECK-NEXT: [[_TMP1:%.]] = alloca [10 x [10 x i32]], align 8
// CHECK: call void [[DEBUG_PARALLEL]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]] addrspace(1)* {{[^,]+}}, i32 {{[^,]+}}, [10 x [10 x i32]]* {{[^,]+}}, i8 addrspace(1)* {{[^)]+}})		// CHECK-NEXT: [[_TMP2:%.]] = alloca i8, align 8
		// CHECK-NEXT: [[A_CASTED:%.*]] = alloca i64, align 8
// CHECK: define weak void @__omp_offloading_{{[^(]+}}([10 x [10 x [10 x i32]]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i64 {{[^,]+}}, [10 x [10 x i32]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i8* nonnull align {{[0-9]+}} dereferenceable{{[^)]+}})		// CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [4 x i8], align 8
// CHECK: addrspacecast [10 x [10 x [10 x i32]]]* %{{.+}} to [10 x [10 x [10 x i32]]] addrspace(1)*		// CHECK-NEXT: store [10 x [10 x [10 x i32]]] addrspace(1)* [[C]], [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8
// CHECK: call void @__omp_offloading_{{[^(]+}}([10 x [10 x [10 x i32]]] addrspace(1)* {{[^,]+}}, i32 {{[^,]+}}, [10 x [10 x i32]]* {{[^,]+}}, i8 addrspace(1)* {{[^)]+}})		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], metadata [[META29:![0-9]+]], metadata !DIExpression()), !dbg [[DBG30:![0-9]+]]
		// CHECK-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
// CHECK: define internal void @__omp_offloading_{{[^(]+}}([10 x [10 x [10 x i32]]] addrspace(1)* noalias{{[^,]+}}, i32 {{[^,]+}}, [10 x [10 x i32]] addrspace(1)* noalias{{[^,]+}}, i8 addrspace(1)* noalias{{[^)]+}})		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[A_ADDR]], metadata [[META31:![0-9]+]], metadata !DIExpression()), !dbg [[DBG32:![0-9]+]]
// CHECK: addrspacecast [10 x [10 x [10 x i32]]] addrspace(1)* %{{.+}} to [10 x [10 x [10 x i32]]]*		// CHECK-NEXT: store [10 x [10 x i32]]* [[B]], [10 x [10 x i32]]** [[B_ADDR]], align 8
// CHECK: addrspacecast [10 x [10 x i32]] addrspace(1)* %{{.+}} to [10 x [10 x i32]]*		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]]** [[B_ADDR]], metadata [[META33:![0-9]+]], metadata !DIExpression()), !dbg [[DBG34:![0-9]+]]
// CHECK: call void [[NONDEBUG_WRAPPER:.+]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]]* {{[^,]+}}, i64 {{[^,]+}}, [10 x [10 x i32]]* {{[^,]+}}, i8* {{[^)]+}})		// CHECK-NEXT: store i8 addrspace(1)* [[BB]], i8 addrspace(1)** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8 addrspace(1)** [[BB_ADDR]], metadata [[META35:![0-9]+]], metadata !DIExpression()), !dbg [[DBG36:![0-9]+]]
// CHECK: define internal void [[DEBUG_PARALLEL:@.+]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]] addrspace(1)* noalias{{[^,]+}}, i32 {{[^,]+}}, [10 x [10 x i32]] addrspace(1)* noalias{{[^,]+}}, i8 addrspace(1)* {{[^)]+}})		// CHECK-NEXT: [[FROMBOOL:%.*]] = zext i1 [[DOTCAPTURE_EXPR_]] to i8
// CHECK: addrspacecast [10 x [10 x [10 x i32]]] addrspace(1)* %{{.+}} to [10 x [10 x [10 x i32]]]*		// CHECK-NEXT: store i8 [[FROMBOOL]], i8* [[DOTCAPTURE_EXPR__ADDR]], align 1
// CHECK: addrspacecast [10 x [10 x i32]] addrspace(1)* %{{.+}} to [10 x [10 x i32]]*		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8* [[DOTCAPTURE_EXPR__ADDR]], metadata [[META37:![0-9]+]], metadata !DIExpression()), !dbg [[DBG38:![0-9]+]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]] addrspace(1), [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8, !dbg [[DBG39:![0-9]+]]
// CHECK: define internal void [[NONDEBUG_WRAPPER]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i64 {{[^,]+}}, [10 x [10 x i32]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i8* nonnull align {{[0-9]+}} dereferenceable{{[^)]+}})		// CHECK-NEXT: [[TMP1:%.]] = addrspacecast [10 x [10 x [10 x i32]]] addrspace(1) [[TMP0]] to [10 x [10 x [10 x i32]]]*, !dbg [[DBG39]]
// CHECK: addrspacecast [10 x [10 x [10 x i32]]]* %{{.+}} to [10 x [10 x [10 x i32]]] addrspace(1)*		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[TMP1]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG39]]
// CHECK: addrspacecast [10 x [10 x i32]]* %{{.+}} to [10 x [10 x i32]] addrspace(1)*		// CHECK-NEXT: [[TMP2:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG39]]
// CHECK: call void [[DEBUG_PARALLEL]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]] addrspace(1)* {{[^,]+}}, i32 {{[^,]+}}, [10 x [10 x i32]] addrspace(1)* {{[^,]+}}, i8 addrspace(1)* {{[^)]+}})		// CHECK-NEXT: [[TMP3:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG39]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[TMP3]], [10 x [10 x i32]]** [[_TMP1]], align 8, !dbg [[DBG39]]
// CHECK: define weak void @__omp_offloading_{{[^(]+}}([10 x [10 x [10 x i32]]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i64 {{[^,]+}}, [10 x [10 x i32]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i8* nonnull align {{[0-9]+}} dereferenceable{{[^)]+}})		// CHECK-NEXT: [[TMP4:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[_TMP1]], align 8, !dbg [[DBG39]]
// CHECK: addrspacecast [10 x [10 x [10 x i32]]]* %{{.+}} to [10 x [10 x [10 x i32]]] addrspace(1)*		// CHECK-NEXT: [[TMP5:%.]] = load i8 addrspace(1), i8 addrspace(1)** [[BB_ADDR]], align 8, !dbg [[DBG39]]
// CHECK: addrspacecast [10 x [10 x i32]]* %{{.+}} to [10 x [10 x i32]] addrspace(1)*		// CHECK-NEXT: [[TMP6:%.]] = addrspacecast i8 addrspace(1) [[TMP5]] to i8*, !dbg [[DBG39]]
// CHECK: call void @__omp_offloading_{{[^(]+}}([10 x [10 x [10 x i32]]] addrspace(1)* {{[^,]+}}, i32 {{[^,]+}}, [10 x [10 x i32]] addrspace(1)* {{[^,]+}}, i8 addrspace(1)* {{[^)]+}})		// CHECK-NEXT: store i8* [[TMP6]], i8** [[_TMP2]], align 8, !dbg [[DBG39]]
		// CHECK-NEXT: [[TMP7:%.]] = load i8, i8** [[_TMP2]], align 8, !dbg [[DBG39]]
// CHECK: define internal void @__omp_offloading_{{[^(]+}}([10 x [10 x [10 x i32]]] addrspace(1)* noalias{{[^,]+}}, i32 addrspace(1)* noalias{{[^,]+}}, [10 x [10 x i32]] addrspace(1)* noalias{{[^,]+}}, i8 addrspace(1)* noalias{{[^)]+}})		// CHECK-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x(), !dbg [[DBG39]]
// CHECK: addrspacecast [10 x [10 x [10 x i32]]] addrspace(1)* %{{.+}} to [10 x [10 x [10 x i32]]]*		// CHECK-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 0), !dbg [[DBG39]]
// CHECK: addrspacecast i32 addrspace(1)* %{{.+}} to i32*		// CHECK-NEXT: br label [[DOTEXECUTE:%.*]], !dbg [[DBG39]]
// CHECK: addrspacecast [10 x [10 x i32]] addrspace(1)* %{{.+}} to [10 x [10 x i32]]*		// CHECK: .execute:
// CHECK: call void @[[NONDEBUG_WRAPPER:.+]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]]* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x i32]]* {{[^,]+}}, i8* {{[^)]+}})		// CHECK-NEXT: [[TMP8:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB4:[0-9]+]])
		// CHECK-NEXT: [[TMP9:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG40:![0-9]+]]
// CHECK: define internal void @[[DEBUG_PARALLEL:.+]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]] addrspace(1)* noalias{{[^,]+}}, i32 addrspace(1)* noalias{{[^,]+}}, [10 x [10 x i32]] addrspace(1)* noalias{{[^,]+}}, i8 addrspace(1)* noalias{{[^)]+}})		// CHECK-NEXT: [[CONV:%.]] = bitcast i64 [[A_CASTED]] to i32*, !dbg [[DBG40]]
// CHECK: addrspacecast [10 x [10 x [10 x i32]]] addrspace(1)* %{{.+}} to [10 x [10 x [10 x i32]]]*		// CHECK-NEXT: store i32 [[TMP9]], i32* [[CONV]], align 4, !dbg [[DBG40]]
// CHECK: addrspacecast i32 addrspace(1)* %{{.+}} to i32*		// CHECK-NEXT: [[TMP10:%.]] = load i64, i64 [[A_CASTED]], align 8, !dbg [[DBG40]]
// CHECK: addrspacecast [10 x [10 x i32]] addrspace(1)* %{{.+}} to [10 x [10 x i32]]*		// CHECK-NEXT: [[TMP11:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0, !dbg [[DBG40]]
		// CHECK-NEXT: [[TMP12:%.]] = bitcast [10 x [10 x [10 x i32]]] [[TMP2]] to i8*, !dbg [[DBG40]]
// CHECK: define internal void @[[NONDEBUG_WRAPPER]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i32* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, [10 x [10 x i32]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i8* nonnull align {{[0-9]+}} dereferenceable{{[^)]+}})		// CHECK-NEXT: store i8* [[TMP12]], i8** [[TMP11]], align 8, !dbg [[DBG40]]
// CHECK: addrspacecast [10 x [10 x [10 x i32]]]* %{{.+}} to [10 x [10 x [10 x i32]]] addrspace(1)*		// CHECK-NEXT: [[TMP13:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1, !dbg [[DBG40]]
// CHECK: addrspacecast i32* %{{.+}} to i32 addrspace(1)*		// CHECK-NEXT: [[TMP14:%.]] = inttoptr i64 [[TMP10]] to i8, !dbg [[DBG40]]
// CHECK: addrspacecast [10 x [10 x i32]]* %{{.+}} to [10 x [10 x i32]] addrspace(1)*		// CHECK-NEXT: store i8* [[TMP14]], i8** [[TMP13]], align 8, !dbg [[DBG40]]
// CHECK: call void @[[DEBUG_PARALLEL]](i32* {{[^,]+}}, i32* {{[^,]+}}, [10 x [10 x [10 x i32]]] addrspace(1)* {{[^,]+}}, i32 addrspace(1)* {{[^,]+}}, [10 x [10 x i32]] addrspace(1)* {{[^,]+}}, i8 addrspace(1)* {{[^)]+}})		// CHECK-NEXT: [[TMP15:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 2, !dbg [[DBG40]]
		// CHECK-NEXT: [[TMP16:%.]] = bitcast [10 x [10 x i32]] [[TMP4]] to i8*, !dbg [[DBG40]]
// CHECK: define weak void @__omp_offloading_{{[^(]+}}([10 x [10 x [10 x i32]]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i32* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, [10 x [10 x i32]]* nonnull align {{[0-9]+}} dereferenceable{{[^,]+}}, i8* nonnull align {{[0-9]+}} dereferenceable{{[^)]+}})		// CHECK-NEXT: store i8* [[TMP16]], i8** [[TMP15]], align 8, !dbg [[DBG40]]
// CHECK: addrspacecast [10 x [10 x [10 x i32]]]* %{{.+}} to [10 x [10 x [10 x i32]]] addrspace(1)*		// CHECK-NEXT: [[TMP17:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 3, !dbg [[DBG40]]
// CHECK: addrspacecast i32* %{{.+}} to i32 addrspace(1)*		// CHECK-NEXT: store i8* [[TMP7]], i8** [[TMP17]], align 8, !dbg [[DBG40]]
// CHECK: addrspacecast [10 x [10 x i32]]* %{{.+}} to [10 x [10 x i32]] addrspace(1)*		// CHECK-NEXT: [[TMP18:%.]] = load i8, i8 [[DOTCAPTURE_EXPR__ADDR]], align 1, !dbg [[DBG41:![0-9]+]]
// CHECK: call void @__omp_offloading_{{[^(]+}}([10 x [10 x [10 x i32]]] addrspace(1)* {{[^,]+}}, i32 addrspace(1)* {{[^,]+}}, [10 x [10 x i32]] addrspace(1)* {{[^,]+}}, i8 addrspace(1)* {{[^)]+}})		// CHECK-NEXT: [[TOBOOL:%.*]] = trunc i8 [[TMP18]] to i1, !dbg [[DBG41]]
		// CHECK-NEXT: [[TMP19:%.*]] = zext i1 [[TOBOOL]] to i32, !dbg [[DBG40]]
// CHECK-DAG: distinct !DISubprogram(name: "[[NONDEBUG_WRAPPER]]",		// CHECK-NEXT: [[TMP20:%.]] = bitcast [4 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**, !dbg [[DBG40]]
// CHECK-DAG: distinct !DISubprogram(name: "[[DEBUG_PARALLEL]]",		// CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB4]], i32 [[TMP8]], i32 [[TMP19]], i32 -1, i32 -1, i8* bitcast (void (i32, i32, [10 x [10 x [10 x i32]]], i64, [10 x [10 x i32]], i8) @__omp_outlined__ to i8), i8 null, i8** [[TMP20]], i64 4), !dbg [[DBG40]]
		// CHECK-NEXT: br label [[DOTOMP_DEINIT:%.*]], !dbg [[DBG43:![0-9]+]]
		// CHECK: .omp.deinit:
		// CHECK-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 0), !dbg [[DBG43]]
		// CHECK-NEXT: br label [[DOTEXIT:%.*]], !dbg [[DBG43]]
		// CHECK: .exit:
		// CHECK-NEXT: ret void, !dbg [[DBG44:![0-9]+]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@__omp_outlined___debug__
		// CHECK-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], [10 x [10 x [10 x i32]]] addrspace(1) noalias [[C:%.]], i32 [[A:%.]], [10 x [10 x i32]]* noalias [[B:%.]], i8 addrspace(1) noalias [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG45:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]] addrspace(1), align 8
		// CHECK-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8 addrspace(1), align 8
		// CHECK-NEXT: [[TMP:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[_TMP1:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[_TMP2:%.]] = alloca i8, align 8
		// CHECK-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[_TMP3:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[B4:%.*]] = alloca [10 x [10 x i32]], align 4
		// CHECK-NEXT: [[I:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[F:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[G:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[H:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[D:%.*]] = alloca i32, align 4
		// CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTGLOBAL_TID__ADDR]], metadata [[META52:![0-9]+]], metadata !DIExpression()), !dbg [[DBG53:![0-9]+]]
		// CHECK-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTBOUND_TID__ADDR]], metadata [[META54:![0-9]+]], metadata !DIExpression()), !dbg [[DBG53]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]] addrspace(1)* [[C]], [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], metadata [[META55:![0-9]+]], metadata !DIExpression()), !dbg [[DBG56:![0-9]+]]
		// CHECK-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[A_ADDR]], metadata [[META57:![0-9]+]], metadata !DIExpression()), !dbg [[DBG58:![0-9]+]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[B]], [10 x [10 x i32]]** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]]** [[B_ADDR]], metadata [[META59:![0-9]+]], metadata !DIExpression()), !dbg [[DBG60:![0-9]+]]
		// CHECK-NEXT: store i8 addrspace(1)* [[BB]], i8 addrspace(1)** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8 addrspace(1)** [[BB_ADDR]], metadata [[META61:![0-9]+]], metadata !DIExpression()), !dbg [[DBG62:![0-9]+]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]] addrspace(1), [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8, !dbg [[DBG63:![0-9]+]]
		// CHECK-NEXT: [[TMP1:%.]] = addrspacecast [10 x [10 x [10 x i32]]] addrspace(1) [[TMP0]] to [10 x [10 x [10 x i32]]]*, !dbg [[DBG63]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[TMP1]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG63]]
		// CHECK-NEXT: [[TMP2:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG63]]
		// CHECK-NEXT: [[TMP3:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG63]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[TMP3]], [10 x [10 x i32]]** [[_TMP1]], align 8, !dbg [[DBG63]]
		// CHECK-NEXT: [[TMP4:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[_TMP1]], align 8, !dbg [[DBG63]]
		// CHECK-NEXT: [[TMP5:%.]] = load i8 addrspace(1), i8 addrspace(1)** [[BB_ADDR]], align 8, !dbg [[DBG63]]
		// CHECK-NEXT: [[TMP6:%.]] = addrspacecast i8 addrspace(1) [[TMP5]] to i8*, !dbg [[DBG63]]
		// CHECK-NEXT: store i8* [[TMP6]], i8** [[_TMP2]], align 8, !dbg [[DBG63]]
		// CHECK-NEXT: [[TMP7:%.]] = load i8, i8** [[_TMP2]], align 8, !dbg [[DBG63]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[DOTOMP_IV]], metadata [[META64:![0-9]+]], metadata !DIExpression()), !dbg [[DBG53]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[DOTOMP_LB]], metadata [[META65:![0-9]+]], metadata !DIExpression()), !dbg [[DBG53]]
		// CHECK-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4, !dbg [[DBG66:![0-9]+]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[DOTOMP_UB]], metadata [[META67:![0-9]+]], metadata !DIExpression()), !dbg [[DBG53]]
		// CHECK-NEXT: store i32 9, i32* [[DOTOMP_UB]], align 4, !dbg [[DBG66]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[DOTOMP_STRIDE]], metadata [[META68:![0-9]+]], metadata !DIExpression()), !dbg [[DBG53]]
		// CHECK-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4, !dbg [[DBG66]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[DOTOMP_IS_LAST]], metadata [[META69:![0-9]+]], metadata !DIExpression()), !dbg [[DBG53]]
		// CHECK-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4, !dbg [[DBG66]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]]* [[B4]], metadata [[META70:![0-9]+]], metadata !DIExpression()), !dbg [[DBG53]]
		// CHECK-NEXT: [[TMP8:%.]] = bitcast [10 x [10 x i32]] [[B4]] to i8*, !dbg [[DBG63]]
		// CHECK-NEXT: [[TMP9:%.]] = bitcast [10 x [10 x i32]] [[TMP4]] to i8*, !dbg [[DBG63]]
		// CHECK-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 4 [[TMP8]], i8* align 4 [[TMP9]], i64 400, i1 false), !dbg [[DBG63]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[I]], metadata [[META71:![0-9]+]], metadata !DIExpression()), !dbg [[DBG53]]
		// CHECK-NEXT: [[TMP10:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8, !dbg [[DBG63]]
		// CHECK-NEXT: [[TMP11:%.]] = load i32, i32 [[TMP10]], align 4, !dbg [[DBG63]]
		// CHECK-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB1:[0-9]+]], i32 [[TMP11]], i32 33, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 1), !dbg [[DBG72:![0-9]+]]
		// CHECK-NEXT: br label [[OMP_DISPATCH_COND:%.*]], !dbg [[DBG63]]
		// CHECK: omp.dispatch.cond:
		// CHECK-NEXT: [[TMP12:%.]] = load i32, i32 [[DOTOMP_UB]], align 4, !dbg [[DBG66]]
		// CHECK-NEXT: [[CMP:%.*]] = icmp sgt i32 [[TMP12]], 9, !dbg [[DBG66]]
		// CHECK-NEXT: br i1 [[CMP]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]], !dbg [[DBG66]]
		// CHECK: cond.true:
		// CHECK-NEXT: br label [[COND_END:%.*]], !dbg [[DBG66]]
		// CHECK: cond.false:
		// CHECK-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTOMP_UB]], align 4, !dbg [[DBG66]]
		// CHECK-NEXT: br label [[COND_END]], !dbg [[DBG66]]
		// CHECK: cond.end:
		// CHECK-NEXT: [[COND:%.*]] = phi i32 [ 9, [[COND_TRUE]] ], [ [[TMP13]], [[COND_FALSE]] ], !dbg [[DBG66]]
		// CHECK-NEXT: store i32 [[COND]], i32* [[DOTOMP_UB]], align 4, !dbg [[DBG66]]
		// CHECK-NEXT: [[TMP14:%.]] = load i32, i32 [[DOTOMP_LB]], align 4, !dbg [[DBG66]]
		// CHECK-NEXT: store i32 [[TMP14]], i32* [[DOTOMP_IV]], align 4, !dbg [[DBG66]]
		// CHECK-NEXT: [[TMP15:%.]] = load i32, i32 [[DOTOMP_IV]], align 4, !dbg [[DBG66]]
		// CHECK-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTOMP_UB]], align 4, !dbg [[DBG66]]
		// CHECK-NEXT: [[CMP5:%.*]] = icmp sle i32 [[TMP15]], [[TMP16]], !dbg [[DBG63]]
		// CHECK-NEXT: br i1 [[CMP5]], label [[OMP_DISPATCH_BODY:%.]], label [[OMP_DISPATCH_END:%.]], !dbg [[DBG63]]
		// CHECK: omp.dispatch.body:
		// CHECK-NEXT: br label [[OMP_INNER_FOR_COND:%.*]], !dbg [[DBG63]]
		// CHECK: omp.inner.for.cond:
		// CHECK-NEXT: [[TMP17:%.]] = load i32, i32 [[DOTOMP_IV]], align 4, !dbg [[DBG66]]
		// CHECK-NEXT: [[TMP18:%.]] = load i32, i32 [[DOTOMP_UB]], align 4, !dbg [[DBG66]]
		// CHECK-NEXT: [[CMP6:%.*]] = icmp sle i32 [[TMP17]], [[TMP18]], !dbg [[DBG63]]
		// CHECK-NEXT: br i1 [[CMP6]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]], !dbg [[DBG63]]
		// CHECK: omp.inner.for.body:
		// CHECK-NEXT: [[TMP19:%.]] = load i32, i32 [[DOTOMP_IV]], align 4, !dbg [[DBG66]]
		// CHECK-NEXT: [[MUL:%.*]] = mul nsw i32 [[TMP19]], 1, !dbg [[DBG73:![0-9]+]]
		// CHECK-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]], !dbg [[DBG73]]
		// CHECK-NEXT: store i32 [[ADD]], i32* [[I]], align 4, !dbg [[DBG73]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[F]], metadata [[META74:![0-9]+]], metadata !DIExpression()), !dbg [[DBG77:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]] [[TMP2]], i64 0, i64 1, !dbg [[DBG78:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[ARRAYIDX]], i64 0, i64 1, !dbg [[DBG78]]
		// CHECK-NEXT: [[ARRAYIDX8:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX7]], i64 0, i64 1, !dbg [[DBG78]]
		// CHECK-NEXT: store i32* [[ARRAYIDX8]], i32** [[F]], align 8, !dbg [[DBG77]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[G]], metadata [[META79:![0-9]+]], metadata !DIExpression()), !dbg [[DBG80:![0-9]+]]
		// CHECK-NEXT: store i32* [[A_ADDR]], i32** [[G]], align 8, !dbg [[DBG80]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[H]], metadata [[META81:![0-9]+]], metadata !DIExpression()), !dbg [[DBG82:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX9:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[B4]], i64 0, i64 1, !dbg [[DBG83:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX10:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX9]], i64 0, i64 1, !dbg [[DBG83]]
		// CHECK-NEXT: store i32* [[ARRAYIDX10]], i32** [[H]], align 8, !dbg [[DBG82]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[D]], metadata [[META84:![0-9]+]], metadata !DIExpression()), !dbg [[DBG85:![0-9]+]]
		// CHECK-NEXT: store i32 15, i32* [[D]], align 4, !dbg [[DBG85]]
		// CHECK-NEXT: store i32 5, i32* [[A_ADDR]], align 4, !dbg [[DBG86:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX11:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[B4]], i64 0, i64 0, !dbg [[DBG87:![0-9]+]]
		// CHECK-NEXT: [[TMP20:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG88:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM:%.*]] = sext i32 [[TMP20]] to i64, !dbg [[DBG87]]
		// CHECK-NEXT: [[ARRAYIDX12:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX11]], i64 0, i64 [[IDXPROM]], !dbg [[DBG87]]
		// CHECK-NEXT: store i32 10, i32* [[ARRAYIDX12]], align 4, !dbg [[DBG89:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX13:%.]] = getelementptr inbounds [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]] [[TMP2]], i64 0, i64 0, !dbg [[DBG90:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX14:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[ARRAYIDX13]], i64 0, i64 0, !dbg [[DBG90]]
		// CHECK-NEXT: [[TMP21:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG91:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM15:%.*]] = sext i32 [[TMP21]] to i64, !dbg [[DBG90]]
		// CHECK-NEXT: [[ARRAYIDX16:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX14]], i64 0, i64 [[IDXPROM15]], !dbg [[DBG90]]
		// CHECK-NEXT: store i32 11, i32* [[ARRAYIDX16]], align 4, !dbg [[DBG92:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX17:%.]] = getelementptr inbounds [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]] [[TMP2]], i64 0, i64 0, !dbg [[DBG93:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX18:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[ARRAYIDX17]], i64 0, i64 0, !dbg [[DBG93]]
		// CHECK-NEXT: [[TMP22:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG94:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM19:%.*]] = sext i32 [[TMP22]] to i64, !dbg [[DBG93]]
		// CHECK-NEXT: [[ARRAYIDX20:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX18]], i64 0, i64 [[IDXPROM19]], !dbg [[DBG93]]
		// CHECK-NEXT: [[TMP23:%.]] = load i32, i32 [[ARRAYIDX20]], align 4, !dbg [[DBG93]]
		// CHECK-NEXT: [[ARRAYIDX21:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[B4]], i64 0, i64 0, !dbg [[DBG95:![0-9]+]]
		// CHECK-NEXT: [[TMP24:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG96:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM22:%.*]] = sext i32 [[TMP24]] to i64, !dbg [[DBG95]]
		// CHECK-NEXT: [[ARRAYIDX23:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX21]], i64 0, i64 [[IDXPROM22]], !dbg [[DBG95]]
		// CHECK-NEXT: store i32 [[TMP23]], i32* [[ARRAYIDX23]], align 4, !dbg [[DBG97:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX24:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[B4]], i64 0, i64 0, !dbg [[DBG98:![0-9]+]]
		// CHECK-NEXT: [[TMP25:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG99:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM25:%.*]] = sext i32 [[TMP25]] to i64, !dbg [[DBG98]]
		// CHECK-NEXT: [[ARRAYIDX26:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX24]], i64 0, i64 [[IDXPROM25]], !dbg [[DBG98]]
		// CHECK-NEXT: [[TMP26:%.]] = load i32, i32 [[ARRAYIDX26]], align 4, !dbg [[DBG98]]
		// CHECK-NEXT: [[TMP27:%.]] = load i8, i8 [[TMP7]], align 1, !dbg [[DBG100:![0-9]+]]
		// CHECK-NEXT: [[TOBOOL:%.*]] = trunc i8 [[TMP27]] to i1, !dbg [[DBG100]]
		// CHECK-NEXT: [[CONV:%.*]] = zext i1 [[TOBOOL]] to i32, !dbg [[DBG100]]
		// CHECK-NEXT: [[OR:%.*]] = or i32 [[CONV]], [[TMP26]], !dbg [[DBG100]]
		// CHECK-NEXT: [[TOBOOL27:%.*]] = icmp ne i32 [[OR]], 0, !dbg [[DBG100]]
		// CHECK-NEXT: [[FROMBOOL:%.*]] = zext i1 [[TOBOOL27]] to i8, !dbg [[DBG100]]
		// CHECK-NEXT: store i8 [[FROMBOOL]], i8* [[TMP7]], align 1, !dbg [[DBG100]]
		// CHECK-NEXT: br label [[OMP_BODY_CONTINUE:%.*]], !dbg [[DBG101:![0-9]+]]
		// CHECK: omp.body.continue:
		// CHECK-NEXT: br label [[OMP_INNER_FOR_INC:%.*]], !dbg [[DBG72]]
		// CHECK: omp.inner.for.inc:
		// CHECK-NEXT: [[TMP28:%.]] = load i32, i32 [[DOTOMP_IV]], align 4, !dbg [[DBG66]]
		// CHECK-NEXT: [[ADD28:%.*]] = add nsw i32 [[TMP28]], 1, !dbg [[DBG63]]
		// CHECK-NEXT: store i32 [[ADD28]], i32* [[DOTOMP_IV]], align 4, !dbg [[DBG63]]
		// CHECK-NEXT: br label [[OMP_INNER_FOR_COND]], !dbg [[DBG72]], !llvm.loop [[LOOP102:![0-9]+]]
		// CHECK: omp.inner.for.end:
		// CHECK-NEXT: br label [[OMP_DISPATCH_INC:%.*]], !dbg [[DBG72]]
		// CHECK: omp.dispatch.inc:
		// CHECK-NEXT: [[TMP29:%.]] = load i32, i32 [[DOTOMP_LB]], align 4, !dbg [[DBG66]]
		// CHECK-NEXT: [[TMP30:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4, !dbg [[DBG66]]
		// CHECK-NEXT: [[ADD29:%.*]] = add nsw i32 [[TMP29]], [[TMP30]], !dbg [[DBG63]]
		// CHECK-NEXT: store i32 [[ADD29]], i32* [[DOTOMP_LB]], align 4, !dbg [[DBG63]]
		// CHECK-NEXT: [[TMP31:%.]] = load i32, i32 [[DOTOMP_UB]], align 4, !dbg [[DBG66]]
		// CHECK-NEXT: [[TMP32:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4, !dbg [[DBG66]]
		// CHECK-NEXT: [[ADD30:%.*]] = add nsw i32 [[TMP31]], [[TMP32]], !dbg [[DBG63]]
		// CHECK-NEXT: store i32 [[ADD30]], i32* [[DOTOMP_UB]], align 4, !dbg [[DBG63]]
		// CHECK-NEXT: br label [[OMP_DISPATCH_COND]], !dbg [[DBG72]], !llvm.loop [[LOOP104:![0-9]+]]
		// CHECK: omp.dispatch.end:
		// CHECK-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB3:[0-9]+]], i32 [[TMP11]]), !dbg [[DBG103:![0-9]+]]
		// CHECK-NEXT: ret void, !dbg [[DBG105:![0-9]+]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@__omp_outlined__
		// CHECK-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], [10 x [10 x [10 x i32]]] nonnull align 4 dereferenceable(4000) [[C:%.]], i64 [[A:%.]], [10 x [10 x i32]]* nonnull align 4 dereferenceable(400) [[B:%.]], i8 nonnull align 1 dereferenceable(1) [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG106:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[A_ADDR:%.*]] = alloca i64, align 8
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8, align 8
		// CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTGLOBAL_TID__ADDR]], metadata [[META113:![0-9]+]], metadata !DIExpression()), !dbg [[DBG114:![0-9]+]]
		// CHECK-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTBOUND_TID__ADDR]], metadata [[META115:![0-9]+]], metadata !DIExpression()), !dbg [[DBG114]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[C]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]]** [[C_ADDR]], metadata [[META116:![0-9]+]], metadata !DIExpression()), !dbg [[DBG114]]
		// CHECK-NEXT: store i64 [[A]], i64* [[A_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i64* [[A_ADDR]], metadata [[META117:![0-9]+]], metadata !DIExpression()), !dbg [[DBG114]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[B]], [10 x [10 x i32]]** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]]** [[B_ADDR]], metadata [[META118:![0-9]+]], metadata !DIExpression()), !dbg [[DBG114]]
		// CHECK-NEXT: store i8* [[BB]], i8** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8** [[BB_ADDR]], metadata [[META119:![0-9]+]], metadata !DIExpression()), !dbg [[DBG114]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG120:![0-9]+]]
		// CHECK-NEXT: [[CONV:%.]] = bitcast i64 [[A_ADDR]] to i32*, !dbg [[DBG120]]
		// CHECK-NEXT: [[TMP1:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG120]]
		// CHECK-NEXT: [[TMP2:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG120]]
		// CHECK-NEXT: [[TMP3:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8, !dbg [[DBG120]]
		// CHECK-NEXT: [[TMP4:%.]] = load i32, i32** [[DOTBOUND_TID__ADDR]], align 8, !dbg [[DBG120]]
		// CHECK-NEXT: [[TMP5:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG120]]
		// CHECK-NEXT: [[TMP6:%.]] = load i32, i32 [[CONV]], align 8, !dbg [[DBG120]]
		// CHECK-NEXT: [[TMP7:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG120]]
		// CHECK-NEXT: [[TMP8:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG120]]
		// CHECK-NEXT: [[TMP9:%.]] = addrspacecast [10 x [10 x [10 x i32]]] [[TMP5]] to [10 x [10 x [10 x i32]]] addrspace(1)*, !dbg [[DBG120]]
		// CHECK-NEXT: [[TMP10:%.]] = addrspacecast i8 [[TMP8]] to i8 addrspace(1)*, !dbg [[DBG120]]
		// CHECK-NEXT: call void @__omp_outlined___debug__(i32* [[TMP3]], i32* [[TMP4]], [10 x [10 x [10 x i32]]] addrspace(1)* [[TMP9]], i32 [[TMP6]], [10 x [10 x i32]]* [[TMP7]], i8 addrspace(1)* [[TMP10]]) #[[ATTR4:[0-9]+]], !dbg [[DBG120]]
		// CHECK-NEXT: ret void, !dbg [[DBG120]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l13
		// CHECK-SAME: ([10 x [10 x [10 x i32]]]* nonnull align 4 dereferenceable(4000) [[C:%.]], i64 [[A:%.]], [10 x [10 x i32]]* nonnull align 4 dereferenceable(400) [[B:%.]], i8 nonnull align 1 dereferenceable(1) [[BB:%.]], i64 [[DOTCAPTURE_EXPR_:%.]]) #[[ATTR0]] !dbg [[DBG121:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[A_ADDR:%.*]] = alloca i64, align 8
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8, align 8
		// CHECK-NEXT: [[DOTCAPTURE_EXPR__ADDR:%.*]] = alloca i64, align 8
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[C]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]]** [[C_ADDR]], metadata [[META124:![0-9]+]], metadata !DIExpression()), !dbg [[DBG125:![0-9]+]]
		// CHECK-NEXT: store i64 [[A]], i64* [[A_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i64* [[A_ADDR]], metadata [[META126:![0-9]+]], metadata !DIExpression()), !dbg [[DBG125]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[B]], [10 x [10 x i32]]** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]]** [[B_ADDR]], metadata [[META127:![0-9]+]], metadata !DIExpression()), !dbg [[DBG125]]
		// CHECK-NEXT: store i8* [[BB]], i8** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8** [[BB_ADDR]], metadata [[META128:![0-9]+]], metadata !DIExpression()), !dbg [[DBG125]]
		// CHECK-NEXT: store i64 [[DOTCAPTURE_EXPR_]], i64* [[DOTCAPTURE_EXPR__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i64* [[DOTCAPTURE_EXPR__ADDR]], metadata [[META129:![0-9]+]], metadata !DIExpression()), !dbg [[DBG125]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG130:![0-9]+]]
		// CHECK-NEXT: [[CONV:%.]] = bitcast i64 [[A_ADDR]] to i32*, !dbg [[DBG130]]
		// CHECK-NEXT: [[TMP1:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG130]]
		// CHECK-NEXT: [[TMP2:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG130]]
		// CHECK-NEXT: [[CONV1:%.]] = bitcast i64 [[DOTCAPTURE_EXPR__ADDR]] to i8*, !dbg [[DBG130]]
		// CHECK-NEXT: [[TMP3:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG130]]
		// CHECK-NEXT: [[TMP4:%.]] = load i32, i32 [[CONV]], align 8, !dbg [[DBG130]]
		// CHECK-NEXT: [[TMP5:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG130]]
		// CHECK-NEXT: [[TMP6:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG130]]
		// CHECK-NEXT: [[TMP7:%.]] = load i8, i8 [[CONV1]], align 8, !dbg [[DBG130]]
		// CHECK-NEXT: [[TOBOOL:%.*]] = trunc i8 [[TMP7]] to i1, !dbg [[DBG130]]
		// CHECK-NEXT: [[TMP8:%.]] = addrspacecast [10 x [10 x [10 x i32]]] [[TMP3]] to [10 x [10 x [10 x i32]]] addrspace(1)*, !dbg [[DBG130]]
		// CHECK-NEXT: [[TMP9:%.]] = addrspacecast i8 [[TMP6]] to i8 addrspace(1)*, !dbg [[DBG130]]
		// CHECK-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l13_debug__([10 x [10 x [10 x i32]]] addrspace(1)* [[TMP8]], i32 [[TMP4]], [10 x [10 x i32]]* [[TMP5]], i8 addrspace(1)* [[TMP9]], i1 [[TOBOOL]]) #[[ATTR4]], !dbg [[DBG130]]
		// CHECK-NEXT: ret void, !dbg [[DBG130]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l27_debug__
		// CHECK-SAME: ([10 x [10 x [10 x i32]]] addrspace(1)* noalias [[C:%.]], i32 [[A:%.]], [10 x [10 x i32]] addrspace(1)* noalias [[B:%.]], i8 addrspace(1) noalias [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG131:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]] addrspace(1), align 8
		// CHECK-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]] addrspace(1), align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8 addrspace(1), align 8
		// CHECK-NEXT: [[TMP:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[_TMP1:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[_TMP2:%.]] = alloca i8, align 8
		// CHECK-NEXT: [[A_CASTED:%.*]] = alloca i64, align 8
		// CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [4 x i8], align 8
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]] addrspace(1)* [[C]], [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], metadata [[META136:![0-9]+]], metadata !DIExpression()), !dbg [[DBG137:![0-9]+]]
		// CHECK-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[A_ADDR]], metadata [[META138:![0-9]+]], metadata !DIExpression()), !dbg [[DBG139:![0-9]+]]
		// CHECK-NEXT: store [10 x [10 x i32]] addrspace(1)* [[B]], [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], metadata [[META140:![0-9]+]], metadata !DIExpression()), !dbg [[DBG141:![0-9]+]]
		// CHECK-NEXT: store i8 addrspace(1)* [[BB]], i8 addrspace(1)** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8 addrspace(1)** [[BB_ADDR]], metadata [[META142:![0-9]+]], metadata !DIExpression()), !dbg [[DBG143:![0-9]+]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]] addrspace(1), [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8, !dbg [[DBG144:![0-9]+]]
		// CHECK-NEXT: [[TMP1:%.]] = addrspacecast [10 x [10 x [10 x i32]]] addrspace(1) [[TMP0]] to [10 x [10 x [10 x i32]]]*, !dbg [[DBG144]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[TMP1]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG144]]
		// CHECK-NEXT: [[TMP2:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG144]]
		// CHECK-NEXT: [[TMP3:%.]] = load [10 x [10 x i32]] addrspace(1), [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], align 8, !dbg [[DBG144]]
		// CHECK-NEXT: [[TMP4:%.]] = addrspacecast [10 x [10 x i32]] addrspace(1) [[TMP3]] to [10 x [10 x i32]]*, !dbg [[DBG144]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[TMP4]], [10 x [10 x i32]]** [[_TMP1]], align 8, !dbg [[DBG144]]
		// CHECK-NEXT: [[TMP5:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[_TMP1]], align 8, !dbg [[DBG144]]
		// CHECK-NEXT: [[TMP6:%.]] = load i8 addrspace(1), i8 addrspace(1)** [[BB_ADDR]], align 8, !dbg [[DBG144]]
		// CHECK-NEXT: [[TMP7:%.]] = addrspacecast i8 addrspace(1) [[TMP6]] to i8*, !dbg [[DBG144]]
		// CHECK-NEXT: store i8* [[TMP7]], i8** [[_TMP2]], align 8, !dbg [[DBG144]]
		// CHECK-NEXT: [[TMP8:%.]] = load i8, i8** [[_TMP2]], align 8, !dbg [[DBG144]]
		// CHECK-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x(), !dbg [[DBG144]]
		// CHECK-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 0), !dbg [[DBG144]]
		// CHECK-NEXT: br label [[DOTEXECUTE:%.*]], !dbg [[DBG144]]
		// CHECK: .execute:
		// CHECK-NEXT: [[TMP9:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB9:[0-9]+]])
		// CHECK-NEXT: [[TMP10:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG145:![0-9]+]]
		// CHECK-NEXT: [[CONV:%.]] = bitcast i64 [[A_CASTED]] to i32*, !dbg [[DBG145]]
		// CHECK-NEXT: store i32 [[TMP10]], i32* [[CONV]], align 4, !dbg [[DBG145]]
		// CHECK-NEXT: [[TMP11:%.]] = load i64, i64 [[A_CASTED]], align 8, !dbg [[DBG145]]
		// CHECK-NEXT: [[TMP12:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0, !dbg [[DBG145]]
		// CHECK-NEXT: [[TMP13:%.]] = bitcast [10 x [10 x [10 x i32]]] [[TMP2]] to i8*, !dbg [[DBG145]]
		// CHECK-NEXT: store i8* [[TMP13]], i8** [[TMP12]], align 8, !dbg [[DBG145]]
		// CHECK-NEXT: [[TMP14:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1, !dbg [[DBG145]]
		// CHECK-NEXT: [[TMP15:%.]] = inttoptr i64 [[TMP11]] to i8, !dbg [[DBG145]]
		// CHECK-NEXT: store i8* [[TMP15]], i8** [[TMP14]], align 8, !dbg [[DBG145]]
		// CHECK-NEXT: [[TMP16:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 2, !dbg [[DBG145]]
		// CHECK-NEXT: [[TMP17:%.]] = bitcast [10 x [10 x i32]] [[TMP5]] to i8*, !dbg [[DBG145]]
		// CHECK-NEXT: store i8* [[TMP17]], i8** [[TMP16]], align 8, !dbg [[DBG145]]
		// CHECK-NEXT: [[TMP18:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 3, !dbg [[DBG145]]
		// CHECK-NEXT: store i8* [[TMP8]], i8** [[TMP18]], align 8, !dbg [[DBG145]]
		// CHECK-NEXT: [[TMP19:%.]] = bitcast [4 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**, !dbg [[DBG145]]
		// CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB9]], i32 [[TMP9]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, [10 x [10 x [10 x i32]]], i64, [10 x [10 x i32]], i8) @__omp_outlined__2 to i8), i8 null, i8** [[TMP19]], i64 4), !dbg [[DBG145]]
		// CHECK-NEXT: br label [[DOTOMP_DEINIT:%.*]], !dbg [[DBG146:![0-9]+]]
		// CHECK: .omp.deinit:
		// CHECK-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 0), !dbg [[DBG146]]
		// CHECK-NEXT: br label [[DOTEXIT:%.*]], !dbg [[DBG146]]
		// CHECK: .exit:
		// CHECK-NEXT: ret void, !dbg [[DBG148:![0-9]+]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@__omp_outlined___debug__1
		// CHECK-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], [10 x [10 x [10 x i32]]] addrspace(1) noalias [[C:%.]], i32 [[A:%.]], [10 x [10 x i32]] addrspace(1)* noalias [[B:%.]], i8 addrspace(1) noalias [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG149:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]] addrspace(1), align 8
		// CHECK-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]] addrspace(1), align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8 addrspace(1), align 8
		// CHECK-NEXT: [[TMP:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[_TMP1:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[_TMP2:%.]] = alloca i8, align 8
		// CHECK-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[_TMP3:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[I:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[F:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[G:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[H:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[D:%.*]] = alloca i32, align 4
		// CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTGLOBAL_TID__ADDR]], metadata [[META152:![0-9]+]], metadata !DIExpression()), !dbg [[DBG153:![0-9]+]]
		// CHECK-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTBOUND_TID__ADDR]], metadata [[META154:![0-9]+]], metadata !DIExpression()), !dbg [[DBG153]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]] addrspace(1)* [[C]], [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], metadata [[META155:![0-9]+]], metadata !DIExpression()), !dbg [[DBG156:![0-9]+]]
		// CHECK-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[A_ADDR]], metadata [[META157:![0-9]+]], metadata !DIExpression()), !dbg [[DBG158:![0-9]+]]
		// CHECK-NEXT: store [10 x [10 x i32]] addrspace(1)* [[B]], [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], metadata [[META159:![0-9]+]], metadata !DIExpression()), !dbg [[DBG160:![0-9]+]]
		// CHECK-NEXT: store i8 addrspace(1)* [[BB]], i8 addrspace(1)** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8 addrspace(1)** [[BB_ADDR]], metadata [[META161:![0-9]+]], metadata !DIExpression()), !dbg [[DBG162:![0-9]+]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]] addrspace(1), [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8, !dbg [[DBG163:![0-9]+]]
		// CHECK-NEXT: [[TMP1:%.]] = addrspacecast [10 x [10 x [10 x i32]]] addrspace(1) [[TMP0]] to [10 x [10 x [10 x i32]]]*, !dbg [[DBG163]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[TMP1]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG163]]
		// CHECK-NEXT: [[TMP2:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG163]]
		// CHECK-NEXT: [[TMP3:%.]] = load [10 x [10 x i32]] addrspace(1), [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], align 8, !dbg [[DBG163]]
		// CHECK-NEXT: [[TMP4:%.]] = addrspacecast [10 x [10 x i32]] addrspace(1) [[TMP3]] to [10 x [10 x i32]]*, !dbg [[DBG163]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[TMP4]], [10 x [10 x i32]]** [[_TMP1]], align 8, !dbg [[DBG163]]
		// CHECK-NEXT: [[TMP5:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[_TMP1]], align 8, !dbg [[DBG163]]
		// CHECK-NEXT: [[TMP6:%.]] = load i8 addrspace(1), i8 addrspace(1)** [[BB_ADDR]], align 8, !dbg [[DBG163]]
		// CHECK-NEXT: [[TMP7:%.]] = addrspacecast i8 addrspace(1) [[TMP6]] to i8*, !dbg [[DBG163]]
		// CHECK-NEXT: store i8* [[TMP7]], i8** [[_TMP2]], align 8, !dbg [[DBG163]]
		// CHECK-NEXT: [[TMP8:%.]] = load i8, i8** [[_TMP2]], align 8, !dbg [[DBG163]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[DOTOMP_IV]], metadata [[META164:![0-9]+]], metadata !DIExpression()), !dbg [[DBG153]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[DOTOMP_LB]], metadata [[META165:![0-9]+]], metadata !DIExpression()), !dbg [[DBG153]]
		// CHECK-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4, !dbg [[DBG166:![0-9]+]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[DOTOMP_UB]], metadata [[META167:![0-9]+]], metadata !DIExpression()), !dbg [[DBG153]]
		// CHECK-NEXT: store i32 9, i32* [[DOTOMP_UB]], align 4, !dbg [[DBG166]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[DOTOMP_STRIDE]], metadata [[META168:![0-9]+]], metadata !DIExpression()), !dbg [[DBG153]]
		// CHECK-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4, !dbg [[DBG166]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[DOTOMP_IS_LAST]], metadata [[META169:![0-9]+]], metadata !DIExpression()), !dbg [[DBG153]]
		// CHECK-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4, !dbg [[DBG166]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[I]], metadata [[META170:![0-9]+]], metadata !DIExpression()), !dbg [[DBG153]]
		// CHECK-NEXT: [[TMP9:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8, !dbg [[DBG163]]
		// CHECK-NEXT: [[TMP10:%.]] = load i32, i32 [[TMP9]], align 4, !dbg [[DBG163]]
		// CHECK-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB6:[0-9]+]], i32 [[TMP10]], i32 33, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 1), !dbg [[DBG171:![0-9]+]]
		// CHECK-NEXT: br label [[OMP_DISPATCH_COND:%.*]], !dbg [[DBG163]]
		// CHECK: omp.dispatch.cond:
		// CHECK-NEXT: [[TMP11:%.]] = load i32, i32 [[DOTOMP_UB]], align 4, !dbg [[DBG166]]
		// CHECK-NEXT: [[CMP:%.*]] = icmp sgt i32 [[TMP11]], 9, !dbg [[DBG166]]
		// CHECK-NEXT: br i1 [[CMP]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]], !dbg [[DBG166]]
		// CHECK: cond.true:
		// CHECK-NEXT: br label [[COND_END:%.*]], !dbg [[DBG166]]
		// CHECK: cond.false:
		// CHECK-NEXT: [[TMP12:%.]] = load i32, i32 [[DOTOMP_UB]], align 4, !dbg [[DBG166]]
		// CHECK-NEXT: br label [[COND_END]], !dbg [[DBG166]]
		// CHECK: cond.end:
		// CHECK-NEXT: [[COND:%.*]] = phi i32 [ 9, [[COND_TRUE]] ], [ [[TMP12]], [[COND_FALSE]] ], !dbg [[DBG166]]
		// CHECK-NEXT: store i32 [[COND]], i32* [[DOTOMP_UB]], align 4, !dbg [[DBG166]]
		// CHECK-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTOMP_LB]], align 4, !dbg [[DBG166]]
		// CHECK-NEXT: store i32 [[TMP13]], i32* [[DOTOMP_IV]], align 4, !dbg [[DBG166]]
		// CHECK-NEXT: [[TMP14:%.]] = load i32, i32 [[DOTOMP_IV]], align 4, !dbg [[DBG166]]
		// CHECK-NEXT: [[TMP15:%.]] = load i32, i32 [[DOTOMP_UB]], align 4, !dbg [[DBG166]]
		// CHECK-NEXT: [[CMP4:%.*]] = icmp sle i32 [[TMP14]], [[TMP15]], !dbg [[DBG163]]
		// CHECK-NEXT: br i1 [[CMP4]], label [[OMP_DISPATCH_BODY:%.]], label [[OMP_DISPATCH_END:%.]], !dbg [[DBG163]]
		// CHECK: omp.dispatch.body:
		// CHECK-NEXT: br label [[OMP_INNER_FOR_COND:%.*]], !dbg [[DBG163]]
		// CHECK: omp.inner.for.cond:
		// CHECK-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTOMP_IV]], align 4, !dbg [[DBG166]]
		// CHECK-NEXT: [[TMP17:%.]] = load i32, i32 [[DOTOMP_UB]], align 4, !dbg [[DBG166]]
		// CHECK-NEXT: [[CMP5:%.*]] = icmp sle i32 [[TMP16]], [[TMP17]], !dbg [[DBG163]]
		// CHECK-NEXT: br i1 [[CMP5]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]], !dbg [[DBG163]]
		// CHECK: omp.inner.for.body:
		// CHECK-NEXT: [[TMP18:%.]] = load i32, i32 [[DOTOMP_IV]], align 4, !dbg [[DBG166]]
		// CHECK-NEXT: [[MUL:%.*]] = mul nsw i32 [[TMP18]], 1, !dbg [[DBG172:![0-9]+]]
		// CHECK-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]], !dbg [[DBG172]]
		// CHECK-NEXT: store i32 [[ADD]], i32* [[I]], align 4, !dbg [[DBG172]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[F]], metadata [[META173:![0-9]+]], metadata !DIExpression()), !dbg [[DBG175:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]] [[TMP2]], i64 0, i64 1, !dbg [[DBG176:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX6:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[ARRAYIDX]], i64 0, i64 1, !dbg [[DBG176]]
		// CHECK-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX6]], i64 0, i64 1, !dbg [[DBG176]]
		// CHECK-NEXT: store i32* [[ARRAYIDX7]], i32** [[F]], align 8, !dbg [[DBG175]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[G]], metadata [[META177:![0-9]+]], metadata !DIExpression()), !dbg [[DBG178:![0-9]+]]
		// CHECK-NEXT: store i32* [[A_ADDR]], i32** [[G]], align 8, !dbg [[DBG178]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[H]], metadata [[META179:![0-9]+]], metadata !DIExpression()), !dbg [[DBG180:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX8:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[TMP5]], i64 0, i64 1, !dbg [[DBG181:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX9:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX8]], i64 0, i64 1, !dbg [[DBG181]]
		// CHECK-NEXT: store i32* [[ARRAYIDX9]], i32** [[H]], align 8, !dbg [[DBG180]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[D]], metadata [[META182:![0-9]+]], metadata !DIExpression()), !dbg [[DBG183:![0-9]+]]
		// CHECK-NEXT: store i32 15, i32* [[D]], align 4, !dbg [[DBG183]]
		// CHECK-NEXT: store i32 5, i32* [[A_ADDR]], align 4, !dbg [[DBG184:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX10:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[TMP5]], i64 0, i64 0, !dbg [[DBG185:![0-9]+]]
		// CHECK-NEXT: [[TMP19:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG186:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM:%.*]] = sext i32 [[TMP19]] to i64, !dbg [[DBG185]]
		// CHECK-NEXT: [[ARRAYIDX11:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX10]], i64 0, i64 [[IDXPROM]], !dbg [[DBG185]]
		// CHECK-NEXT: store i32 10, i32* [[ARRAYIDX11]], align 4, !dbg [[DBG187:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX12:%.]] = getelementptr inbounds [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]] [[TMP2]], i64 0, i64 0, !dbg [[DBG188:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX13:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[ARRAYIDX12]], i64 0, i64 0, !dbg [[DBG188]]
		// CHECK-NEXT: [[TMP20:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG189:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM14:%.*]] = sext i32 [[TMP20]] to i64, !dbg [[DBG188]]
		// CHECK-NEXT: [[ARRAYIDX15:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX13]], i64 0, i64 [[IDXPROM14]], !dbg [[DBG188]]
		// CHECK-NEXT: store i32 11, i32* [[ARRAYIDX15]], align 4, !dbg [[DBG190:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX16:%.]] = getelementptr inbounds [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]] [[TMP2]], i64 0, i64 0, !dbg [[DBG191:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX17:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[ARRAYIDX16]], i64 0, i64 0, !dbg [[DBG191]]
		// CHECK-NEXT: [[TMP21:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG192:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM18:%.*]] = sext i32 [[TMP21]] to i64, !dbg [[DBG191]]
		// CHECK-NEXT: [[ARRAYIDX19:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX17]], i64 0, i64 [[IDXPROM18]], !dbg [[DBG191]]
		// CHECK-NEXT: [[TMP22:%.]] = load i32, i32 [[ARRAYIDX19]], align 4, !dbg [[DBG191]]
		// CHECK-NEXT: [[ARRAYIDX20:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[TMP5]], i64 0, i64 0, !dbg [[DBG193:![0-9]+]]
		// CHECK-NEXT: [[TMP23:%.]] = load i32, i32 [[A_ADDR]], align 4, !dbg [[DBG194:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM21:%.*]] = sext i32 [[TMP23]] to i64, !dbg [[DBG193]]
		// CHECK-NEXT: [[ARRAYIDX22:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX20]], i64 0, i64 [[IDXPROM21]], !dbg [[DBG193]]
		// CHECK-NEXT: store i32 [[TMP22]], i32* [[ARRAYIDX22]], align 4, !dbg [[DBG195:![0-9]+]]
		// CHECK-NEXT: [[TMP24:%.]] = load i8, i8 [[TMP8]], align 1, !dbg [[DBG196:![0-9]+]]
		// CHECK-NEXT: [[TOBOOL:%.*]] = trunc i8 [[TMP24]] to i1, !dbg [[DBG196]]
		// CHECK-NEXT: [[CONV:%.*]] = zext i1 [[TOBOOL]] to i32, !dbg [[DBG196]]
		// CHECK-NEXT: store i32 [[CONV]], i32* [[D]], align 4, !dbg [[DBG197:![0-9]+]]
		// CHECK-NEXT: br label [[OMP_BODY_CONTINUE:%.*]], !dbg [[DBG198:![0-9]+]]
		// CHECK: omp.body.continue:
		// CHECK-NEXT: br label [[OMP_INNER_FOR_INC:%.*]], !dbg [[DBG171]]
		// CHECK: omp.inner.for.inc:
		// CHECK-NEXT: [[TMP25:%.]] = load i32, i32 [[DOTOMP_IV]], align 4, !dbg [[DBG166]]
		// CHECK-NEXT: [[ADD23:%.*]] = add nsw i32 [[TMP25]], 1, !dbg [[DBG163]]
		// CHECK-NEXT: store i32 [[ADD23]], i32* [[DOTOMP_IV]], align 4, !dbg [[DBG163]]
		// CHECK-NEXT: br label [[OMP_INNER_FOR_COND]], !dbg [[DBG171]], !llvm.loop [[LOOP199:![0-9]+]]
		// CHECK: omp.inner.for.end:
		// CHECK-NEXT: br label [[OMP_DISPATCH_INC:%.*]], !dbg [[DBG171]]
		// CHECK: omp.dispatch.inc:
		// CHECK-NEXT: [[TMP26:%.]] = load i32, i32 [[DOTOMP_LB]], align 4, !dbg [[DBG166]]
		// CHECK-NEXT: [[TMP27:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4, !dbg [[DBG166]]
		// CHECK-NEXT: [[ADD24:%.*]] = add nsw i32 [[TMP26]], [[TMP27]], !dbg [[DBG163]]
		// CHECK-NEXT: store i32 [[ADD24]], i32* [[DOTOMP_LB]], align 4, !dbg [[DBG163]]
		// CHECK-NEXT: [[TMP28:%.]] = load i32, i32 [[DOTOMP_UB]], align 4, !dbg [[DBG166]]
		// CHECK-NEXT: [[TMP29:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4, !dbg [[DBG166]]
		// CHECK-NEXT: [[ADD25:%.*]] = add nsw i32 [[TMP28]], [[TMP29]], !dbg [[DBG163]]
		// CHECK-NEXT: store i32 [[ADD25]], i32* [[DOTOMP_UB]], align 4, !dbg [[DBG163]]
		// CHECK-NEXT: br label [[OMP_DISPATCH_COND]], !dbg [[DBG171]], !llvm.loop [[LOOP201:![0-9]+]]
		// CHECK: omp.dispatch.end:
		// CHECK-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB8:[0-9]+]], i32 [[TMP10]]), !dbg [[DBG200:![0-9]+]]
		// CHECK-NEXT: ret void, !dbg [[DBG202:![0-9]+]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@__omp_outlined__2
		// CHECK-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], [10 x [10 x [10 x i32]]] nonnull align 4 dereferenceable(4000) [[C:%.]], i64 [[A:%.]], [10 x [10 x i32]]* nonnull align 4 dereferenceable(400) [[B:%.]], i8 nonnull align 1 dereferenceable(1) [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG203:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[A_ADDR:%.*]] = alloca i64, align 8
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8, align 8
		// CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTGLOBAL_TID__ADDR]], metadata [[META204:![0-9]+]], metadata !DIExpression()), !dbg [[DBG205:![0-9]+]]
		// CHECK-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTBOUND_TID__ADDR]], metadata [[META206:![0-9]+]], metadata !DIExpression()), !dbg [[DBG205]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[C]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]]** [[C_ADDR]], metadata [[META207:![0-9]+]], metadata !DIExpression()), !dbg [[DBG205]]
		// CHECK-NEXT: store i64 [[A]], i64* [[A_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i64* [[A_ADDR]], metadata [[META208:![0-9]+]], metadata !DIExpression()), !dbg [[DBG205]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[B]], [10 x [10 x i32]]** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]]** [[B_ADDR]], metadata [[META209:![0-9]+]], metadata !DIExpression()), !dbg [[DBG205]]
		// CHECK-NEXT: store i8* [[BB]], i8** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8** [[BB_ADDR]], metadata [[META210:![0-9]+]], metadata !DIExpression()), !dbg [[DBG205]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG211:![0-9]+]]
		// CHECK-NEXT: [[CONV:%.]] = bitcast i64 [[A_ADDR]] to i32*, !dbg [[DBG211]]
		// CHECK-NEXT: [[TMP1:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG211]]
		// CHECK-NEXT: [[TMP2:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG211]]
		// CHECK-NEXT: [[TMP3:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8, !dbg [[DBG211]]
		// CHECK-NEXT: [[TMP4:%.]] = load i32, i32** [[DOTBOUND_TID__ADDR]], align 8, !dbg [[DBG211]]
		// CHECK-NEXT: [[TMP5:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG211]]
		// CHECK-NEXT: [[TMP6:%.]] = load i32, i32 [[CONV]], align 8, !dbg [[DBG211]]
		// CHECK-NEXT: [[TMP7:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG211]]
		// CHECK-NEXT: [[TMP8:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG211]]
		// CHECK-NEXT: [[TMP9:%.]] = addrspacecast [10 x [10 x [10 x i32]]] [[TMP5]] to [10 x [10 x [10 x i32]]] addrspace(1)*, !dbg [[DBG211]]
		// CHECK-NEXT: [[TMP10:%.]] = addrspacecast [10 x [10 x i32]] [[TMP7]] to [10 x [10 x i32]] addrspace(1)*, !dbg [[DBG211]]
		// CHECK-NEXT: [[TMP11:%.]] = addrspacecast i8 [[TMP8]] to i8 addrspace(1)*, !dbg [[DBG211]]
		// CHECK-NEXT: call void @__omp_outlined___debug__1(i32* [[TMP3]], i32* [[TMP4]], [10 x [10 x [10 x i32]]] addrspace(1)* [[TMP9]], i32 [[TMP6]], [10 x [10 x i32]] addrspace(1)* [[TMP10]], i8 addrspace(1)* [[TMP11]]) #[[ATTR4]], !dbg [[DBG211]]
		// CHECK-NEXT: ret void, !dbg [[DBG211]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l27
		// CHECK-SAME: ([10 x [10 x [10 x i32]]]* nonnull align 4 dereferenceable(4000) [[C:%.]], i64 [[A:%.]], [10 x [10 x i32]]* nonnull align 4 dereferenceable(400) [[B:%.]], i8 nonnull align 1 dereferenceable(1) [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG212:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[A_ADDR:%.*]] = alloca i64, align 8
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8, align 8
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[C]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]]** [[C_ADDR]], metadata [[META215:![0-9]+]], metadata !DIExpression()), !dbg [[DBG216:![0-9]+]]
		// CHECK-NEXT: store i64 [[A]], i64* [[A_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i64* [[A_ADDR]], metadata [[META217:![0-9]+]], metadata !DIExpression()), !dbg [[DBG216]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[B]], [10 x [10 x i32]]** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]]** [[B_ADDR]], metadata [[META218:![0-9]+]], metadata !DIExpression()), !dbg [[DBG216]]
		// CHECK-NEXT: store i8* [[BB]], i8** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8** [[BB_ADDR]], metadata [[META219:![0-9]+]], metadata !DIExpression()), !dbg [[DBG216]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG220:![0-9]+]]
		// CHECK-NEXT: [[CONV:%.]] = bitcast i64 [[A_ADDR]] to i32*, !dbg [[DBG220]]
		// CHECK-NEXT: [[TMP1:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG220]]
		// CHECK-NEXT: [[TMP2:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG220]]
		// CHECK-NEXT: [[TMP3:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG220]]
		// CHECK-NEXT: [[TMP4:%.]] = load i32, i32 [[CONV]], align 8, !dbg [[DBG220]]
		// CHECK-NEXT: [[TMP5:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG220]]
		// CHECK-NEXT: [[TMP6:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG220]]
		// CHECK-NEXT: [[TMP7:%.]] = addrspacecast [10 x [10 x [10 x i32]]] [[TMP3]] to [10 x [10 x [10 x i32]]] addrspace(1)*, !dbg [[DBG220]]
		// CHECK-NEXT: [[TMP8:%.]] = addrspacecast [10 x [10 x i32]] [[TMP5]] to [10 x [10 x i32]] addrspace(1)*, !dbg [[DBG220]]
		// CHECK-NEXT: [[TMP9:%.]] = addrspacecast i8 [[TMP6]] to i8 addrspace(1)*, !dbg [[DBG220]]
		// CHECK-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l27_debug__([10 x [10 x [10 x i32]]] addrspace(1)* [[TMP7]], i32 [[TMP4]], [10 x [10 x i32]] addrspace(1)* [[TMP8]], i8 addrspace(1)* [[TMP9]]) #[[ATTR4]], !dbg [[DBG220]]
		// CHECK-NEXT: ret void, !dbg [[DBG220]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l41_debug__
		// CHECK-SAME: ([10 x [10 x [10 x i32]]] addrspace(1)* noalias [[C:%.]], i32 addrspace(1) noalias [[A:%.]], [10 x [10 x i32]] addrspace(1) noalias [[B:%.]], i8 addrspace(1) noalias [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG221:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]] addrspace(1), align 8
		// CHECK-NEXT: [[A_ADDR:%.]] = alloca i32 addrspace(1), align 8
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]] addrspace(1), align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8 addrspace(1), align 8
		// CHECK-NEXT: [[TMP:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[_TMP1:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[_TMP2:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[_TMP3:%.]] = alloca i8, align 8
		// CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [4 x i8], align 8
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]] addrspace(1)* [[C]], [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], metadata [[META226:![0-9]+]], metadata !DIExpression()), !dbg [[DBG227:![0-9]+]]
		// CHECK-NEXT: store i32 addrspace(1)* [[A]], i32 addrspace(1)** [[A_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32 addrspace(1)** [[A_ADDR]], metadata [[META228:![0-9]+]], metadata !DIExpression()), !dbg [[DBG229:![0-9]+]]
		// CHECK-NEXT: store [10 x [10 x i32]] addrspace(1)* [[B]], [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], metadata [[META230:![0-9]+]], metadata !DIExpression()), !dbg [[DBG231:![0-9]+]]
		// CHECK-NEXT: store i8 addrspace(1)* [[BB]], i8 addrspace(1)** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8 addrspace(1)** [[BB_ADDR]], metadata [[META232:![0-9]+]], metadata !DIExpression()), !dbg [[DBG233:![0-9]+]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]] addrspace(1), [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8, !dbg [[DBG234:![0-9]+]]
		// CHECK-NEXT: [[TMP1:%.]] = addrspacecast [10 x [10 x [10 x i32]]] addrspace(1) [[TMP0]] to [10 x [10 x [10 x i32]]]*, !dbg [[DBG234]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[TMP1]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG234]]
		// CHECK-NEXT: [[TMP2:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG234]]
		// CHECK-NEXT: [[TMP3:%.]] = load i32 addrspace(1), i32 addrspace(1)** [[A_ADDR]], align 8, !dbg [[DBG234]]
		// CHECK-NEXT: [[TMP4:%.]] = addrspacecast i32 addrspace(1) [[TMP3]] to i32*, !dbg [[DBG234]]
		// CHECK-NEXT: store i32* [[TMP4]], i32** [[_TMP1]], align 8, !dbg [[DBG234]]
		// CHECK-NEXT: [[TMP5:%.]] = load i32, i32** [[_TMP1]], align 8, !dbg [[DBG234]]
		// CHECK-NEXT: [[TMP6:%.]] = load [10 x [10 x i32]] addrspace(1), [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], align 8, !dbg [[DBG234]]
		// CHECK-NEXT: [[TMP7:%.]] = addrspacecast [10 x [10 x i32]] addrspace(1) [[TMP6]] to [10 x [10 x i32]]*, !dbg [[DBG234]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[TMP7]], [10 x [10 x i32]]** [[_TMP2]], align 8, !dbg [[DBG234]]
		// CHECK-NEXT: [[TMP8:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[_TMP2]], align 8, !dbg [[DBG234]]
		// CHECK-NEXT: [[TMP9:%.]] = load i8 addrspace(1), i8 addrspace(1)** [[BB_ADDR]], align 8, !dbg [[DBG234]]
		// CHECK-NEXT: [[TMP10:%.]] = addrspacecast i8 addrspace(1) [[TMP9]] to i8*, !dbg [[DBG234]]
		// CHECK-NEXT: store i8* [[TMP10]], i8** [[_TMP3]], align 8, !dbg [[DBG234]]
		// CHECK-NEXT: [[TMP11:%.]] = load i8, i8** [[_TMP3]], align 8, !dbg [[DBG234]]
		// CHECK-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x(), !dbg [[DBG234]]
		// CHECK-NEXT: call void @__kmpc_spmd_kernel_init(i32 [[NVPTX_NUM_THREADS]], i16 0), !dbg [[DBG234]]
		// CHECK-NEXT: br label [[DOTEXECUTE:%.*]], !dbg [[DBG234]]
		// CHECK: .execute:
		// CHECK-NEXT: [[TMP12:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB14:[0-9]+]])
		// CHECK-NEXT: [[TMP13:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0, !dbg [[DBG235:![0-9]+]]
		// CHECK-NEXT: [[TMP14:%.]] = bitcast [10 x [10 x [10 x i32]]] [[TMP2]] to i8*, !dbg [[DBG235]]
		// CHECK-NEXT: store i8* [[TMP14]], i8** [[TMP13]], align 8, !dbg [[DBG235]]
		// CHECK-NEXT: [[TMP15:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1, !dbg [[DBG235]]
		// CHECK-NEXT: [[TMP16:%.]] = bitcast i32 [[TMP5]] to i8*, !dbg [[DBG235]]
		// CHECK-NEXT: store i8* [[TMP16]], i8** [[TMP15]], align 8, !dbg [[DBG235]]
		// CHECK-NEXT: [[TMP17:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 2, !dbg [[DBG235]]
		// CHECK-NEXT: [[TMP18:%.]] = bitcast [10 x [10 x i32]] [[TMP8]] to i8*, !dbg [[DBG235]]
		// CHECK-NEXT: store i8* [[TMP18]], i8** [[TMP17]], align 8, !dbg [[DBG235]]
		// CHECK-NEXT: [[TMP19:%.]] = getelementptr inbounds [4 x i8], [4 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 3, !dbg [[DBG235]]
		// CHECK-NEXT: store i8* [[TMP11]], i8** [[TMP19]], align 8, !dbg [[DBG235]]
		// CHECK-NEXT: [[TMP20:%.]] = bitcast [4 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**, !dbg [[DBG235]]
		// CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB14]], i32 [[TMP12]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, [10 x [10 x [10 x i32]]], i32, [10 x [10 x i32]], i8)* @__omp_outlined__4 to i8), i8 null, i8** [[TMP20]], i64 4), !dbg [[DBG235]]
		// CHECK-NEXT: br label [[DOTOMP_DEINIT:%.*]], !dbg [[DBG236:![0-9]+]]
		// CHECK: .omp.deinit:
		// CHECK-NEXT: call void @__kmpc_spmd_kernel_deinit_v2(i16 0), !dbg [[DBG236]]
		// CHECK-NEXT: br label [[DOTEXIT:%.*]], !dbg [[DBG236]]
		// CHECK: .exit:
		// CHECK-NEXT: ret void, !dbg [[DBG238:![0-9]+]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@__omp_outlined___debug__3
		// CHECK-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], [10 x [10 x [10 x i32]]] addrspace(1) noalias [[C:%.]], i32 addrspace(1) noalias [[A:%.]], [10 x [10 x i32]] addrspace(1) noalias [[B:%.]], i8 addrspace(1) noalias [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG239:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]] addrspace(1), align 8
		// CHECK-NEXT: [[A_ADDR:%.]] = alloca i32 addrspace(1), align 8
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]] addrspace(1), align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8 addrspace(1), align 8
		// CHECK-NEXT: [[TMP:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[_TMP1:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[_TMP2:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[_TMP3:%.]] = alloca i8, align 8
		// CHECK-NEXT: [[DOTOMP_IV:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[_TMP4:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[I:%.*]] = alloca i32, align 4
		// CHECK-NEXT: [[F:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[G:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[H:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[D:%.*]] = alloca i32, align 4
		// CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTGLOBAL_TID__ADDR]], metadata [[META242:![0-9]+]], metadata !DIExpression()), !dbg [[DBG243:![0-9]+]]
		// CHECK-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTBOUND_TID__ADDR]], metadata [[META244:![0-9]+]], metadata !DIExpression()), !dbg [[DBG243]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]] addrspace(1)* [[C]], [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], metadata [[META245:![0-9]+]], metadata !DIExpression()), !dbg [[DBG246:![0-9]+]]
		// CHECK-NEXT: store i32 addrspace(1)* [[A]], i32 addrspace(1)** [[A_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32 addrspace(1)** [[A_ADDR]], metadata [[META247:![0-9]+]], metadata !DIExpression()), !dbg [[DBG248:![0-9]+]]
		// CHECK-NEXT: store [10 x [10 x i32]] addrspace(1)* [[B]], [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], metadata [[META249:![0-9]+]], metadata !DIExpression()), !dbg [[DBG250:![0-9]+]]
		// CHECK-NEXT: store i8 addrspace(1)* [[BB]], i8 addrspace(1)** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8 addrspace(1)** [[BB_ADDR]], metadata [[META251:![0-9]+]], metadata !DIExpression()), !dbg [[DBG252:![0-9]+]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]] addrspace(1), [10 x [10 x [10 x i32]]] addrspace(1)** [[C_ADDR]], align 8, !dbg [[DBG253:![0-9]+]]
		// CHECK-NEXT: [[TMP1:%.]] = addrspacecast [10 x [10 x [10 x i32]]] addrspace(1) [[TMP0]] to [10 x [10 x [10 x i32]]]*, !dbg [[DBG253]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[TMP1]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG253]]
		// CHECK-NEXT: [[TMP2:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[TMP]], align 8, !dbg [[DBG253]]
		// CHECK-NEXT: [[TMP3:%.]] = load i32 addrspace(1), i32 addrspace(1)** [[A_ADDR]], align 8, !dbg [[DBG253]]
		// CHECK-NEXT: [[TMP4:%.]] = addrspacecast i32 addrspace(1) [[TMP3]] to i32*, !dbg [[DBG253]]
		// CHECK-NEXT: store i32* [[TMP4]], i32** [[_TMP1]], align 8, !dbg [[DBG253]]
		// CHECK-NEXT: [[TMP5:%.]] = load i32, i32** [[_TMP1]], align 8, !dbg [[DBG253]]
		// CHECK-NEXT: [[TMP6:%.]] = load [10 x [10 x i32]] addrspace(1), [10 x [10 x i32]] addrspace(1)** [[B_ADDR]], align 8, !dbg [[DBG253]]
		// CHECK-NEXT: [[TMP7:%.]] = addrspacecast [10 x [10 x i32]] addrspace(1) [[TMP6]] to [10 x [10 x i32]]*, !dbg [[DBG253]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[TMP7]], [10 x [10 x i32]]** [[_TMP2]], align 8, !dbg [[DBG253]]
		// CHECK-NEXT: [[TMP8:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[_TMP2]], align 8, !dbg [[DBG253]]
		// CHECK-NEXT: [[TMP9:%.]] = load i8 addrspace(1), i8 addrspace(1)** [[BB_ADDR]], align 8, !dbg [[DBG253]]
		// CHECK-NEXT: [[TMP10:%.]] = addrspacecast i8 addrspace(1) [[TMP9]] to i8*, !dbg [[DBG253]]
		// CHECK-NEXT: store i8* [[TMP10]], i8** [[_TMP3]], align 8, !dbg [[DBG253]]
		// CHECK-NEXT: [[TMP11:%.]] = load i8, i8** [[_TMP3]], align 8, !dbg [[DBG253]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[DOTOMP_IV]], metadata [[META254:![0-9]+]], metadata !DIExpression()), !dbg [[DBG243]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[DOTOMP_LB]], metadata [[META255:![0-9]+]], metadata !DIExpression()), !dbg [[DBG243]]
		// CHECK-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4, !dbg [[DBG256:![0-9]+]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[DOTOMP_UB]], metadata [[META257:![0-9]+]], metadata !DIExpression()), !dbg [[DBG243]]
		// CHECK-NEXT: store i32 9, i32* [[DOTOMP_UB]], align 4, !dbg [[DBG256]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[DOTOMP_STRIDE]], metadata [[META258:![0-9]+]], metadata !DIExpression()), !dbg [[DBG243]]
		// CHECK-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4, !dbg [[DBG256]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[DOTOMP_IS_LAST]], metadata [[META259:![0-9]+]], metadata !DIExpression()), !dbg [[DBG243]]
		// CHECK-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4, !dbg [[DBG256]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[I]], metadata [[META260:![0-9]+]], metadata !DIExpression()), !dbg [[DBG243]]
		// CHECK-NEXT: [[TMP12:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8, !dbg [[DBG253]]
		// CHECK-NEXT: [[TMP13:%.]] = load i32, i32 [[TMP12]], align 4, !dbg [[DBG253]]
		// CHECK-NEXT: call void @__kmpc_for_static_init_4(%struct.ident_t* @[[GLOB11:[0-9]+]], i32 [[TMP13]], i32 33, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 1), !dbg [[DBG261:![0-9]+]]
		// CHECK-NEXT: br label [[OMP_DISPATCH_COND:%.*]], !dbg [[DBG253]]
		// CHECK: omp.dispatch.cond:
		// CHECK-NEXT: [[TMP14:%.]] = load i32, i32 [[DOTOMP_UB]], align 4, !dbg [[DBG256]]
		// CHECK-NEXT: [[CMP:%.*]] = icmp sgt i32 [[TMP14]], 9, !dbg [[DBG256]]
		// CHECK-NEXT: br i1 [[CMP]], label [[COND_TRUE:%.]], label [[COND_FALSE:%.]], !dbg [[DBG256]]
		// CHECK: cond.true:
		// CHECK-NEXT: br label [[COND_END:%.*]], !dbg [[DBG256]]
		// CHECK: cond.false:
		// CHECK-NEXT: [[TMP15:%.]] = load i32, i32 [[DOTOMP_UB]], align 4, !dbg [[DBG256]]
		// CHECK-NEXT: br label [[COND_END]], !dbg [[DBG256]]
		// CHECK: cond.end:
		// CHECK-NEXT: [[COND:%.*]] = phi i32 [ 9, [[COND_TRUE]] ], [ [[TMP15]], [[COND_FALSE]] ], !dbg [[DBG256]]
		// CHECK-NEXT: store i32 [[COND]], i32* [[DOTOMP_UB]], align 4, !dbg [[DBG256]]
		// CHECK-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTOMP_LB]], align 4, !dbg [[DBG256]]
		// CHECK-NEXT: store i32 [[TMP16]], i32* [[DOTOMP_IV]], align 4, !dbg [[DBG256]]
		// CHECK-NEXT: [[TMP17:%.]] = load i32, i32 [[DOTOMP_IV]], align 4, !dbg [[DBG256]]
		// CHECK-NEXT: [[TMP18:%.]] = load i32, i32 [[DOTOMP_UB]], align 4, !dbg [[DBG256]]
		// CHECK-NEXT: [[CMP5:%.*]] = icmp sle i32 [[TMP17]], [[TMP18]], !dbg [[DBG253]]
		// CHECK-NEXT: br i1 [[CMP5]], label [[OMP_DISPATCH_BODY:%.]], label [[OMP_DISPATCH_END:%.]], !dbg [[DBG253]]
		// CHECK: omp.dispatch.body:
		// CHECK-NEXT: br label [[OMP_INNER_FOR_COND:%.*]], !dbg [[DBG253]]
		// CHECK: omp.inner.for.cond:
		// CHECK-NEXT: [[TMP19:%.]] = load i32, i32 [[DOTOMP_IV]], align 4, !dbg [[DBG256]]
		// CHECK-NEXT: [[TMP20:%.]] = load i32, i32 [[DOTOMP_UB]], align 4, !dbg [[DBG256]]
		// CHECK-NEXT: [[CMP6:%.*]] = icmp sle i32 [[TMP19]], [[TMP20]], !dbg [[DBG253]]
		// CHECK-NEXT: br i1 [[CMP6]], label [[OMP_INNER_FOR_BODY:%.]], label [[OMP_INNER_FOR_END:%.]], !dbg [[DBG253]]
		// CHECK: omp.inner.for.body:
		// CHECK-NEXT: [[TMP21:%.]] = load i32, i32 [[DOTOMP_IV]], align 4, !dbg [[DBG256]]
		// CHECK-NEXT: [[MUL:%.*]] = mul nsw i32 [[TMP21]], 1, !dbg [[DBG262:![0-9]+]]
		// CHECK-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]], !dbg [[DBG262]]
		// CHECK-NEXT: store i32 [[ADD]], i32* [[I]], align 4, !dbg [[DBG262]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[F]], metadata [[META263:![0-9]+]], metadata !DIExpression()), !dbg [[DBG265:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]] [[TMP2]], i64 0, i64 1, !dbg [[DBG266:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[ARRAYIDX]], i64 0, i64 1, !dbg [[DBG266]]
		// CHECK-NEXT: [[ARRAYIDX8:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX7]], i64 0, i64 1, !dbg [[DBG266]]
		// CHECK-NEXT: store i32* [[ARRAYIDX8]], i32** [[F]], align 8, !dbg [[DBG265]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[G]], metadata [[META267:![0-9]+]], metadata !DIExpression()), !dbg [[DBG268:![0-9]+]]
		// CHECK-NEXT: store i32* [[TMP5]], i32** [[G]], align 8, !dbg [[DBG268]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[H]], metadata [[META269:![0-9]+]], metadata !DIExpression()), !dbg [[DBG270:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX9:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[TMP8]], i64 0, i64 1, !dbg [[DBG271:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX10:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX9]], i64 0, i64 1, !dbg [[DBG271]]
		// CHECK-NEXT: store i32* [[ARRAYIDX10]], i32** [[H]], align 8, !dbg [[DBG270]]
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32* [[D]], metadata [[META272:![0-9]+]], metadata !DIExpression()), !dbg [[DBG273:![0-9]+]]
		// CHECK-NEXT: store i32 15, i32* [[D]], align 4, !dbg [[DBG273]]
		// CHECK-NEXT: store i32 5, i32* [[TMP5]], align 4, !dbg [[DBG274:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX11:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[TMP8]], i64 0, i64 0, !dbg [[DBG275:![0-9]+]]
		// CHECK-NEXT: [[TMP22:%.]] = load i32, i32 [[TMP5]], align 4, !dbg [[DBG276:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM:%.*]] = sext i32 [[TMP22]] to i64, !dbg [[DBG275]]
		// CHECK-NEXT: [[ARRAYIDX12:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX11]], i64 0, i64 [[IDXPROM]], !dbg [[DBG275]]
		// CHECK-NEXT: store i32 10, i32* [[ARRAYIDX12]], align 4, !dbg [[DBG277:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX13:%.]] = getelementptr inbounds [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]] [[TMP2]], i64 0, i64 0, !dbg [[DBG278:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX14:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[ARRAYIDX13]], i64 0, i64 0, !dbg [[DBG278]]
		// CHECK-NEXT: [[TMP23:%.]] = load i32, i32 [[TMP5]], align 4, !dbg [[DBG279:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM15:%.*]] = sext i32 [[TMP23]] to i64, !dbg [[DBG278]]
		// CHECK-NEXT: [[ARRAYIDX16:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX14]], i64 0, i64 [[IDXPROM15]], !dbg [[DBG278]]
		// CHECK-NEXT: store i32 11, i32* [[ARRAYIDX16]], align 4, !dbg [[DBG280:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX17:%.]] = getelementptr inbounds [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]] [[TMP2]], i64 0, i64 0, !dbg [[DBG281:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX18:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[ARRAYIDX17]], i64 0, i64 0, !dbg [[DBG281]]
		// CHECK-NEXT: [[TMP24:%.]] = load i32, i32 [[TMP5]], align 4, !dbg [[DBG282:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM19:%.*]] = sext i32 [[TMP24]] to i64, !dbg [[DBG281]]
		// CHECK-NEXT: [[ARRAYIDX20:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX18]], i64 0, i64 [[IDXPROM19]], !dbg [[DBG281]]
		// CHECK-NEXT: [[TMP25:%.]] = load i32, i32 [[ARRAYIDX20]], align 4, !dbg [[DBG281]]
		// CHECK-NEXT: [[ARRAYIDX21:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[TMP8]], i64 0, i64 0, !dbg [[DBG283:![0-9]+]]
		// CHECK-NEXT: [[TMP26:%.]] = load i32, i32 [[TMP5]], align 4, !dbg [[DBG284:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM22:%.*]] = sext i32 [[TMP26]] to i64, !dbg [[DBG283]]
		// CHECK-NEXT: [[ARRAYIDX23:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX21]], i64 0, i64 [[IDXPROM22]], !dbg [[DBG283]]
		// CHECK-NEXT: store i32 [[TMP25]], i32* [[ARRAYIDX23]], align 4, !dbg [[DBG285:![0-9]+]]
		// CHECK-NEXT: [[ARRAYIDX24:%.]] = getelementptr inbounds [10 x [10 x i32]], [10 x [10 x i32]] [[TMP8]], i64 0, i64 0, !dbg [[DBG286:![0-9]+]]
		// CHECK-NEXT: [[TMP27:%.]] = load i32, i32 [[TMP5]], align 4, !dbg [[DBG287:![0-9]+]]
		// CHECK-NEXT: [[IDXPROM25:%.*]] = sext i32 [[TMP27]] to i64, !dbg [[DBG286]]
		// CHECK-NEXT: [[ARRAYIDX26:%.]] = getelementptr inbounds [10 x i32], [10 x i32] [[ARRAYIDX24]], i64 0, i64 [[IDXPROM25]], !dbg [[DBG286]]
		// CHECK-NEXT: [[TMP28:%.]] = load i32, i32 [[ARRAYIDX26]], align 4, !dbg [[DBG286]]
		// CHECK-NEXT: [[TOBOOL:%.*]] = icmp ne i32 [[TMP28]], 0, !dbg [[DBG286]]
		// CHECK-NEXT: [[FROMBOOL:%.*]] = zext i1 [[TOBOOL]] to i8, !dbg [[DBG288:![0-9]+]]
		// CHECK-NEXT: store i8 [[FROMBOOL]], i8* [[TMP11]], align 1, !dbg [[DBG288]]
		// CHECK-NEXT: br label [[OMP_BODY_CONTINUE:%.*]], !dbg [[DBG289:![0-9]+]]
		// CHECK: omp.body.continue:
		// CHECK-NEXT: br label [[OMP_INNER_FOR_INC:%.*]], !dbg [[DBG261]]
		// CHECK: omp.inner.for.inc:
		// CHECK-NEXT: [[TMP29:%.]] = load i32, i32 [[DOTOMP_IV]], align 4, !dbg [[DBG256]]
		// CHECK-NEXT: [[ADD27:%.*]] = add nsw i32 [[TMP29]], 1, !dbg [[DBG253]]
		// CHECK-NEXT: store i32 [[ADD27]], i32* [[DOTOMP_IV]], align 4, !dbg [[DBG253]]
		// CHECK-NEXT: br label [[OMP_INNER_FOR_COND]], !dbg [[DBG261]], !llvm.loop [[LOOP290:![0-9]+]]
		// CHECK: omp.inner.for.end:
		// CHECK-NEXT: br label [[OMP_DISPATCH_INC:%.*]], !dbg [[DBG261]]
		// CHECK: omp.dispatch.inc:
		// CHECK-NEXT: [[TMP30:%.]] = load i32, i32 [[DOTOMP_LB]], align 4, !dbg [[DBG256]]
		// CHECK-NEXT: [[TMP31:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4, !dbg [[DBG256]]
		// CHECK-NEXT: [[ADD28:%.*]] = add nsw i32 [[TMP30]], [[TMP31]], !dbg [[DBG253]]
		// CHECK-NEXT: store i32 [[ADD28]], i32* [[DOTOMP_LB]], align 4, !dbg [[DBG253]]
		// CHECK-NEXT: [[TMP32:%.]] = load i32, i32 [[DOTOMP_UB]], align 4, !dbg [[DBG256]]
		// CHECK-NEXT: [[TMP33:%.]] = load i32, i32 [[DOTOMP_STRIDE]], align 4, !dbg [[DBG256]]
		// CHECK-NEXT: [[ADD29:%.*]] = add nsw i32 [[TMP32]], [[TMP33]], !dbg [[DBG253]]
		// CHECK-NEXT: store i32 [[ADD29]], i32* [[DOTOMP_UB]], align 4, !dbg [[DBG253]]
		// CHECK-NEXT: br label [[OMP_DISPATCH_COND]], !dbg [[DBG261]], !llvm.loop [[LOOP292:![0-9]+]]
		// CHECK: omp.dispatch.end:
		// CHECK-NEXT: call void @__kmpc_for_static_fini(%struct.ident_t* @[[GLOB13:[0-9]+]], i32 [[TMP13]]), !dbg [[DBG291:![0-9]+]]
		// CHECK-NEXT: ret void, !dbg [[DBG293:![0-9]+]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@__omp_outlined__4
		// CHECK-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], [10 x [10 x [10 x i32]]] nonnull align 4 dereferenceable(4000) [[C:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], [10 x [10 x i32]] nonnull align 4 dereferenceable(400) [[B:%.]], i8 nonnull align 1 dereferenceable(1) [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG294:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8, align 8
		// CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTGLOBAL_TID__ADDR]], metadata [[META297:![0-9]+]], metadata !DIExpression()), !dbg [[DBG298:![0-9]+]]
		// CHECK-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[DOTBOUND_TID__ADDR]], metadata [[META299:![0-9]+]], metadata !DIExpression()), !dbg [[DBG298]]
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[C]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]]** [[C_ADDR]], metadata [[META300:![0-9]+]], metadata !DIExpression()), !dbg [[DBG298]]
		// CHECK-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[A_ADDR]], metadata [[META301:![0-9]+]], metadata !DIExpression()), !dbg [[DBG298]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[B]], [10 x [10 x i32]]** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]]** [[B_ADDR]], metadata [[META302:![0-9]+]], metadata !DIExpression()), !dbg [[DBG298]]
		// CHECK-NEXT: store i8* [[BB]], i8** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8** [[BB_ADDR]], metadata [[META303:![0-9]+]], metadata !DIExpression()), !dbg [[DBG298]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG304:![0-9]+]]
		// CHECK-NEXT: [[TMP1:%.]] = load i32, i32** [[A_ADDR]], align 8, !dbg [[DBG304]]
		// CHECK-NEXT: [[TMP2:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG304]]
		// CHECK-NEXT: [[TMP3:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG304]]
		// CHECK-NEXT: [[TMP4:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8, !dbg [[DBG304]]
		// CHECK-NEXT: [[TMP5:%.]] = load i32, i32** [[DOTBOUND_TID__ADDR]], align 8, !dbg [[DBG304]]
		// CHECK-NEXT: [[TMP6:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG304]]
		// CHECK-NEXT: [[TMP7:%.]] = load i32, i32** [[A_ADDR]], align 8, !dbg [[DBG304]]
		// CHECK-NEXT: [[TMP8:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG304]]
		// CHECK-NEXT: [[TMP9:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG304]]
		// CHECK-NEXT: [[TMP10:%.]] = addrspacecast [10 x [10 x [10 x i32]]] [[TMP6]] to [10 x [10 x [10 x i32]]] addrspace(1)*, !dbg [[DBG304]]
		// CHECK-NEXT: [[TMP11:%.]] = addrspacecast i32 [[TMP7]] to i32 addrspace(1)*, !dbg [[DBG304]]
		// CHECK-NEXT: [[TMP12:%.]] = addrspacecast [10 x [10 x i32]] [[TMP8]] to [10 x [10 x i32]] addrspace(1)*, !dbg [[DBG304]]
		// CHECK-NEXT: [[TMP13:%.]] = addrspacecast i8 [[TMP9]] to i8 addrspace(1)*, !dbg [[DBG304]]
		// CHECK-NEXT: call void @__omp_outlined___debug__3(i32* [[TMP4]], i32* [[TMP5]], [10 x [10 x [10 x i32]]] addrspace(1)* [[TMP10]], i32 addrspace(1)* [[TMP11]], [10 x [10 x i32]] addrspace(1)* [[TMP12]], i8 addrspace(1)* [[TMP13]]) #[[ATTR4]], !dbg [[DBG304]]
		// CHECK-NEXT: ret void, !dbg [[DBG304]]
		//
		//
		// CHECK-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l41
		// CHECK-SAME: ([10 x [10 x [10 x i32]]]* nonnull align 4 dereferenceable(4000) [[C:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], [10 x [10 x i32]] nonnull align 4 dereferenceable(400) [[B:%.]], i8 nonnull align 1 dereferenceable(1) [[BB:%.*]]) #[[ATTR0]] !dbg [[DBG305:![0-9]+]] {
		// CHECK-NEXT: entry:
		// CHECK-NEXT: [[C_ADDR:%.]] = alloca [10 x [10 x [10 x i32]]], align 8
		// CHECK-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
		// CHECK-NEXT: [[B_ADDR:%.]] = alloca [10 x [10 x i32]], align 8
		// CHECK-NEXT: [[BB_ADDR:%.]] = alloca i8, align 8
		// CHECK-NEXT: store [10 x [10 x [10 x i32]]]* [[C]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x [10 x i32]]]** [[C_ADDR]], metadata [[META308:![0-9]+]], metadata !DIExpression()), !dbg [[DBG309:![0-9]+]]
		// CHECK-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i32** [[A_ADDR]], metadata [[META310:![0-9]+]], metadata !DIExpression()), !dbg [[DBG309]]
		// CHECK-NEXT: store [10 x [10 x i32]]* [[B]], [10 x [10 x i32]]** [[B_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata [10 x [10 x i32]]** [[B_ADDR]], metadata [[META311:![0-9]+]], metadata !DIExpression()), !dbg [[DBG309]]
		// CHECK-NEXT: store i8* [[BB]], i8** [[BB_ADDR]], align 8
		// CHECK-NEXT: call void @llvm.dbg.declare(metadata i8** [[BB_ADDR]], metadata [[META312:![0-9]+]], metadata !DIExpression()), !dbg [[DBG309]]
		// CHECK-NEXT: [[TMP0:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG313:![0-9]+]]
		// CHECK-NEXT: [[TMP1:%.]] = load i32, i32** [[A_ADDR]], align 8, !dbg [[DBG313]]
		// CHECK-NEXT: [[TMP2:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG313]]
		// CHECK-NEXT: [[TMP3:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG313]]
		// CHECK-NEXT: [[TMP4:%.]] = load [10 x [10 x [10 x i32]]], [10 x [10 x [10 x i32]]]** [[C_ADDR]], align 8, !dbg [[DBG313]]
		// CHECK-NEXT: [[TMP5:%.]] = load i32, i32** [[A_ADDR]], align 8, !dbg [[DBG313]]
		// CHECK-NEXT: [[TMP6:%.]] = load [10 x [10 x i32]], [10 x [10 x i32]]** [[B_ADDR]], align 8, !dbg [[DBG313]]
		// CHECK-NEXT: [[TMP7:%.]] = load i8, i8** [[BB_ADDR]], align 8, !dbg [[DBG313]]
		// CHECK-NEXT: [[TMP8:%.]] = addrspacecast [10 x [10 x [10 x i32]]] [[TMP4]] to [10 x [10 x [10 x i32]]] addrspace(1)*, !dbg [[DBG313]]
		// CHECK-NEXT: [[TMP9:%.]] = addrspacecast i32 [[TMP5]] to i32 addrspace(1)*, !dbg [[DBG313]]
		// CHECK-NEXT: [[TMP10:%.]] = addrspacecast [10 x [10 x i32]] [[TMP6]] to [10 x [10 x i32]] addrspace(1)*, !dbg [[DBG313]]
		// CHECK-NEXT: [[TMP11:%.]] = addrspacecast i8 [[TMP7]] to i8 addrspace(1)*, !dbg [[DBG313]]
		// CHECK-NEXT: call void @{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}_main_l41_debug__([10 x [10 x [10 x i32]]] addrspace(1)* [[TMP8]], i32 addrspace(1)* [[TMP9]], [10 x [10 x i32]] addrspace(1)* [[TMP10]], i8 addrspace(1)* [[TMP11]]) #[[ATTR4]], !dbg [[DBG313]]
		// CHECK-NEXT: ret void, !dbg [[DBG313]]
		//

llvm/include/llvm/Frontend/OpenMP/OMPKinds.def

Show First 20 Lines • Show All 408 Lines • ▼ Show 20 Lines	__OMP_RTL(__kmpc_task_allow_completion_event, false, VoidPtr, IdentPtr,
/* Int / Int32, / kmp_task_t */ VoidPtr)		/* Int / Int32, / kmp_task_t */ VoidPtr)

/// OpenMP Device runtime functions		/// OpenMP Device runtime functions
__OMP_RTL(__kmpc_kernel_init, false, Void, Int32, Int16)		__OMP_RTL(__kmpc_kernel_init, false, Void, Int32, Int16)
__OMP_RTL(__kmpc_kernel_deinit, false, Void, Int16)		__OMP_RTL(__kmpc_kernel_deinit, false, Void, Int16)
__OMP_RTL(__kmpc_spmd_kernel_init, false, Void, Int32, Int16)		__OMP_RTL(__kmpc_spmd_kernel_init, false, Void, Int32, Int16)
__OMP_RTL(__kmpc_spmd_kernel_deinit_v2, false, Void, Int16)		__OMP_RTL(__kmpc_spmd_kernel_deinit_v2, false, Void, Int16)
__OMP_RTL(__kmpc_kernel_prepare_parallel, false, Void, VoidPtr)		__OMP_RTL(__kmpc_kernel_prepare_parallel, false, Void, VoidPtr)
		__OMP_RTL(__kmpc_parallel_51, false, Void, IdentPtr, Int32, Int32, Int32, Int32,
		VoidPtr, VoidPtr, VoidPtrPtr, SizeTy)
__OMP_RTL(__kmpc_kernel_parallel, false, Int1, VoidPtrPtr)		__OMP_RTL(__kmpc_kernel_parallel, false, Int1, VoidPtrPtr)
__OMP_RTL(__kmpc_kernel_end_parallel, false, Void, )		__OMP_RTL(__kmpc_kernel_end_parallel, false, Void, )
__OMP_RTL(__kmpc_serialized_parallel, false, Void, IdentPtr, Int32)		__OMP_RTL(__kmpc_serialized_parallel, false, Void, IdentPtr, Int32)
__OMP_RTL(__kmpc_end_serialized_parallel, false, Void, IdentPtr, Int32)		__OMP_RTL(__kmpc_end_serialized_parallel, false, Void, IdentPtr, Int32)
__OMP_RTL(__kmpc_shuffle_int32, false, Int32, Int32, Int16, Int16)		__OMP_RTL(__kmpc_shuffle_int32, false, Int32, Int32, Int16, Int16)
__OMP_RTL(__kmpc_nvptx_parallel_reduce_nowait_v2, false, Int32, IdentPtr, Int32,		__OMP_RTL(__kmpc_nvptx_parallel_reduce_nowait_v2, false, Int32, IdentPtr, Int32,
Int32, SizeTy, VoidPtr, ShuffleReducePtr, InterWarpCopyPtr)		Int32, SizeTy, VoidPtr, ShuffleReducePtr, InterWarpCopyPtr)
__OMP_RTL(__kmpc_nvptx_end_reduce_nowait, false, Void, Int32)		__OMP_RTL(__kmpc_nvptx_end_reduce_nowait, false, Void, Int32)
▲ Show 20 Lines • Show All 737 Lines • Show Last 20 Lines

llvm/lib/Transforms/IPO/OpenMPOpt.cpp

Show First 20 Lines • Show All 1,645 Lines • ▼ Show 20 Lines	if (auto *Cmp = dyn_cast<ICmpInst>(U.getUser())) {
if (Cmp->isEquality())		if (Cmp->isEquality())
return getUniqueKernelFor(*Cmp);		return getUniqueKernelFor(*Cmp);
return nullptr;		return nullptr;
}		}
if (auto *CB = dyn_cast<CallBase>(U.getUser())) {		if (auto *CB = dyn_cast<CallBase>(U.getUser())) {
// Allow direct calls.		// Allow direct calls.
if (CB->isCallee(&U))		if (CB->isCallee(&U))
return getUniqueKernelFor(*CB);		return getUniqueKernelFor(*CB);
// Allow the use in __kmpc_kernel_prepare_parallel calls.
if (Function *Callee = CB->getCalledFunction())		OMPInformationCache::RuntimeFunctionInfo &KernelParallelRFI =
if (Callee->getName() == "__kmpc_kernel_prepare_parallel")		OMPInfoCache.RFIs[OMPRTL___kmpc_parallel_51];
		// Allow the use in __kmpc_parallel_51 calls.
		if (OpenMPOpt::getCallIfRegularCall(*U.getUser(), &KernelParallelRFI))
return getUniqueKernelFor(*CB);		return getUniqueKernelFor(*CB);
return nullptr;		return nullptr;
}		}
// Disallow every other use.		// Disallow every other use.
return nullptr;		return nullptr;
};		};

// TODO: In the future we want to track more than just a unique kernel.		// TODO: In the future we want to track more than just a unique kernel.
SmallPtrSet<Kernel, 2> PotentialKernels;		SmallPtrSet<Kernel, 2> PotentialKernels;
OMPInformationCache::foreachUse(F, [&](const Use &U) {		OMPInformationCache::foreachUse(F, [&](const Use &U) {
PotentialKernels.insert(GetUniqueKernelForUse(U));		PotentialKernels.insert(GetUniqueKernelForUse(U));
});		});

Kernel K = nullptr;		Kernel K = nullptr;
if (PotentialKernels.size() == 1)		if (PotentialKernels.size() == 1)
K = *PotentialKernels.begin();		K = *PotentialKernels.begin();

// Cache the result.		// Cache the result.
UniqueKernelMap[&F] = K;		UniqueKernelMap[&F] = K;

return K;		return K;
}		}

bool OpenMPOpt::rewriteDeviceCodeStateMachine() {		bool OpenMPOpt::rewriteDeviceCodeStateMachine() {
OMPInformationCache::RuntimeFunctionInfo &KernelPrepareParallelRFI =		OMPInformationCache::RuntimeFunctionInfo &KernelParallelRFI =
OMPInfoCache.RFIs[OMPRTL___kmpc_kernel_prepare_parallel];		OMPInfoCache.RFIs[OMPRTL___kmpc_parallel_51];

bool Changed = false;		bool Changed = false;
if (!KernelPrepareParallelRFI)		if (!KernelParallelRFI)
return Changed;		return Changed;

for (Function *F : SCC) {		for (Function *F : SCC) {

// Check if the function is uses in a __kmpc_kernel_prepare_parallel call at		// Check if the function is a use in a __kmpc_parallel_51 call at
// all.		// all.
bool UnknownUse = false;		bool UnknownUse = false;
bool KernelPrepareUse = false;		bool KernelParallelUse = false;
unsigned NumDirectCalls = 0;		unsigned NumDirectCalls = 0;

SmallVector<Use *, 2> ToBeReplacedStateMachineUses;		SmallVector<Use *, 2> ToBeReplacedStateMachineUses;
OMPInformationCache::foreachUse(*F, [&](Use &U) {		OMPInformationCache::foreachUse(*F, [&](Use &U) {
if (auto *CB = dyn_cast<CallBase>(U.getUser()))		if (auto *CB = dyn_cast<CallBase>(U.getUser()))
if (CB->isCallee(&U)) {		if (CB->isCallee(&U)) {
++NumDirectCalls;		++NumDirectCalls;
return;		return;
}		}

if (isa<ICmpInst>(U.getUser())) {		if (isa<ICmpInst>(U.getUser())) {
ToBeReplacedStateMachineUses.push_back(&U);		ToBeReplacedStateMachineUses.push_back(&U);
return;		return;
}		}
if (!KernelPrepareUse && OpenMPOpt::getCallIfRegularCall(
*U.getUser(), &KernelPrepareParallelRFI)) {		// Find wrapper functions that represent parallel kernels.
KernelPrepareUse = true;		CallInst *CI =
		OpenMPOpt::getCallIfRegularCall(*U.getUser(), &KernelParallelRFI);
		const unsigned int WrapperFunctionArgNo = 6;
		if (!KernelParallelUse && CI &&
		CI->getArgOperandNo(&U) == WrapperFunctionArgNo) {
		KernelParallelUse = true;
ToBeReplacedStateMachineUses.push_back(&U);		ToBeReplacedStateMachineUses.push_back(&U);
return;		return;
}		}
UnknownUse = true;		UnknownUse = true;
});		});

// Do not emit a remark if we haven't seen a __kmpc_kernel_prepare_parallel		// Do not emit a remark if we haven't seen a __kmpc_parallel_51
// use.		// use.
if (!KernelPrepareUse)		if (!KernelParallelUse)
continue;		continue;

{		{
auto Remark = [&](OptimizationRemark OR) {		auto Remark = [&](OptimizationRemark OR) {
return OR << "Found a parallel region that is called in a target "		return OR << "Found a parallel region that is called in a target "
"region but not part of a combined target construct nor "		"region but not part of a combined target construct nor "
"nesed inside a target construct without intermediate "		"nested inside a target construct without intermediate "
"code. This can lead to excessive register usage for "		"code. This can lead to excessive register usage for "
"unrelated target regions in the same translation unit "		"unrelated target regions in the same translation unit "
"due to spurious call edges assumed by ptxas.";		"due to spurious call edges assumed by ptxas.";
};		};
emitRemarkOnFunction(F, "OpenMPParallelRegionInNonSPMD", Remark);		emitRemarkOnFunction(F, "OpenMPParallelRegionInNonSPMD", Remark);
}		}

// If this ever hits, we should investigate.		// If this ever hits, we should investigate.
// TODO: Checking the number of uses is not a necessary restriction and		// TODO: Checking the number of uses is not a necessary restriction and
// should be lifted.		// should be lifted.
if (UnknownUse \|\| NumDirectCalls != 1 \|\|		if (UnknownUse \|\| NumDirectCalls != 1 \|\|
ToBeReplacedStateMachineUses.size() != 2) {		ToBeReplacedStateMachineUses.size() != 2) {
{		{
auto Remark = [&](OptimizationRemark OR) {		auto Remark = [&](OptimizationRemark OR) {
return OR << "Parallel region is used in "		return OR << "Parallel region is used in "
<< (UnknownUse ? "unknown" : "unexpected")		<< (UnknownUse ? "unknown" : "unexpected")
<< " ways; will not attempt to rewrite the state machine.";		<< " ways; will not attempt to rewrite the state machine.";
};		};
emitRemarkOnFunction(F, "OpenMPParallelRegionInNonSPMD", Remark);		emitRemarkOnFunction(F, "OpenMPParallelRegionInNonSPMD", Remark);
}		}
continue;		continue;
}		}

// Even if we have __kmpc_kernel_prepare_parallel calls, we (for now) give		// Even if we have __kmpc_parallel_51 calls, we (for now) give
// up if the function is not called from a unique kernel.		// up if the function is not called from a unique kernel.
Kernel K = getUniqueKernelFor(*F);		Kernel K = getUniqueKernelFor(*F);
if (!K) {		if (!K) {
{		{
auto Remark = [&](OptimizationRemark OR) {		auto Remark = [&](OptimizationRemark OR) {
return OR << "Parallel region is not known to be called from a "		return OR << "Parallel region is not known to be called from a "
"unique single target region, maybe the surrounding "		"unique single target region, maybe the surrounding "
"function has external linkage?; will not attempt to "		"function has external linkage?; will not attempt to "
▲ Show 20 Lines • Show All 751 Lines • Show Last 20 Lines

llvm/test/Transforms/OpenMP/gpu_state_machine_function_ptr_replacement.ll

	Show All 23 Lines
	; another kernel.			; another kernel.

	; CHECK-DAG: @__omp_outlined__1_wrapper.ID = private constant i8 undef			; CHECK-DAG: @__omp_outlined__1_wrapper.ID = private constant i8 undef
	; CHECK-DAG: @__omp_outlined__3_wrapper.ID = private constant i8 undef			; CHECK-DAG: @__omp_outlined__3_wrapper.ID = private constant i8 undef

	; CHECK-DAG: icmp eq i8* %5, @__omp_outlined__1_wrapper.ID			; CHECK-DAG: icmp eq i8* %5, @__omp_outlined__1_wrapper.ID
	; CHECK-DAG: icmp eq i8* %7, @__omp_outlined__3_wrapper.ID			; CHECK-DAG: icmp eq i8* %7, @__omp_outlined__3_wrapper.ID

	; CHECK-DAG: call void @__kmpc_kernel_prepare_parallel(i8* @__omp_outlined__1_wrapper.ID)			; CHECK-DAG: call void @__kmpc_parallel_51(%struct.ident_t* @1, i32 %1, i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__1 to i8), i8 @__omp_outlined__1_wrapper.ID, i8** %2, i64 0)
	; CHECK-DAG: call void @__kmpc_kernel_prepare_parallel(i8* bitcast (void ()* @__omp_outlined__2_wrapper to i8*))			; CHECK-DAG: call void @__kmpc_parallel_51(%struct.ident_t* @1, i32 %0, i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__2 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__2_wrapper to i8), i8* %1, i64 0)
	; CHECK-DAG: call void @__kmpc_kernel_prepare_parallel(i8* @__omp_outlined__3_wrapper.ID)			; CHECK-DAG: call void @__kmpc_parallel_51(%struct.ident_t* @1, i32 %1, i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__3 to i8), i8 @__omp_outlined__3_wrapper.ID, i8** %3, i64 0)


	%struct.ident_t = type { i32, i32, i32, i32, i8* }			%struct.ident_t = type { i32, i32, i32, i32, i8* }

	define internal void @__omp_offloading_35_a1e179_foo_l7_worker() {			@0 = private unnamed_addr constant [23 x i8] c";unknown;unknown;0;0;;\00", align 1
				@1 = private unnamed_addr constant %struct.ident_t { i32 0, i32 2, i32 0, i32 0, i8* getelementptr inbounds ([23 x i8], [23 x i8]* @0, i32 0, i32 0) }, align 8

				define internal void @__omp_offloading_50_6dfa0f01_foo_l6_worker() {
	entry:			entry:
	%work_fn = alloca i8*, align 8			%work_fn = alloca i8*, align 8
	%exec_status = alloca i8, align 1			%exec_status = alloca i8, align 1
	store i8* null, i8** %work_fn, align 8			store i8* null, i8** %work_fn, align 8
	store i8 0, i8* %exec_status, align 1			store i8 0, i8* %exec_status, align 1
	br label %.await.work			br label %.await.work

	.await.work: ; preds = %.barrier.parallel, %entry			.await.work: ; preds = %.barrier.parallel, %entry
	call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)			call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	%0 = call i1 @__kmpc_kernel_parallel(i8** %work_fn)			%0 = call i1 @__kmpc_kernel_parallel(i8** %work_fn)
	%1 = zext i1 %0 to i8			%1 = zext i1 %0 to i8
	store i8 %1, i8* %exec_status, align 1			store i8 %1, i8* %exec_status, align 1
	%2 = load i8, i8* %work_fn, align 8			%2 = load i8, i8* %work_fn, align 8
	%should_terminate = icmp eq i8* %2, null			%should_terminate = icmp eq i8* %2, null
	br i1 %should_terminate, label %.exit, label %.select.workers			br i1 %should_terminate, label %.exit, label %.select.workers

	.select.workers: ; preds = %.await.work			.select.workers: ; preds = %.await.work
	%3 = load i8, i8* %exec_status, align 1			%3 = load i8, i8* %exec_status, align 1
	%is_active = icmp ne i8 %3, 0			%is_active = icmp ne i8 %3, 0
	br i1 %is_active, label %.execute.parallel, label %.barrier.parallel			br i1 %is_active, label %.execute.parallel, label %.barrier.parallel

	.execute.parallel: ; preds = %.select.workers			.execute.parallel: ; preds = %.select.workers
	%4 = call i32 @__kmpc_global_thread_num(%struct.ident_t* null)			%4 = call i32 @__kmpc_global_thread_num(%struct.ident_t* @1)
	%5 = load i8, i8* %work_fn, align 8			%5 = load i8, i8* %work_fn, align 8
	%work_match = icmp eq i8* %5, bitcast (void ()* @__omp_outlined__1_wrapper to i8*)			%work_match = icmp eq i8* %5, bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8*)
	br i1 %work_match, label %.execute.fn, label %.check.next			br i1 %work_match, label %.execute.fn, label %.check.next

	.execute.fn: ; preds = %.execute.parallel			.execute.fn: ; preds = %.execute.parallel
	call void @__omp_outlined__1_wrapper()			call void @__omp_outlined__1_wrapper(i16 0, i32 %4)
	br label %.terminate.parallel			br label %.terminate.parallel

	.check.next: ; preds = %.execute.parallel			.check.next: ; preds = %.execute.parallel
	%6 = load i8, i8* %work_fn, align 8			%6 = load i8, i8* %work_fn, align 8
	%work_match1 = icmp eq i8* %6, bitcast (void ()* @__omp_outlined__2_wrapper to i8*)			%work_match1 = icmp eq i8* %6, bitcast (void (i16, i32)* @__omp_outlined__2_wrapper to i8*)
	br i1 %work_match1, label %.execute.fn2, label %.check.next3			br i1 %work_match1, label %.execute.fn2, label %.check.next3

	.execute.fn2: ; preds = %.check.next			.execute.fn2: ; preds = %.check.next
	call void @__omp_outlined__2_wrapper()			call void @__omp_outlined__2_wrapper(i16 0, i32 %4)
	br label %.terminate.parallel			br label %.terminate.parallel

	.check.next3: ; preds = %.check.next			.check.next3: ; preds = %.check.next
	%7 = load i8, i8* %work_fn, align 8			%7 = load i8, i8* %work_fn, align 8
	%work_match4 = icmp eq i8* %7, bitcast (void ()* @__omp_outlined__3_wrapper to i8*)			%work_match4 = icmp eq i8* %7, bitcast (void (i16, i32)* @__omp_outlined__3_wrapper to i8*)
	br i1 %work_match4, label %.execute.fn5, label %.check.next6			br i1 %work_match4, label %.execute.fn5, label %.check.next6

	.execute.fn5: ; preds = %.check.next3			.execute.fn5: ; preds = %.check.next3
	call void @__omp_outlined__3_wrapper()			call void @__omp_outlined__3_wrapper(i16 0, i32 %4)
	br label %.terminate.parallel			br label %.terminate.parallel

	.check.next6: ; preds = %.check.next3			.check.next6: ; preds = %.check.next3
	%8 = bitcast i8* %2 to void ()*			%8 = bitcast i8* %2 to void (i16, i32)*
	call void %8()			call void %8(i16 0, i32 %4)
	br label %.terminate.parallel			br label %.terminate.parallel

	.terminate.parallel: ; preds = %.check.next6, %.execute.fn5, %.execute.fn2, %.execute.fn			.terminate.parallel: ; preds = %.check.next6, %.execute.fn5, %.execute.fn2, %.execute.fn
	call void @__kmpc_kernel_end_parallel()			call void @__kmpc_kernel_end_parallel()
	br label %.barrier.parallel			br label %.barrier.parallel

	.barrier.parallel: ; preds = %.terminate.parallel, %.select.workers			.barrier.parallel: ; preds = %.terminate.parallel, %.select.workers
	call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)			call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
	br label %.await.work			br label %.await.work

	.exit: ; preds = %.await.work			.exit: ; preds = %.await.work
	ret void			ret void
	}			}

	define weak void @__omp_offloading_35_a1e179_foo_l7() {			define weak void @__omp_offloading_50_6dfa0f01_foo_l6() {
	call void @__omp_offloading_35_a1e179_foo_l7_worker()			entry:
	call void @__omp_outlined__()			%.zero.addr = alloca i32, align 4
				%.threadid_temp. = alloca i32, align 4
				store i32 0, i32* %.zero.addr, align 4
				%nvptx_tid = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				%nvptx_num_threads = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				%nvptx_warp_size = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				%thread_limit = sub nuw i32 %nvptx_num_threads, %nvptx_warp_size
				%0 = icmp ult i32 %nvptx_tid, %thread_limit
				br i1 %0, label %.worker, label %.mastercheck

				.worker: ; preds = %entry
				call void @__omp_offloading_50_6dfa0f01_foo_l6_worker()
				br label %.exit

				.mastercheck: ; preds = %entry
				%nvptx_tid1 = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()
				%nvptx_num_threads2 = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				%nvptx_warp_size3 = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				%1 = sub nuw i32 %nvptx_warp_size3, 1
				%2 = sub nuw i32 %nvptx_num_threads2, 1
				%3 = xor i32 %1, -1
				%master_tid = and i32 %2, %3
				%4 = icmp eq i32 %nvptx_tid1, %master_tid
				br i1 %4, label %.master, label %.exit

				.master: ; preds = %.mastercheck
				%nvptx_num_threads4 = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
				%nvptx_warp_size5 = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
				%thread_limit6 = sub nuw i32 %nvptx_num_threads4, %nvptx_warp_size5
				call void @__kmpc_kernel_init(i32 %thread_limit6, i16 1)
				call void @__kmpc_data_sharing_init_stack()
				%5 = call i32 @__kmpc_global_thread_num(%struct.ident_t* @1)
				store i32 %5, i32* %.threadid_temp., align 4
				call void @__omp_outlined__(i32* %.threadid_temp., i32* %.zero.addr)
				br label %.termination.notifier

				.termination.notifier: ; preds = %.master
				call void @__kmpc_kernel_deinit(i16 1)
				call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
				br label %.exit

				.exit: ; preds = %.termination.notifier, %.mastercheck, %.worker
	ret void			ret void
	}			}

	define internal void @__omp_outlined__() {			declare i32 @llvm.nvvm.read.ptx.sreg.tid.x()
	call void @__kmpc_kernel_prepare_parallel(i8* bitcast (void ()* @__omp_outlined__1_wrapper to i8*))
				declare i32 @llvm.nvvm.read.ptx.sreg.ntid.x()

				declare i32 @llvm.nvvm.read.ptx.sreg.warpsize()

				declare void @__kmpc_kernel_init(i32, i16)

				declare void @__kmpc_data_sharing_init_stack()

				define internal void @__omp_outlined__(i32* noalias %.global_tid., i32* noalias %.bound_tid.) {
				entry:
				%.global_tid..addr = alloca i32*, align 8
				%.bound_tid..addr = alloca i32*, align 8
				%captured_vars_addrs = alloca [0 x i8*], align 8
				%captured_vars_addrs1 = alloca [0 x i8*], align 8
				store i32* %.global_tid., i32** %.global_tid..addr, align 8
				store i32* %.bound_tid., i32** %.bound_tid..addr, align 8
				%0 = load i32, i32* %.global_tid..addr, align 8
				%1 = load i32, i32* %0, align 4
				%2 = bitcast [0 x i8] %captured_vars_addrs to i8**
				call void @__kmpc_parallel_51(%struct.ident_t* @1, i32 %1, i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__1 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8), i8* %2, i64 0)
	call void @bar()			call void @bar()
	call void @__kmpc_kernel_prepare_parallel(i8* bitcast (void ()* @__omp_outlined__3_wrapper to i8*))			%3 = bitcast [0 x i8] %captured_vars_addrs1 to i8**
				call void @__kmpc_parallel_51(%struct.ident_t* @1, i32 %1, i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__3 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__3_wrapper to i8), i8* %3, i64 0)
	ret void			ret void
	}			}

	define internal void @__omp_outlined__1() {			define internal void @__omp_outlined__1(i32* noalias %.global_tid., i32* noalias %.bound_tid.) {
				entry:
				%.global_tid..addr = alloca i32*, align 8
				%.bound_tid..addr = alloca i32*, align 8
				store i32* %.global_tid., i32** %.global_tid..addr, align 8
				store i32* %.bound_tid., i32** %.bound_tid..addr, align 8
	ret void			ret void
	}			}

	define internal void @__omp_outlined__1_wrapper() {			define internal void @__omp_outlined__1_wrapper(i16 zeroext %0, i32 %1) {
	call void @__omp_outlined__1()			entry:
				%.addr = alloca i16, align 2
				%.addr1 = alloca i32, align 4
				%.zero.addr = alloca i32, align 4
				%global_args = alloca i8**, align 8
				store i32 0, i32* %.zero.addr, align 4
				store i16 %0, i16* %.addr, align 2
				store i32 %1, i32* %.addr1, align 4
				call void @__kmpc_get_shared_variables(i8*** %global_args)
				call void @__omp_outlined__1(i32* %.addr1, i32* %.zero.addr)
	ret void			ret void
	}			}

				declare void @__kmpc_get_shared_variables(i8***)

				declare void @__kmpc_parallel_51(%struct.ident_t, i32, i32, i32, i32, i8, i8, i8*, i64)

	define hidden void @bar() {			define hidden void @bar() {
	call void @__kmpc_kernel_prepare_parallel(i8* bitcast (void ()* @__omp_outlined__2_wrapper to i8*))			entry:
				%captured_vars_addrs = alloca [0 x i8*], align 8
				%0 = call i32 @__kmpc_global_thread_num(%struct.ident_t* @1)
				%1 = bitcast [0 x i8] %captured_vars_addrs to i8**
				call void @__kmpc_parallel_51(%struct.ident_t* @1, i32 %0, i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__2 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__2_wrapper to i8), i8* %1, i64 0)
	ret void			ret void
	}			}

	define internal void @__omp_outlined__2_wrapper() {			define internal void @__omp_outlined__2(i32* noalias %.global_tid., i32* noalias %.bound_tid.) {
				entry:
				%.global_tid..addr = alloca i32*, align 8
				%.bound_tid..addr = alloca i32*, align 8
				store i32* %.global_tid., i32** %.global_tid..addr, align 8
				store i32* %.bound_tid., i32** %.bound_tid..addr, align 8
				ret void
				}

				define internal void @__omp_outlined__2_wrapper(i16 zeroext %0, i32 %1) {
				entry:
				%.addr = alloca i16, align 2
				%.addr1 = alloca i32, align 4
				%.zero.addr = alloca i32, align 4
				%global_args = alloca i8**, align 8
				store i32 0, i32* %.zero.addr, align 4
				store i16 %0, i16* %.addr, align 2
				store i32 %1, i32* %.addr1, align 4
				call void @__kmpc_get_shared_variables(i8*** %global_args)
				call void @__omp_outlined__2(i32* %.addr1, i32* %.zero.addr)
	ret void			ret void
	}			}

	define internal void @__omp_outlined__3_wrapper() {			declare i32 @__kmpc_global_thread_num(%struct.ident_t*)

				define internal void @__omp_outlined__3(i32* noalias %.global_tid., i32* noalias %.bound_tid.) {
				entry:
				%.global_tid..addr = alloca i32*, align 8
				%.bound_tid..addr = alloca i32*, align 8
				store i32* %.global_tid., i32** %.global_tid..addr, align 8
				store i32* %.bound_tid., i32** %.bound_tid..addr, align 8
	ret void			ret void
	}			}

	declare void @__kmpc_kernel_prepare_parallel(i8* %WorkFn)			define internal void @__omp_outlined__3_wrapper(i16 zeroext %0, i32 %1) {
				entry:
				%.addr = alloca i16, align 2
				%.addr1 = alloca i32, align 4
				%.zero.addr = alloca i32, align 4
				%global_args = alloca i8**, align 8
				store i32 0, i32* %.zero.addr, align 4
				store i16 %0, i16* %.addr, align 2
				store i32 %1, i32* %.addr1, align 4
				call void @__kmpc_get_shared_variables(i8*** %global_args)
				call void @__omp_outlined__3(i32* %.addr1, i32* %.zero.addr)
				ret void
				}

	declare zeroext i1 @__kmpc_kernel_parallel(i8** nocapture %WorkFn)			declare void @__kmpc_kernel_deinit(i16)

	declare void @__kmpc_kernel_end_parallel()			declare void @__kmpc_barrier_simple_spmd(%struct.ident_t*, i32)

	declare void @__kmpc_barrier_simple_spmd(%struct.ident_t* nocapture readonly %loc_ref, i32 %tid)			declare i1 @__kmpc_kernel_parallel(i8**)

	declare i32 @__kmpc_global_thread_num(%struct.ident_t* nocapture readonly)			declare void @__kmpc_kernel_end_parallel()


	!nvvm.annotations = !{!0}			!nvvm.annotations = !{!1}

	!0 = !{void ()* @__omp_offloading_35_a1e179_foo_l7, !"kernel", i32 1}			!1 = !{void ()* @__omp_offloading_50_6dfa0f01_foo_l6, !"kernel", i32 1}

openmp/libomptarget/deviceRTLs/common/generated_microtask_cases.gen

This file was added.

				case 0:
				JonChesterfieldUnsubmitted Not Done Reply Inline Actions This is not very pretty. Why do we need runtime dispatch to a function pointer? JonChesterfield: This is not very pretty. Why do we need runtime dispatch to a function pointer?
				jdoerfertUnsubmitted Not Done Reply Inline Actions because we have variadic functions right now. A patch to remove this is already underway: https://reviews.llvm.org/D102107 jdoerfert: because we have variadic functions right now. A patch to remove this is already underway…
				((void ()(kmp_int32 , kmp_int32 *
				))fn)(&global_tid, &bound_tid
				);
				break;
				case 1:
				((void ()(kmp_int32 , kmp_int32 *
				, void *))fn)(&global_tid, &bound_tid
				, args[0]);
				break;
				case 2:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void ))fn)(&global_tid, &bound_tid
				, args[0], args[1]);
				break;
				case 3:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void *))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2]);
				break;
				case 4:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				);
				break;
				case 5:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void *))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4]);
				break;
				case 6:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void ))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5]);
				break;
				case 7:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void *))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6]);
				break;
				case 8:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				);
				break;
				case 9:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void *))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8]);
				break;
				case 10:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void ))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9]);
				break;
				case 11:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void *))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10]);
				break;
				case 12:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				);
				break;
				case 13:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void *))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				, args[12]);
				break;
				case 14:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void ))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				, args[12], args[13]);
				break;
				case 15:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void *))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				, args[12], args[13], args[14]);
				break;
				case 16:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				, args[12], args[13], args[14], args[15]
				);
				break;
				case 17:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void *))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				, args[12], args[13], args[14], args[15]
				, args[16]);
				break;
				case 18:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void ))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				, args[12], args[13], args[14], args[15]
				, args[16], args[17]);
				break;
				case 19:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void *))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				, args[12], args[13], args[14], args[15]
				, args[16], args[17], args[18]);
				break;
				case 20:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				, args[12], args[13], args[14], args[15]
				, args[16], args[17], args[18], args[19]
				);
				break;
				case 21:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void *))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				, args[12], args[13], args[14], args[15]
				, args[16], args[17], args[18], args[19]
				, args[20]);
				break;
				case 22:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void ))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				, args[12], args[13], args[14], args[15]
				, args[16], args[17], args[18], args[19]
				, args[20], args[21]);
				break;
				case 23:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void *))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				, args[12], args[13], args[14], args[15]
				, args[16], args[17], args[18], args[19]
				, args[20], args[21], args[22]);
				break;
				case 24:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				, args[12], args[13], args[14], args[15]
				, args[16], args[17], args[18], args[19]
				, args[20], args[21], args[22], args[23]
				);
				break;
				case 25:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void *))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				, args[12], args[13], args[14], args[15]
				, args[16], args[17], args[18], args[19]
				, args[20], args[21], args[22], args[23]
				, args[24]);
				break;
				case 26:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void ))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				, args[12], args[13], args[14], args[15]
				, args[16], args[17], args[18], args[19]
				, args[20], args[21], args[22], args[23]
				, args[24], args[25]);
				break;
				case 27:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void *))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				, args[12], args[13], args[14], args[15]
				, args[16], args[17], args[18], args[19]
				, args[20], args[21], args[22], args[23]
				, args[24], args[25], args[26]);
				break;
				case 28:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				, args[12], args[13], args[14], args[15]
				, args[16], args[17], args[18], args[19]
				, args[20], args[21], args[22], args[23]
				, args[24], args[25], args[26], args[27]
				);
				break;
				case 29:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void *))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				, args[12], args[13], args[14], args[15]
				, args[16], args[17], args[18], args[19]
				, args[20], args[21], args[22], args[23]
				, args[24], args[25], args[26], args[27]
				, args[28]);
				break;
				case 30:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void ))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				, args[12], args[13], args[14], args[15]
				, args[16], args[17], args[18], args[19]
				, args[20], args[21], args[22], args[23]
				, args[24], args[25], args[26], args[27]
				, args[28], args[29]);
				break;
				case 31:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void *))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				, args[12], args[13], args[14], args[15]
				, args[16], args[17], args[18], args[19]
				, args[20], args[21], args[22], args[23]
				, args[24], args[25], args[26], args[27]
				, args[28], args[29], args[30]);
				break;
				case 32:
				((void ()(kmp_int32 , kmp_int32 *
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				, void , void , void , void
				))fn)(&global_tid, &bound_tid
				, args[0], args[1], args[2], args[3]
				, args[4], args[5], args[6], args[7]
				, args[8], args[9], args[10], args[11]
				, args[12], args[13], args[14], args[15]
				, args[16], args[17], args[18], args[19]
				, args[20], args[21], args[22], args[23]
				, args[24], args[25], args[26], args[27]
				, args[28], args[29], args[30], args[31]
				);
				break;
				No newline at end of file

openmp/libomptarget/deviceRTLs/common/src/omptarget.cu

Show First 20 Lines • Show All 82 Lines • ▼ Show 20 Lines	EXTERN void __kmpc_spmd_kernel_init(int ThreadLimit,
int16_t RequiresOMPRuntime) {		int16_t RequiresOMPRuntime) {
PRINT0(LD_IO, "call to __kmpc_spmd_kernel_init\n");		PRINT0(LD_IO, "call to __kmpc_spmd_kernel_init\n");

setExecutionParameters(Spmd, RequiresOMPRuntime ? RuntimeInitialized		setExecutionParameters(Spmd, RequiresOMPRuntime ? RuntimeInitialized
: RuntimeUninitialized);		: RuntimeUninitialized);
int threadId = GetThreadIdInBlock();		int threadId = GetThreadIdInBlock();
if (threadId == 0) {		if (threadId == 0) {
usedSlotIdx = __kmpc_impl_smid() % MAX_SM;		usedSlotIdx = __kmpc_impl_smid() % MAX_SM;
parallelLevel[0] =
1 + (GetNumberOfThreadsInBlock() > 1 ? OMP_ACTIVE_PARALLEL_LEVEL : 0);
} else if (GetLaneId() == 0) {
parallelLevel[GetWarpId()] =
1 + (GetNumberOfThreadsInBlock() > 1 ? OMP_ACTIVE_PARALLEL_LEVEL : 0);
}		}
if (!RequiresOMPRuntime) {		if (!RequiresOMPRuntime) {
// Runtime is not required - exit.		// Runtime is not required - exit.
__kmpc_impl_syncthreads();		__kmpc_impl_syncthreads();
return;		return;
}		}

//		//
▲ Show 20 Lines • Show All 60 Lines • Show Last 20 Lines

openmp/libomptarget/deviceRTLs/common/src/parallel.cu

Show First 20 Lines • Show All 148 Lines • ▼ Show 20 Lines omptarget_nvptx_threadPrivateContext->SetTopLevelTaskDescr(threadId,

newTaskDescr); newTaskDescr);

// init private from int value // init private from int value

PRINT(LD_PAR, PRINT(LD_PAR,

"thread will execute parallel region with id %d in a team of " "thread will execute parallel region with id %d in a team of "

"%d threads\n", "%d threads\n",

(int)newTaskDescr->ThreadId(), (int)nThreads); (int)newTaskDescr->ThreadId(), (int)nThreads);

isActive = true; isActive = true;

// Reconverge the threads at the end of the parallel region to correctly

// handle parallel levels.

// In Cuda9+ in non-SPMD mode we have either 1 worker thread or the whole

// warp. If only 1 thread is active, not need to reconverge the threads.

// If we have the whole warp, reconverge all the threads in the warp before

// actually trying to change the parallel level. Otherwise, parallel level

// can be changed incorrectly because of threads divergence.

bool IsActiveParallelRegion = threadsInTeam != 1;

IncParallelLevel(IsActiveParallelRegion,

IsActiveParallelRegion ? __kmpc_impl_all_lanes : 1u);

} }

return isActive; return isActive;

} }

EXTERN void __kmpc_kernel_end_parallel() { EXTERN void __kmpc_kernel_end_parallel() {

// pop stack // pop stack

PRINT0(LD_IO | LD_PAR, "call to __kmpc_kernel_end_parallel\n"); PRINT0(LD_IO | LD_PAR, "call to __kmpc_kernel_end_parallel\n");

ASSERT0(LT_FUSSY, isRuntimeInitialized(), "Expected initialized runtime."); ASSERT0(LT_FUSSY, isRuntimeInitialized(), "Expected initialized runtime.");

// Only the worker threads call this routine and the master warp // Only the worker threads call this routine and the master warp

// never arrives here. Therefore, use the nvptx thread id. // never arrives here. Therefore, use the nvptx thread id.

int threadId = GetThreadIdInBlock(); int threadId = GetThreadIdInBlock();

omptarget_nvptx_TaskDescr *currTaskDescr = getMyTopTaskDescriptor(threadId); omptarget_nvptx_TaskDescr *currTaskDescr = getMyTopTaskDescriptor(threadId);

omptarget_nvptx_threadPrivateContext->SetTopLevelTaskDescr( omptarget_nvptx_threadPrivateContext->SetTopLevelTaskDescr(

threadId, currTaskDescr->GetPrevTaskDescr()); threadId, currTaskDescr->GetPrevTaskDescr());

// Reconverge the threads at the end of the parallel region to correctly

// handle parallel levels.

// In Cuda9+ in non-SPMD mode we have either 1 worker thread or the whole

// warp. If only 1 thread is active, not need to reconverge the threads.

// If we have the whole warp, reconverge all the threads in the warp before

// actually trying to change the parallel level. Otherwise, parallel level can

// be changed incorrectly because of threads divergence.

bool IsActiveParallelRegion = threadsInTeam != 1;

DecParallelLevel(IsActiveParallelRegion,

IsActiveParallelRegion ? __kmpc_impl_all_lanes : 1u);

} }

//////////////////////////////////////////////////////////////////////////////// ////////////////////////////////////////////////////////////////////////////////

// support for parallel that goes sequential // support for parallel that goes sequential

//////////////////////////////////////////////////////////////////////////////// ////////////////////////////////////////////////////////////////////////////////

EXTERN void __kmpc_serialized_parallel(kmp_Ident *loc, uint32_t global_tid) { EXTERN void __kmpc_serialized_parallel(kmp_Ident *loc, uint32_t global_tid) {

PRINT0(LD_IO, "call to __kmpc_serialized_parallel\n"); PRINT0(LD_IO, "call to __kmpc_serialized_parallel\n");

▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines EXTERN void __kmpc_push_num_teams(kmp_Ident *loc, int32_t tid,

PRINT(LD_IO, "call kmpc_push_num_teams %d\n", (int)num_teams); PRINT(LD_IO, "call kmpc_push_num_teams %d\n", (int)num_teams);

ASSERT0(LT_FUSSY, 0, "should never have anything with new teams on device"); ASSERT0(LT_FUSSY, 0, "should never have anything with new teams on device");

} }

EXTERN void __kmpc_push_proc_bind(kmp_Ident *loc, uint32_t tid, int proc_bind) { EXTERN void __kmpc_push_proc_bind(kmp_Ident *loc, uint32_t tid, int proc_bind) {

PRINT(LD_IO, "call kmpc_push_proc_bind %d\n", (int)proc_bind); PRINT(LD_IO, "call kmpc_push_proc_bind %d\n", (int)proc_bind);

} }

////////////////////////////////////////////////////////////////////////////////

// parallel interface

////////////////////////////////////////////////////////////////////////////////

EXTERN void __kmpc_parallel_51(kmp_Ident *ident, kmp_int32 global_tid,

kmp_int32 if_expr, kmp_int32 num_threads,

int proc_bind, void *fn, void *wrapper_fn,

void **args, size_t nargs) {

// Handle the serialized case first, same for SPMD/non-SPMD.

// TODO: Add UNLIKELY to optimize?

bool InParallelRegion = (__kmpc_parallel_level(ident, global_tid) > 0);

jdoerfertUnsubmitted

Done

// TODO: Add UNLIKELY to optimize?

- if (!if_expr) {

+ if (!if_expr || currTaskDescr->InParallelRegion()) {

__kmpc_serialized_parallel(ident, global_tid);

This should allow us to remove the SeqGen in the Clang CodeGen *and* fix PR49777 *and* fix PR49779, a win-win-win situation.

jdoerfert: This should allow us to remove the `SeqGen` in the Clang CodeGen *and* fix PR49777 *and* fix…

ggeorgakoudisAuthorUnsubmitted

Done

Please check

ggeorgakoudis: Please check

jdoerfertUnsubmitted

Done

Check? Can we add the two reproducers as tests, please. One should be a clang test, the other maybe a runtime test, though clang test might suffice.

jdoerfert: Check? Can we add the two reproducers as tests, please. One should be a clang test, the other…

ggeorgakoudisAuthorUnsubmitted

Done

Ack, will do

ggeorgakoudis: Ack, will do

if (!if_expr || InParallelRegion) {

__kmpc_serialized_parallel(ident, global_tid);

__kmp_invoke_microtask(global_tid, 0, fn, args, nargs);

__kmpc_end_serialized_parallel(ident, global_tid);

return;

}

if (__kmpc_is_spmd_exec_mode()) {

// Increment parallel level for SPMD warps.

if (GetLaneId() == 0)

parallelLevel[GetWarpId()] =

1 + (GetNumberOfThreadsInBlock() > 1 ? OMP_ACTIVE_PARALLEL_LEVEL : 0);

// TODO: Is that synchronization correct/needed? Can only using a memory

// fence ensure consistency?

__kmpc_impl_syncthreads();

__kmp_invoke_microtask(global_tid, 0, fn, args, nargs);

// Decrement (zero out) parallel level for SPMD warps.

if (GetLaneId() == 0)

parallelLevel[GetWarpId()] = 0;

return;

}

// Handle the num_threads clause.

if (num_threads != -1)

__kmpc_push_num_threads(ident, global_tid, num_threads);

__kmpc_kernel_prepare_parallel((void *)wrapper_fn);

if (nargs) {

void **GlobalArgs;

__kmpc_begin_sharing_variables(&GlobalArgs, nargs);

// TODO: faster memcpy?

for (int I = 0; I < nargs; I++)

GlobalArgs[I] = args[I];

}

// TODO: what if that's a parallel region with a single thread? this is

// considered not active in the existing implementation.

bool IsActiveParallelRegion = threadsInTeam != 1;

int NumWarps =

threadsInTeam / WARPSIZE + ((threadsInTeam % WARPSIZE) ? 1 : 0);

// Increment parallel level for non-SPMD warps.

for (int I = 0; I < NumWarps; ++I)

parallelLevel[I] +=

(1 + (IsActiveParallelRegion ? OMP_ACTIVE_PARALLEL_LEVEL : 0));

// Master signals work to activate workers.

__kmpc_barrier_simple_spmd(nullptr, 0);

// OpenMP [2.5, Parallel Construct, p.49]

// There is an implied barrier at the end of a parallel region. After the

// end of a parallel region, only the master thread of the team resumes

// execution of the enclosing task region.

// The master waits at this barrier until all workers are done.

__kmpc_barrier_simple_spmd(nullptr, 0);

// Decrement parallel level for non-SPMD warps.

for (int I = 0; I < NumWarps; ++I)

parallelLevel[I] -=

(1 + (IsActiveParallelRegion ? OMP_ACTIVE_PARALLEL_LEVEL : 0));

// TODO: Is synchronization needed since out of parallel execution?

if (nargs)

__kmpc_end_sharing_variables();

// TODO: proc_bind is a noop?

// if (proc_bind != proc_bind_default)

// __kmpc_push_proc_bind(ident, global_tid, proc_bind);

}

jdoerfertUnsubmitted

Done

FWIW, The implementation here is a stopgap until we move to the new runtime. The codegen and interface are the important parts.

jdoerfert: FWIW, The implementation here is a stopgap until we move to the new runtime. The codegen and…

#pragma omp end declare target #pragma omp end declare target

openmp/libomptarget/deviceRTLs/common/src/support.cu

	Show First 20 Lines • Show All 259 Lines • ▼ Show 20 Lines
	unsigned int *GetTeamsReductionTimestamp() {			unsigned int *GetTeamsReductionTimestamp() {
	return static_cast<unsigned int *>(ReductionScratchpadPtr);			return static_cast<unsigned int *>(ReductionScratchpadPtr);
	}			}

	char *GetTeamsReductionScratchpad() {			char *GetTeamsReductionScratchpad() {
	return static_cast<char *>(ReductionScratchpadPtr) + 256;			return static_cast<char *>(ReductionScratchpadPtr) + 256;
	}			}

				// Invoke an outlined parallel function unwrapping arguments (up
				// to 32).
				void __kmp_invoke_microtask(kmp_int32 global_tid, kmp_int32 bound_tid, void *fn,
				void **args, size_t nargs) {
				switch (nargs) {
				#include "common/generated_microtask_cases.gen"
				default:
				printf("Too many arguments in kmp_invoke_microtask, aborting execution.\n");
				__builtin_trap();
				}
				}

	#pragma omp end declare target			#pragma omp end declare target
				jdoerfertUnsubmitted Done Reply Inline Actions Not a return but a `__builtin_trap()`, please. We also need this for more than 16 unfortunately, I've seen 20 in miniqmc. We might want to create a script to print the cases, and then generate 128 or something like that in a file we include. The script can be in the utils folder too. jdoerfert: Not a return but a `__builtin_trap()`, please. We also need this for more than 16 unfortunately…

openmp/libomptarget/deviceRTLs/common/support.h

Show First 20 Lines • Show All 89 Lines • ▼ Show 20 Lines	#define SUB_BYTES(_addr, _bytes) \
((void )((char )((void *)(_addr)) - (_bytes)))		((void )((char )((void *)(_addr)) - (_bytes)))

////////////////////////////////////////////////////////////////////////////////		////////////////////////////////////////////////////////////////////////////////
// Teams Reduction Scratchpad Helpers		// Teams Reduction Scratchpad Helpers
////////////////////////////////////////////////////////////////////////////////		////////////////////////////////////////////////////////////////////////////////
unsigned int *GetTeamsReductionTimestamp();		unsigned int *GetTeamsReductionTimestamp();
char *GetTeamsReductionScratchpad();		char *GetTeamsReductionScratchpad();

		// Invoke an outlined parallel function unwrapping global, shared arguments (up
		// to 128).
		void __kmp_invoke_microtask(kmp_int32 global_tid, kmp_int32 bound_tid, void *fn,
		void **args, size_t nargs);

#endif		#endif

openmp/libomptarget/deviceRTLs/interface.h

Show First 20 Lines • Show All 171 Lines • ▼ Show 20 Lines	enum {
KMP_IDENT_SIMPLE_RT_MODE = 0x02,		KMP_IDENT_SIMPLE_RT_MODE = 0x02,
};		};

/*!		/*!
* The ident structure that describes a source location.		* The ident structure that describes a source location.
* The struct is identical to the one in the kmp.h file.		* The struct is identical to the one in the kmp.h file.
* We maintain the same data structure for compatibility.		* We maintain the same data structure for compatibility.
*/		*/
		typedef short kmp_int16;
typedef int kmp_int32;		typedef int kmp_int32;
typedef struct ident {		typedef struct ident {
kmp_int32 reserved_1; /*< might be used in Fortran; see above /		kmp_int32 reserved_1; /*< might be used in Fortran; see above /
kmp_int32 flags; /**< also f.flags; KMP_IDENT_xxx flags; KMP_IDENT_KMPC		kmp_int32 flags; /**< also f.flags; KMP_IDENT_xxx flags; KMP_IDENT_KMPC
identifies this union member */		identifies this union member */
kmp_int32 reserved_2; /*< not really used in Fortran any more; see above /		kmp_int32 reserved_2; /*< not really used in Fortran any more; see above /
kmp_int32 reserved_3; /*< source[4] in Fortran, do not use for C++ /		kmp_int32 reserved_3; /*< source[4] in Fortran, do not use for C++ /
char const psource; /*< String describing the source location.		char const psource; /*< String describing the source location.
▲ Show 20 Lines • Show All 242 Lines • ▼ Show 20 Lines	EXTERN void *__kmpc_data_sharing_coalesced_push_stack(size_t size,
int16_t UseSharedMemory);		int16_t UseSharedMemory);
EXTERN void *__kmpc_data_sharing_push_stack(size_t size,		EXTERN void *__kmpc_data_sharing_push_stack(size_t size,
int16_t UseSharedMemory);		int16_t UseSharedMemory);
EXTERN void __kmpc_data_sharing_pop_stack(void *a);		EXTERN void __kmpc_data_sharing_pop_stack(void *a);
EXTERN void __kmpc_begin_sharing_variables(void ***GlobalArgs, size_t nArgs);		EXTERN void __kmpc_begin_sharing_variables(void ***GlobalArgs, size_t nArgs);
EXTERN void __kmpc_end_sharing_variables();		EXTERN void __kmpc_end_sharing_variables();
EXTERN void __kmpc_get_shared_variables(void ***GlobalArgs);		EXTERN void __kmpc_get_shared_variables(void ***GlobalArgs);

		/// Entry point to start a new parallel region.
		///
		/// \param ident The source identifier.
		/// \param global_tid The global thread ID.
		/// \param if_expr The if(expr), or 1 if none given.
		/// \param num_threads The num_threads(expr), or -1 if none given.
		/// \param proc_bind The proc_bind, or `proc_bind_default` if none given.
		/// \param fn The outlined parallel region function.
		/// \param wrapper_fn The worker wrapper function of fn.
		/// \param args The pointer array of arguments to fn.
		/// \param nargs The number of arguments to fn.
		EXTERN void __kmpc_parallel_51(ident_t *ident, kmp_int32 global_tid,
		kmp_int32 if_expr, kmp_int32 num_threads,
		int proc_bind, void fn, void wrapper_fn,
		void **args, size_t nargs);

// SPMD execution mode interrogation function.		// SPMD execution mode interrogation function.
EXTERN int8_t __kmpc_is_spmd_exec_mode();		EXTERN int8_t __kmpc_is_spmd_exec_mode();

EXTERN void __kmpc_get_team_static_memory(int16_t isSPMDExecutionMode,		EXTERN void __kmpc_get_team_static_memory(int16_t isSPMDExecutionMode,
const void *buf, size_t size,		const void *buf, size_t size,
int16_t is_shared, const void **res);		int16_t is_shared, const void **res);

EXTERN void __kmpc_restore_team_static_memory(int16_t isSPMDExecutionMode,		EXTERN void __kmpc_restore_team_static_memory(int16_t isSPMDExecutionMode,
int16_t is_shared);		int16_t is_shared);

#endif		#endif

openmp/libomptarget/test/offloading/bug49779.cpp

This file was added.

// RUN: %libomptarget-compilexx-run-and-check-aarch64-unknown-linux-gnu

// RUN: %libomptarget-compilexx-run-and-check-powerpc64-ibm-linux-gnu

// RUN: %libomptarget-compilexx-run-and-check-powerpc64le-ibm-linux-gnu

// RUN: %libomptarget-compilexx-run-and-check-x86_64-pc-linux-gnu

// RUN: %libomptarget-compilexx-run-and-check-nvptx64-nvidia-cuda

protze.joachimUnsubmitted

Not Done

- // RUN: %libomptarget-compilexx-run-and-check-aarch64-unknown-linux-gnu

- // RUN: %libomptarget-compilexx-run-and-check-powerpc64-ibm-linux-gnu

- // RUN: %libomptarget-compilexx-run-and-check-powerpc64le-ibm-linux-gnu

- // RUN: %libomptarget-compilexx-run-and-check-x86_64-pc-linux-gnu

- // RUN: %libomptarget-compilexx-run-and-check-nvptx64-nvidia-cuda

+ // RUN: %libomptarget-compilexx-run-and-check-generic

#include <cassert>

See D101326

protze.joachim: See D101326

#include <cassert>

#include <iostream>

void work(int *C) {

#pragma omp atomic

++(*C);

}

void use(int *C) {

#pragma omp parallel num_threads(2)

work(C);

}

int main() {

int C = 0;

#pragma omp target map(C)

{

use(&C);

#pragma omp parallel num_threads(2)

use(&C);

}

assert(C >= 2 && C <= 6);

std::cout << "PASS\n";

return 0;

}

// CHECK: PASS

protze.joachimUnsubmitted

Not Done

use(&C);

}

- assert(C >= 2 && C <= 6);

- std::cout << "PASS\n";

+ std::cout << "C = " << C << "\n";

return 0;

}

- // CHECK: PASS

+ // CHECK: {{^C = [2-6]$}}

Since the output goes to Filecheck anyways, I think we should avoid asserts, but let Filecheck test for expected results.
The output for failing tests has more information with this approach.

protze.joachim: Since the output goes to Filecheck anyways, I think we should avoid asserts, but let Filecheck…

openmp/libomptarget/utils/generate_microtask_cases.py

This file was added.

Property	Old Value	New Value
File Mode	null	100755

				#!/usr/bin/env python3

				import argparse

				def main():
				parser = argparse.ArgumentParser()
				parser.add_argument('--max_args', type=int, help='Max number of arguments to generate case statements for', required=True)
				parser.add_argument('--output', help='Output header file to include', required=True)
				args = parser.parse_args()

				output=''
				for i in range(args.max_args+1):
				output += 'case %d:\n'%(i)
				output += '((void ()(kmp_int32 , kmp_int32 *\n'
				for j in range(i):
				output += ', void *'
				if (j+1)%4 == 0:
				output += '\n'
				output += '))fn)(&global_tid, &bound_tid\n'
				for j in range(i):
				output += ', args[%d]'%(j)
				if (j+1)%4 == 0:
				output += '\n'
				output += ');\n'
				output += 'break;\n'

				with open(args.output, 'w') as f:
				print(output, file=f)

				if __name__ == "__main__":
				main()
				jdoerfertUnsubmitted Not Done Reply Inline Actions Great. The output is not pretty but that was not the objective ;) jdoerfert: Great. The output is not pretty but that was not the objective ;)

This is an archive of the discontinued LLVM Phabricator instance.

[OpenMP] Simplify offloading parallel call codegenClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 339441

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp

clang/test/OpenMP/nvptx_allocate_codegen.cpp

clang/test/OpenMP/nvptx_data_sharing.cpp

clang/test/OpenMP/nvptx_distribute_parallel_generic_mode_codegen.cpp

clang/test/OpenMP/nvptx_lambda_capturing.cpp

clang/test/OpenMP/nvptx_multi_target_parallel_codegen.cpp

clang/test/OpenMP/nvptx_nested_parallel_codegen.cpp

clang/test/OpenMP/nvptx_parallel_codegen.cpp

clang/test/OpenMP/nvptx_parallel_for_codegen.cpp

clang/test/OpenMP/nvptx_target_codegen.cpp

clang/test/OpenMP/nvptx_target_parallel_codegen.cpp

clang/test/OpenMP/nvptx_target_parallel_num_threads_codegen.cpp

clang/test/OpenMP/nvptx_target_teams_codegen.cpp

clang/test/OpenMP/nvptx_target_teams_distribute_codegen.cpp

clang/test/OpenMP/nvptx_target_teams_distribute_parallel_for_codegen.cpp

clang/test/OpenMP/nvptx_target_teams_distribute_parallel_for_generic_mode_codegen.cpp

clang/test/OpenMP/nvptx_target_teams_distribute_parallel_for_simd_codegen.cpp

clang/test/OpenMP/nvptx_teams_reduction_codegen.cpp

clang/test/OpenMP/remarks_parallel_in_multiple_target_state_machines.c

clang/test/OpenMP/remarks_parallel_in_target_state_machine.c

clang/test/OpenMP/target_parallel_debug_codegen.cpp

clang/test/OpenMP/target_parallel_for_debug_codegen.cpp

llvm/include/llvm/Frontend/OpenMP/OMPKinds.def

llvm/lib/Transforms/IPO/OpenMPOpt.cpp

llvm/test/Transforms/OpenMP/gpu_state_machine_function_ptr_replacement.ll

openmp/libomptarget/deviceRTLs/common/generated_microtask_cases.gen

openmp/libomptarget/deviceRTLs/common/src/omptarget.cu

openmp/libomptarget/deviceRTLs/common/src/parallel.cu

openmp/libomptarget/deviceRTLs/common/src/support.cu

openmp/libomptarget/deviceRTLs/common/support.h

openmp/libomptarget/deviceRTLs/interface.h

openmp/libomptarget/test/offloading/bug49779.cpp

openmp/libomptarget/utils/generate_microtask_cases.py

[OpenMP] Simplify offloading parallel call codegen
ClosedPublic