This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Transforms/IPO/
-
Transforms/
-
IPO/
2/2
OpenMPOpt.cpp
-
test/Transforms/OpenMP/
-
Transforms/
-
OpenMP/
1/1
custom_state_machines.ll
-
spmdization.ll

Differential D109500

[openmp] Fix 51647, corrupt bitcode on amdgpu
ClosedPublic

Authored by JonChesterfield on Sep 9 2021, 4:17 AM.

Download Raw Diff

Details

Reviewers

ronlieb
jdoerfert
dpalermo-phab
dpalermo

Commits

rGd5c049a3f687: [openmp] Fix 51647, corrupt bitcode on amdgpu

Summary

Patch by @dpalermo

The corrupt bitcode reported in https://bugs.llvm.org/show_bug.cgi?id=51647 seems to be a result of a later pass changing the workfn variable to addrspace(5) (thread private, on the stack). That seems reasonable for an alloca without an address space so it's an open question why that can crash the bitcode reader.

This change puts it in the thread private address space to begin with which means whatever misfired further down the pipeline does not break it. That matches the codegen from clang where stack variables are always annotated (5) and then addrspace cast prior to following use.

This therefore patches around whatever unsuccessfully moved the alloca variable to addrspace(5). That solves the problem of openmp opt producing code that crashes the bitcode reader. It should be possible to create a minimal repro for the underlying bug based on some handwritten IR that uses an alloca in a generic address space.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

JonChesterfield created this revision.Sep 9 2021, 4:17 AM

Herald added subscribers: ormris, guansong, hiraditya, yaxunl. · View Herald TranscriptSep 9 2021, 4:17 AM

JonChesterfield requested review of this revision.Sep 9 2021, 4:17 AM

Herald added a reviewer: jdoerfert. · View Herald TranscriptSep 9 2021, 4:17 AM

Herald added a project: Restricted Project. · View Herald Transcript

Herald added subscribers: llvm-commits, sstefan1. · View Herald Transcript

JonChesterfield edited the summary of this revision. (Show Details)Sep 9 2021, 4:38 AM

JonChesterfield edited the summary of this revision. (Show Details)

Harbormaster completed remote builds in B123189: Diff 371550.Sep 9 2021, 4:57 AM

JonChesterfield retitled this revision from [openmp] Provisional fix for 51647, not yet tested on nvptx to [openmp] Fix 51647, corrupt bitcode on amdgpu.Sep 9 2021, 5:01 AM

Herald added subscribers: t-tye, tpr, dstuttard and 2 others. · View Herald TranscriptSep 9 2021, 5:01 AM

format, rename variable

Built & run on gfx9/gfx10/sm_50/sm_70 which suggests this hasn't broken anything. Haven't seen the corrupt bitcode since, though can't say with certainty that is fixed by this patch. @dpalermo would you like to commandeer this diff? Think I've got the grunt work out of the way.

Harbormaster completed remote builds in B123194: Diff 371559.Sep 9 2021, 5:57 AM

LGTM

This revision is now accepted and ready to land.Sep 9 2021, 6:30 AM

LGTM

This one has been deeply annoying to debug and turned up in some customer bug reports so we'd really like to add it to the llvm-13 release branch.

Remove the target triple from
llvm/test/Transforms/OpenMP/custom_state_machines.ll
and run it once with --mtriple set to amd and once to ptx.
The check prefixes should be --check-prefixes=ALL,AMDGPU and --check-prefixes=ALL,NVPTX respectively

llvm/lib/Transforms/IPO/OpenMPOpt.cpp
3433	not address space local. `DataLayout::getAllocaAddrSpace`
3458	`if (WorkFnAI->getType()->getAS() != Generic) WorkFnAI = new ASCast...`

@dpalermo is taking a look at the above comment by @jdoerfert

dpalermo commandeered this revision.Sep 9 2021, 9:06 AM

dpalermo edited reviewers, added: JonChesterfield; removed: dpalermo.

Updates to code per review (will update test next)

dpalermo marked 2 inline comments as done.Sep 9 2021, 12:14 PM

The whitespace looks a bit off to me but the phab clang-format bot is apparently down. Please git-clang-format HEAD^ the diff

ran: git-clang-format HEAD^

Harbormaster completed remote builds in B123297: Diff 371701.Sep 9 2021, 2:36 PM

update test to pass -mtriple and run for both amdgcn & nvptx

dpalermo marked an inline comment as not done.Sep 9 2021, 3:04 PM

While updating the lit test as requested (add -mtriple and run for both amdgcn & nvptx), I found that the alloca addrspace(5) and cast to generic was no longer appearing. I backed out the change to use DataLayout::getAllocaAddrSpace...and then the modified lit test started passing. Now investigating what is happening when using DataLayout::getAllocaAddrSpace.

Potentially interesting that getAllocaAddrSpace returns a different value to local (as that's presumably why they're behaving differently)

Harbormaster completed remote builds in B123315: Diff 371729.Sep 9 2021, 3:40 PM

In D109500#2992918, @JonChesterfield wrote:

Potentially interesting that getAllocaAddrSpace returns a different value to local (as that's presumably why they're behaving differently)

Exactly

Also, as requested, I tried adding --check-prefixes=ALL,AMDGPU and --check-prefixes=ALL,NVPTX to the FileCheck in the test, but that caused lit to report an error that the prefixes weren't found:

$ build/bin/llvm-lit -v llvm/test/Transforms/OpenMP/custom_state_machines.ll
...
error: no check strings found with prefixes 'ALL:', 'AMDGPU:'
error: no check strings found with prefixes 'ALL:', 'NVPTX:'

So I didn't include that change here.

The first version of this fixes a few errors in OvO for me.

I think the filecheck suggestion was to allow matching different code for amdgpu as opposed to nvptx. So it's only meaningful if there are some CHECK lines that are different for each, where CHECK: has been replaced with a different string

reenable DataLayout::getAllocaAddrSpace

dpalermo marked an inline comment as done.Sep 9 2021, 5:48 PM

I've reenabled the use of DataLayout::getAllocaAddrSpace as that does indeed still work as intended in the larger runnable test cases that hit this problem...and is the right thing to do since not all target architectures would necessarily have alloca in the local address space.

This means the lit test is once again broken. I've determined that the problem with the lit test is that:

there is no datalayout specified so we get a default that doesn't put alloca in the local address space (so it doesn't add the cast)...and the test "fails"
I tried just adding a datalayout, but statements end up moving around causing all sorts of differences (checking is currently very tight)....and the test fails

So the options I can think of are:

just update the lit test without the addrcast so it passes, but it isn't testing what is being done in this change
regenerate the test case & checkers using a datalayout that has alloca as local
or do #1 and add another test that exercises this change (e.g. using the reduced test from the JIRA)

Let me know what your preference is.

Harbormaster completed remote builds in B123337: Diff 371757.Sep 9 2021, 6:19 PM

Dan tells me he is no longer available to work on this, at least for the near future.

Datalayout seems necessary if we're going to key codegen off it. Amdgpu and nvptx use different datalayouts and I'm reluctant to duplicate the test so will try adding a simple datalayout that makes adequate sense for either, regenerate the tests based off that as one diff, then recreate this patch on top.

I may not be able to get to this today.

In D109500#2994137, @JonChesterfield wrote:

Datalayout seems necessary if we're going to key codegen off it. Amdgpu and nvptx use different datalayouts and I'm reluctant to duplicate the test so will try adding a simple datalayout that makes adequate sense for either, regenerate the tests based off that as one diff, then recreate this patch on top.

You can specify the target and the datalayout in the run command, no need to duplicate things: --data-layout=

Set check-prefixes on custom_state_machines, run update_test_checks, advice sought on making that work

JonChesterfield added inline comments.Sep 13 2021, 6:23 AM

llvm/test/Transforms/OpenMP/custom_state_machines.ll
1–2	Changed the opt invocations here. Now have one opt for mtriple=amdgpu and one for nvptx, with CHECK-PREFIXES set. Then ran (exactly): cd $HOME/llvm-project/llvm ./utils/update_test_checks.py test/Transforms/OpenMP/custom_state_machines.ll --opt-binary=$HOME/llvm-install/bin/opt That rewrite custom_state_machines to what is uploaded here, which seems unlikely to be what is desired. It looks like a complete copy of the input duplicated for each permutation of check-prefixes, plus all the CHECK-NEXT from before which is now dead. What am I supposed to do to update this test?

manually removed check lines and reran script

custom state machines test now looks right

spmdization now good

LG, assuming the tests pass

Drop triple statements

Yep, tests passing. I'm happy with this too. Will land it shortly

This revision was landed with ongoing or failed builds.Sep 13 2021, 7:25 AM

Closed by commit rGd5c049a3f687: [openmp] Fix 51647, corrupt bitcode on amdgpu (authored by dpalermo, committed by JonChesterfield). · Explain Why

This revision was automatically updated to reflect the committed changes.

JonChesterfield added a commit: rGd5c049a3f687: [openmp] Fix 51647, corrupt bitcode on amdgpu.

Note to self about the test updating process.

The utils/update_test_checks.py script reads the ; RUN commands and emits new check statements based on the --check-prefixes string. When changing the prefix it doesn't remove the old ones, but the test format is predictable enough that grep -v '; CHECK' does the right thing.

Process for updating tests was to duplicate the run line, giving different triple and prefix for amdgpu and nvptx. Also added --data-layout=A5 for alloca in addrspace 5 for amdgpu, copied from some other tests that don't set the whole datalayout. Then delete all the existing CHECK prefixes. Then run ./utils/update_test_checks.py test/Transforms/OpenMP/spmdization.ll --opt-binary=$HOME/llvm-install/bin/opt as that's where I install opt locally.

Harbormaster completed remote builds in B123667: Diff 372247.Sep 13 2021, 8:03 AM

Having trouble applying this to llvm-13 release, 'opt: Unknown command line argument '-openmp-opt-disable-state-machine-rewrite'

@jdoerfert do we need to apply some state machine changes to llvm-13?

diff vs 13 looks like

; NOTE: Assertions have been autogenerated by utils/update_test_checks.py UTC_ARGS: --function-signature --check-attributes --include-generated-funcs
-; RUN: opt -S -passes=openmp-opt < %s | FileCheck %s
+; RUN: opt --mtriple=amdgcn-amd-amdhsa --data-layout=A5 -S -passes=openmp-opt < %s | FileCheck %s --check-prefixes=AMDGPU
+; RUN: opt --mtriple=nvptx64--         -S -passes=openmp-opt < %s | FileCheck %s --check-prefixes=NVPTX
+; RUN: opt --mtriple=amdgcn-amd-amdhsa --data-layout=A5 -openmp-opt-disable-state-machine-rewrite -S -passes=openmp-opt < %s | FileCheck %s --check-prefixes=AMDGPU-DISABLED
+; RUN: opt --mtriple=nvptx64--         -openmp-opt-disable-state-machine-rewrite -S -passes=openmp-opt < %s | FileCheck %s --check-prefixes=NVPTX-DISABLED

so I expect I can apply the same change manually, without the --disabled test lines

In D109500#2997666, @JonChesterfield wrote:
Having trouble applying this to llvm-13 release, 'opt: Unknown command line argument '-openmp-opt-disable-state-machine-rewrite'

@jdoerfert do we need to apply some state machine changes to llvm-13?

diff vs 13 looks like
; NOTE: Assertions have been autogenerated by utils/update_test_checks.py UTC_ARGS: --function-signature --check-attributes --include-generated-funcs
-; RUN: opt -S -passes=openmp-opt < %s | FileCheck %s
+; RUN: opt --mtriple=amdgcn-amd-amdhsa --data-layout=A5 -S -passes=openmp-opt < %s | FileCheck %s --check-prefixes=AMDGPU
+; RUN: opt --mtriple=nvptx64--         -S -passes=openmp-opt < %s | FileCheck %s --check-prefixes=NVPTX
+; RUN: opt --mtriple=amdgcn-amd-amdhsa --data-layout=A5 -openmp-opt-disable-state-machine-rewrite -S -passes=openmp-opt < %s | FileCheck %s --check-prefixes=AMDGPU-DISABLED
+; RUN: opt --mtriple=nvptx64--         -openmp-opt-disable-state-machine-rewrite -S -passes=openmp-opt < %s | FileCheck %s --check-prefixes=NVPTX-DISABLED
so I expect I can apply the same change manually, without the --disabled test lines

Yes, remove the run lines for disable for back porting.

JonChesterfield added a reverting change: rGbfcf979978df: Revert "[openmp] Fix 51647, corrupt bitcode on amdgpu".Sep 13 2021, 10:26 AM

JonChesterfield mentioned this in rG71052ea1e3c6: [openmp] Apply code change from D109500.Sep 13 2021, 10:34 AM

JonChesterfield mentioned this in rG6775ad2025fc: [openmp] Apply test change from D109500.Sep 13 2021, 10:36 AM

Worked around by splitting the patch to trunk into code (71052ea1e3c63b7209731fdc1726d10640d97480) and test commits (6775ad2025fc74c76fc440efb1de98de2179b6bc) and posting bug https://bugs.llvm.org/show_bug.cgi?id=51838 to apply the functional change as that applies cleanly. Hopefully I (or @dpalermo?) will be able to create a patch or branch for the manually patched up test change against llvm-13.

Revision Contents

Path

Size

llvm/

lib/

Transforms/

IPO/

OpenMPOpt.cpp

23 lines

test/

Transforms/

OpenMP/

custom_state_machines.ll

5093 lines

spmdization.ll

2715 lines

Diff 372247

llvm/lib/Transforms/IPO/OpenMPOpt.cpp

Show First 20 Lines • Show All 2,030 Lines • ▼ Show 20 Lines	for (Function *F : SCC) {
Module &M = *F->getParent();		Module &M = *F->getParent();
Type *Int8Ty = Type::getInt8Ty(M.getContext());		Type *Int8Ty = Type::getInt8Ty(M.getContext());

auto *ID = new GlobalVariable(		auto *ID = new GlobalVariable(
M, Int8Ty, /* isConstant */ true, GlobalValue::PrivateLinkage,		M, Int8Ty, /* isConstant */ true, GlobalValue::PrivateLinkage,
UndefValue::get(Int8Ty), F->getName() + ".ID");		UndefValue::get(Int8Ty), F->getName() + ".ID");

for (Use *U : ToBeReplacedStateMachineUses)		for (Use *U : ToBeReplacedStateMachineUses)
U->set(ConstantExpr::getBitCast(ID, U->get()->getType()));		U->set(ConstantExpr::getPointerBitCastOrAddrSpaceCast(
		ID, U->get()->getType()));

++NumOpenMPParallelRegionsReplacedInGPUStateMachine;		++NumOpenMPParallelRegionsReplacedInGPUStateMachine;

Changed = true;		Changed = true;
}		}

return Changed;		return Changed;
}		}
▲ Show 20 Lines • Show All 1,369 Lines • ▼ Show 20 Lines	ChangeStatus buildCustomStateMachine(Attributor &A) {
InitBB->getTerminator()->eraseFromParent();		InitBB->getTerminator()->eraseFromParent();
Instruction *IsWorker =		Instruction *IsWorker =
ICmpInst::Create(ICmpInst::ICmp, llvm::CmpInst::ICMP_NE, KernelInitCB,		ICmpInst::Create(ICmpInst::ICmp, llvm::CmpInst::ICMP_NE, KernelInitCB,
ConstantInt::get(KernelInitCB->getType(), -1),		ConstantInt::get(KernelInitCB->getType(), -1),
"thread.is_worker", InitBB);		"thread.is_worker", InitBB);
IsWorker->setDebugLoc(DLoc);		IsWorker->setDebugLoc(DLoc);
BranchInst::Create(StateMachineBeginBB, UserCodeEntryBB, IsWorker, InitBB);		BranchInst::Create(StateMachineBeginBB, UserCodeEntryBB, IsWorker, InitBB);

		Module &M = *Kernel->getParent();

// Create local storage for the work function pointer.		// Create local storage for the work function pointer.
		const DataLayout &DL = M.getDataLayout();
Type *VoidPtrTy = Type::getInt8PtrTy(Ctx);		Type *VoidPtrTy = Type::getInt8PtrTy(Ctx);
AllocaInst *WorkFnAI = new AllocaInst(VoidPtrTy, 0, "worker.work_fn.addr",		Instruction *WorkFnAI =
&Kernel->getEntryBlock().front());		new AllocaInst(VoidPtrTy, DL.getAllocaAddrSpace(), nullptr,
		"worker.work_fn.addr", &Kernel->getEntryBlock().front());
		jdoerfertUnsubmitted Done Reply Inline Actions not address space local. `DataLayout::getAllocaAddrSpace` jdoerfert: not address space local. `DataLayout::getAllocaAddrSpace`
WorkFnAI->setDebugLoc(DLoc);		WorkFnAI->setDebugLoc(DLoc);

auto &OMPInfoCache = static_cast<OMPInformationCache &>(A.getInfoCache());		auto &OMPInfoCache = static_cast<OMPInformationCache &>(A.getInfoCache());
OMPInfoCache.OMPBuilder.updateToLocation(		OMPInfoCache.OMPBuilder.updateToLocation(
OpenMPIRBuilder::LocationDescription(		OpenMPIRBuilder::LocationDescription(
IRBuilder<>::InsertPoint(StateMachineBeginBB,		IRBuilder<>::InsertPoint(StateMachineBeginBB,
StateMachineBeginBB->end()),		StateMachineBeginBB->end()),
DLoc));		DLoc));

Value *Ident = KernelInitCB->getArgOperand(0);		Value *Ident = KernelInitCB->getArgOperand(0);
Value *GTid = KernelInitCB;		Value *GTid = KernelInitCB;

Module &M = *Kernel->getParent();
FunctionCallee BarrierFn =		FunctionCallee BarrierFn =
OMPInfoCache.OMPBuilder.getOrCreateRuntimeFunction(		OMPInfoCache.OMPBuilder.getOrCreateRuntimeFunction(
M, OMPRTL___kmpc_barrier_simple_spmd);		M, OMPRTL___kmpc_barrier_simple_spmd);
CallInst::Create(BarrierFn, {Ident, GTid}, "", StateMachineBeginBB)		CallInst::Create(BarrierFn, {Ident, GTid}, "", StateMachineBeginBB)
->setDebugLoc(DLoc);		->setDebugLoc(DLoc);

		if (WorkFnAI->getType()->getPointerAddressSpace() !=
		(unsigned int)AddressSpace::Generic) {
		WorkFnAI = new AddrSpaceCastInst(
		WorkFnAI,
		PointerType::getWithSamePointeeType(
		cast<PointerType>(WorkFnAI->getType()),
		(unsigned int)AddressSpace::Generic),
		jdoerfertUnsubmitted Done Reply Inline Actions `if (WorkFnAI->getType()->getAS() != Generic) WorkFnAI = new ASCast...` jdoerfert: `if (WorkFnAI->getType()->getAS() != Generic) WorkFnAI = new ASCast... `
		WorkFnAI->getName() + ".generic", StateMachineBeginBB);
		WorkFnAI->setDebugLoc(DLoc);
		}

FunctionCallee KernelParallelFn =		FunctionCallee KernelParallelFn =
OMPInfoCache.OMPBuilder.getOrCreateRuntimeFunction(		OMPInfoCache.OMPBuilder.getOrCreateRuntimeFunction(
M, OMPRTL___kmpc_kernel_parallel);		M, OMPRTL___kmpc_kernel_parallel);
Instruction *IsActiveWorker = CallInst::Create(		Instruction *IsActiveWorker = CallInst::Create(
KernelParallelFn, {WorkFnAI}, "worker.is_active", StateMachineBeginBB);		KernelParallelFn, {WorkFnAI}, "worker.is_active", StateMachineBeginBB);
IsActiveWorker->setDebugLoc(DLoc);		IsActiveWorker->setDebugLoc(DLoc);
Instruction *WorkFn = new LoadInst(VoidPtrTy, WorkFnAI, "worker.work_fn",		Instruction *WorkFn = new LoadInst(VoidPtrTy, WorkFnAI, "worker.work_fn",
StateMachineBeginBB);		StateMachineBeginBB);
▲ Show 20 Lines • Show All 1,237 Lines • Show Last 20 Lines

llvm/test/Transforms/OpenMP/custom_state_machines.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	; NOTE: Assertions have been autogenerated by utils/update_test_checks.py UTC_ARGS: --function-signature --check-attributes --include-generated-funcs			; NOTE: Assertions have been autogenerated by utils/update_test_checks.py UTC_ARGS: --function-signature --check-attributes --include-generated-funcs
	; RUN: opt -S -passes=openmp-opt < %s \| FileCheck %s			; RUN: opt --mtriple=amdgcn-amd-amdhsa --data-layout=A5 -S -passes=openmp-opt < %s \| FileCheck %s --check-prefixes=AMDGPU
				JonChesterfieldAuthorUnsubmitted Done Reply Inline Actions Changed the opt invocations here. Now have one opt for mtriple=amdgpu and one for nvptx, with CHECK-PREFIXES set. Then ran (exactly): cd $HOME/llvm-project/llvm ./utils/update_test_checks.py test/Transforms/OpenMP/custom_state_machines.ll --opt-binary=$HOME/llvm-install/bin/opt That rewrite custom_state_machines to what is uploaded here, which seems unlikely to be what is desired. It looks like a complete copy of the input duplicated for each permutation of check-prefixes, plus all the CHECK-NEXT from before which is now dead. What am I supposed to do to update this test? JonChesterfield: Changed the opt invocations here. Now have one opt for mtriple=amdgpu and one for nvptx, with…
	; RUN: opt -openmp-opt-disable-state-machine-rewrite -S -passes=openmp-opt < %s \| FileCheck %s --check-prefix=CHECK-DISABLED			; RUN: opt --mtriple=nvptx64-- -S -passes=openmp-opt < %s \| FileCheck %s --check-prefixes=NVPTX
				; RUN: opt --mtriple=amdgcn-amd-amdhsa --data-layout=A5 -openmp-opt-disable-state-machine-rewrite -S -passes=openmp-opt < %s \| FileCheck %s --check-prefixes=AMDGPU-DISABLED
				; RUN: opt --mtriple=nvptx64-- -openmp-opt-disable-state-machine-rewrite -S -passes=openmp-opt < %s \| FileCheck %s --check-prefixes=NVPTX-DISABLED

	;; void p0(void);			;; void p0(void);
	;; void p1(void);			;; void p1(void);
	;; int unknown(void);			;; int unknown(void);
	;; void unknown_pure(void) __attribute__((pure));			;; void unknown_pure(void) __attribute__((pure));
	;; void unknown_no_openmp(void) __attribute__((assume("omp_no_openmp")));			;; void unknown_no_openmp(void) __attribute__((assume("omp_no_openmp")));
	;;			;;
	;; int G;			;; int G;
	▲ Show 20 Lines • Show All 100 Lines • ▼ Show 20 Lines
	;; }			;; }
	;;			;;
	;; __attribute__((weak)) void weak_callee_empty(void) {}			;; __attribute__((weak)) void weak_callee_empty(void) {}
	;; void no_state_machine_weak_callee() {			;; void no_state_machine_weak_callee() {
	;; #pragma omp target teams			;; #pragma omp target teams
	;; { weak_callee_empty(); }			;; { weak_callee_empty(); }
	;; }			;; }

	target triple = "nvptx64"

	%struct.ident_t = type { i32, i32, i32, i32, i8* }			%struct.ident_t = type { i32, i32, i32, i32, i8* }

	@0 = private unnamed_addr constant [23 x i8] c";unknown;unknown;0;0;;\00", align 1			@0 = private unnamed_addr constant [23 x i8] c";unknown;unknown;0;0;;\00", align 1
	@1 = private unnamed_addr constant %struct.ident_t { i32 0, i32 2, i32 0, i32 0, i8* getelementptr inbounds ([23 x i8], [23 x i8]* @0, i32 0, i32 0) }, align 8			@1 = private unnamed_addr constant %struct.ident_t { i32 0, i32 2, i32 0, i32 0, i8* getelementptr inbounds ([23 x i8], [23 x i8]* @0, i32 0, i32 0) }, align 8
	@__omp_offloading_14_a36502b_no_state_machine_needed_l14_exec_mode = weak constant i8 1			@__omp_offloading_14_a36502b_no_state_machine_needed_l14_exec_mode = weak constant i8 1
	@__omp_offloading_14_a36502b_simple_state_machine_l22_exec_mode = weak constant i8 1			@__omp_offloading_14_a36502b_simple_state_machine_l22_exec_mode = weak constant i8 1
	@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_l39_exec_mode = weak constant i8 1			@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_l39_exec_mode = weak constant i8 1
	@__omp_offloading_14_a36502b_simple_state_machine_with_fallback_l55_exec_mode = weak constant i8 1			@__omp_offloading_14_a36502b_simple_state_machine_with_fallback_l55_exec_mode = weak constant i8 1
	▲ Show 20 Lines • Show All 706 Lines • ▼ Show 20 Lines
	!11 = !{void ()* @__omp_offloading_14_a36502b_simple_state_machine_with_fallback_l55, !"kernel", i32 1}			!11 = !{void ()* @__omp_offloading_14_a36502b_simple_state_machine_with_fallback_l55, !"kernel", i32 1}
	!12 = !{void ()* @__omp_offloading_14_a36502b_simple_state_machine_no_openmp_attr_l66, !"kernel", i32 1}			!12 = !{void ()* @__omp_offloading_14_a36502b_simple_state_machine_no_openmp_attr_l66, !"kernel", i32 1}
	!13 = !{void ()* @__omp_offloading_14_a36502b_simple_state_machine_pure_l77, !"kernel", i32 1}			!13 = !{void ()* @__omp_offloading_14_a36502b_simple_state_machine_pure_l77, !"kernel", i32 1}
	!14 = !{void ()* @__omp_offloading_14_a36502b_simple_state_machine_interprocedural_nested_recursive_l92, !"kernel", i32 1}			!14 = !{void ()* @__omp_offloading_14_a36502b_simple_state_machine_interprocedural_nested_recursive_l92, !"kernel", i32 1}
	!15 = !{void ()* @__omp_offloading_14_a36502b_no_state_machine_weak_callee_l112, !"kernel", i32 1}			!15 = !{void ()* @__omp_offloading_14_a36502b_no_state_machine_weak_callee_l112, !"kernel", i32 1}
	!16 = !{i32 1, !"wchar_size", i32 4}			!16 = !{i32 1, !"wchar_size", i32 4}
	!17 = !{i32 7, !"openmp", i32 50}			!17 = !{i32 7, !"openmp", i32 50}
	!18 = !{i32 7, !"openmp-device", i32 50}			!18 = !{i32 7, !"openmp-device", i32 50}
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_no_state_machine_needed_l14			; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_no_state_machine_needed_l14
	; CHECK-SAME: () #[[ATTR0:[0-9]+]] {			; AMDGPU-SAME: () #[[ATTR0:[0-9]+]] {
	; CHECK-NEXT: entry:			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i1 false, i1 false, i1 true)			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i1 false, i1 false, i1 true)
	; CHECK-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			; AMDGPU-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	; CHECK-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			; AMDGPU-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	; CHECK: user_code.entry:			; AMDGPU: user_code.entry:
	; CHECK-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3:[0-9]+]]			; AMDGPU-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3:[0-9]+]]
	; CHECK-NEXT: call void @__omp_outlined__(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]			; AMDGPU-NEXT: call void @__omp_outlined__(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)			; AMDGPU-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: ret void
	; CHECK: worker.exit:			; AMDGPU: worker.exit:
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: ret void
	;			;
	;			;
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__
	; CHECK-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; AMDGPU-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-NEXT: entry:			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: call void @no_parallel_region_in_here.internalized() #[[ATTR7:[0-9]+]]			; AMDGPU-NEXT: call void @no_parallel_region_in_here.internalized() #[[ATTR8:[0-9]+]]
	; CHECK-NEXT: call void @unknown_no_openmp() #[[ATTR8:[0-9]+]]			; AMDGPU-NEXT: call void @unknown_no_openmp() #[[ATTR9:[0-9]+]]
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: ret void
	;			;
	;			;
	; CHECK: Function Attrs: convergent noinline nounwind			; AMDGPU: Function Attrs: convergent noinline nounwind
	; CHECK-LABEL: define {{[^@]+}}@no_parallel_region_in_here.internalized			; AMDGPU-LABEL: define {{[^@]+}}@no_parallel_region_in_here.internalized
	; CHECK-SAME: () #[[ATTR1:[0-9]+]] {			; AMDGPU-SAME: () #[[ATTR1:[0-9]+]] {
	; CHECK-NEXT: entry:			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2:[0-9]+]]) #[[ATTR3]]			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2:[0-9]+]]) #[[ATTR3]]
	; CHECK-NEXT: [[TMP1:%.]] = call i32 @__kmpc_single(%struct.ident_t noundef @[[GLOB2]], i32 [[TMP0]]) #[[ATTR3]]			; AMDGPU-NEXT: [[TMP1:%.]] = call i32 @__kmpc_single(%struct.ident_t noundef @[[GLOB2]], i32 [[TMP0]]) #[[ATTR3]]
	; CHECK-NEXT: [[TMP2:%.*]] = icmp ne i32 [[TMP1]], 0			; AMDGPU-NEXT: [[TMP2:%.*]] = icmp ne i32 [[TMP1]], 0
	; CHECK-NEXT: br i1 [[TMP2]], label [[OMP_IF_THEN:%.]], label [[OMP_IF_END:%.]]			; AMDGPU-NEXT: br i1 [[TMP2]], label [[OMP_IF_THEN:%.]], label [[OMP_IF_END:%.]]
	; CHECK: omp_if.then:			; AMDGPU: omp_if.then:
	; CHECK-NEXT: store i32 0, i32* @G, align 4			; AMDGPU-NEXT: store i32 0, i32* @G, align 4
	; CHECK-NEXT: call void @__kmpc_end_single(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]]) #[[ATTR3]]			; AMDGPU-NEXT: call void @__kmpc_end_single(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]]) #[[ATTR3]]
	; CHECK-NEXT: br label [[OMP_IF_END]]			; AMDGPU-NEXT: br label [[OMP_IF_END]]
	; CHECK: omp_if.end:			; AMDGPU: omp_if.end:
	; CHECK-NEXT: call void @__kmpc_barrier(%struct.ident_t* noundef @[[GLOB3:[0-9]+]], i32 [[TMP0]]) #[[ATTR3]]			; AMDGPU-NEXT: call void @__kmpc_barrier(%struct.ident_t* noundef @[[GLOB3:[0-9]+]], i32 [[TMP0]]) #[[ATTR3]]
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: ret void
	;			;
	;			;
	; CHECK: Function Attrs: convergent noinline nounwind			; AMDGPU: Function Attrs: convergent noinline nounwind
	; CHECK-LABEL: define {{[^@]+}}@no_parallel_region_in_here			; AMDGPU-LABEL: define {{[^@]+}}@no_parallel_region_in_here
	; CHECK-SAME: () #[[ATTR1]] {			; AMDGPU-SAME: () #[[ATTR1]] {
	; CHECK-NEXT: entry:			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
	; CHECK-NEXT: [[TMP1:%.]] = call i32 @__kmpc_single(%struct.ident_t @[[GLOB2]], i32 [[TMP0]])			; AMDGPU-NEXT: [[TMP1:%.]] = call i32 @__kmpc_single(%struct.ident_t @[[GLOB2]], i32 [[TMP0]])
	; CHECK-NEXT: [[TMP2:%.*]] = icmp ne i32 [[TMP1]], 0			; AMDGPU-NEXT: [[TMP2:%.*]] = icmp ne i32 [[TMP1]], 0
	; CHECK-NEXT: br i1 [[TMP2]], label [[OMP_IF_THEN:%.]], label [[OMP_IF_END:%.]]			; AMDGPU-NEXT: br i1 [[TMP2]], label [[OMP_IF_THEN:%.]], label [[OMP_IF_END:%.]]
	; CHECK: omp_if.then:			; AMDGPU: omp_if.then:
	; CHECK-NEXT: store i32 0, i32* @G, align 4			; AMDGPU-NEXT: store i32 0, i32* @G, align 4
	; CHECK-NEXT: call void @__kmpc_end_single(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]])			; AMDGPU-NEXT: call void @__kmpc_end_single(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]])
	; CHECK-NEXT: br label [[OMP_IF_END]]			; AMDGPU-NEXT: br label [[OMP_IF_END]]
	; CHECK: omp_if.end:			; AMDGPU: omp_if.end:
	; CHECK-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB3]], i32 [[TMP0]])			; AMDGPU-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB3]], i32 [[TMP0]])
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: ret void
	;			;
	;			;
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_l22			; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_l22
	; CHECK-SAME: () #[[ATTR0]] {			; AMDGPU-SAME: () #[[ATTR0]] {
	; CHECK-NEXT: entry:			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
	; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
	; CHECK-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; CHECK-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; CHECK: worker_state_machine.begin:			; AMDGPU: worker_state_machine.begin:
	; CHECK-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
	; CHECK-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
	; CHECK-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
	; CHECK-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; CHECK-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; CHECK: worker_state_machine.finished:			; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
	; CHECK-NEXT: ret void			; AMDGPU: worker_state_machine.finished:
	; CHECK: worker_state_machine.is_active.check:			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; AMDGPU: worker_state_machine.is_active.check:
	; CHECK: worker_state_machine.parallel_region.check:			; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; CHECK-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__2_wrapper.ID to void (i16, i32)*)			; AMDGPU: worker_state_machine.parallel_region.check:
	; CHECK-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]			; AMDGPU-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__2_wrapper.ID to void (i16, i32)*)
	; CHECK: worker_state_machine.parallel_region.execute:			; AMDGPU-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; CHECK-NEXT: call void @__omp_outlined__2_wrapper(i16 0, i32 [[TMP0]])			; AMDGPU: worker_state_machine.parallel_region.execute:
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]			; AMDGPU-NEXT: call void @__omp_outlined__2_wrapper(i16 0, i32 [[TMP0]])
	; CHECK: worker_state_machine.parallel_region.check1:			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
	; CHECK-NEXT: br i1 true, label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE2:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK3:%.]]			; AMDGPU: worker_state_machine.parallel_region.check1:
	; CHECK: worker_state_machine.parallel_region.execute2:			; AMDGPU-NEXT: br i1 true, label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE2:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK3:%.]]
	; CHECK-NEXT: call void @__omp_outlined__3_wrapper(i16 0, i32 [[TMP0]])			; AMDGPU: worker_state_machine.parallel_region.execute2:
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]			; AMDGPU-NEXT: call void @__omp_outlined__3_wrapper(i16 0, i32 [[TMP0]])
	; CHECK: worker_state_machine.parallel_region.check3:			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]			; AMDGPU: worker_state_machine.parallel_region.check3:
	; CHECK: worker_state_machine.parallel_region.end:			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK-NEXT: call void @__kmpc_kernel_end_parallel()			; AMDGPU: worker_state_machine.parallel_region.end:
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]			; AMDGPU-NEXT: call void @__kmpc_kernel_end_parallel()
	; CHECK: worker_state_machine.done.barrier:			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
	; CHECK-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU: worker_state_machine.done.barrier:
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK: thread.user_code.check:			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
	; CHECK-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			; AMDGPU: thread.user_code.check:
	; CHECK-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			; AMDGPU-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	; CHECK: user_code.entry:			; AMDGPU-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	; CHECK-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]			; AMDGPU: user_code.entry:
	; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4			; AMDGPU-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
	; CHECK-NEXT: call void @__omp_outlined__1(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]			; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
	; CHECK-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)			; AMDGPU-NEXT: call void @__omp_outlined__1(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
	; CHECK: worker.exit:			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: ret void			; AMDGPU: worker.exit:
	;			; AMDGPU-NEXT: ret void
	;			;
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			;
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__1			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__1
	; CHECK-NEXT: entry:			; AMDGPU-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8			; AMDGPU-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
	; CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8			; AMDGPU-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8
	; CHECK-NEXT: call void @unknown_no_openmp() #[[ATTR8]]			; AMDGPU-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
	; CHECK-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4			; AMDGPU-NEXT: call void @unknown_no_openmp() #[[ATTR9]]
	; CHECK-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			; AMDGPU-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
	; CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__2 to i8), i8 noundef @__omp_outlined__2_wrapper.ID, i8** noundef [[TMP1]], i64 noundef 0)			; AMDGPU-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	; CHECK-NEXT: call void @no_parallel_region_in_here.internalized() #[[ATTR7]]			; AMDGPU-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__2 to i8), i8 noundef @__omp_outlined__2_wrapper.ID, i8** noundef [[TMP1]], i64 noundef 0)
	; CHECK-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**			; AMDGPU-NEXT: call void @no_parallel_region_in_here.internalized() #[[ATTR8]]
	; CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__3 to i8), i8 noundef @__omp_outlined__3_wrapper.ID, i8** noundef [[TMP2]], i64 noundef 0)			; AMDGPU-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__3 to i8), i8 noundef @__omp_outlined__3_wrapper.ID, i8** noundef [[TMP2]], i64 noundef 0)
	;			; AMDGPU-NEXT: ret void
	;			;
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			;
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__2			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__2
	; CHECK-NEXT: entry:			; AMDGPU-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: call void @p0() #[[ATTR9:[0-9]+]]			; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: call void @p0() #[[ATTR10:[0-9]+]]
	;			; AMDGPU-NEXT: ret void
	;			;
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			;
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__2_wrapper			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__2_wrapper
	; CHECK-NEXT: entry:			; AMDGPU-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	; CHECK-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	; CHECK-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; AMDGPU-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	; CHECK-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; AMDGPU-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; AMDGPU-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	; CHECK-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	; CHECK-NEXT: call void @__omp_outlined__2(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; AMDGPU-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: call void @__omp_outlined__2(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	;			; AMDGPU-NEXT: ret void
	;			;
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			;
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__3			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__3
	; CHECK-NEXT: entry:			; AMDGPU-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: call void @p1() #[[ATTR9]]			; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: call void @p1() #[[ATTR10]]
	;			; AMDGPU-NEXT: ret void
	;			;
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			;
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper
	; CHECK-NEXT: entry:			; AMDGPU-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	; CHECK-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	; CHECK-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; AMDGPU-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	; CHECK-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; AMDGPU-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; AMDGPU-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	; CHECK-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	; CHECK-NEXT: call void @__omp_outlined__3(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; AMDGPU-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: call void @__omp_outlined__3(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	;			; AMDGPU-NEXT: ret void
	;			;
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			;
	; CHECK-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_l39			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-SAME: () #[[ATTR0]] {			; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_l39
	; CHECK-NEXT: entry:			; AMDGPU-SAME: () #[[ATTR0]] {
	; CHECK-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
	; CHECK-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)			; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; CHECK-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
	; CHECK-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; CHECK: worker_state_machine.begin:			; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; CHECK-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU: worker_state_machine.begin:
	; CHECK-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
	; CHECK-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
	; CHECK-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
	; CHECK-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; CHECK: worker_state_machine.finished:			; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
	; CHECK: worker_state_machine.is_active.check:			; AMDGPU: worker_state_machine.finished:
	; CHECK-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; AMDGPU-NEXT: ret void
	; CHECK: worker_state_machine.parallel_region.check:			; AMDGPU: worker_state_machine.is_active.check:
	; CHECK-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], @__omp_outlined__17_wrapper			; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; CHECK-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]			; AMDGPU: worker_state_machine.parallel_region.check:
	; CHECK: worker_state_machine.parallel_region.execute:			; AMDGPU-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], @__omp_outlined__17_wrapper
	; CHECK-NEXT: call void @__omp_outlined__17_wrapper(i16 0, i32 [[TMP0]])			; AMDGPU-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]			; AMDGPU: worker_state_machine.parallel_region.execute:
	; CHECK: worker_state_machine.parallel_region.check1:			; AMDGPU-NEXT: call void @__omp_outlined__17_wrapper(i16 0, i32 [[TMP0]])
	; CHECK-NEXT: [[WORKER_CHECK_PARALLEL_REGION4:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__5_wrapper.ID to void (i16, i32)*)			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
	; CHECK-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION4]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE2:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK3:%.]]			; AMDGPU: worker_state_machine.parallel_region.check1:
	; CHECK: worker_state_machine.parallel_region.execute2:			; AMDGPU-NEXT: [[WORKER_CHECK_PARALLEL_REGION4:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__5_wrapper.ID to void (i16, i32)*)
	; CHECK-NEXT: call void @__omp_outlined__5_wrapper(i16 0, i32 [[TMP0]])			; AMDGPU-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION4]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE2:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK3:%.]]
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]			; AMDGPU: worker_state_machine.parallel_region.execute2:
	; CHECK: worker_state_machine.parallel_region.check3:			; AMDGPU-NEXT: call void @__omp_outlined__5_wrapper(i16 0, i32 [[TMP0]])
	; CHECK-NEXT: br i1 true, label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE5:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK6:%.]]			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK: worker_state_machine.parallel_region.execute5:			; AMDGPU: worker_state_machine.parallel_region.check3:
	; CHECK-NEXT: call void @__omp_outlined__18_wrapper(i16 0, i32 [[TMP0]])			; AMDGPU-NEXT: br i1 true, label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE5:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK6:%.]]
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]			; AMDGPU: worker_state_machine.parallel_region.execute5:
	; CHECK: worker_state_machine.parallel_region.check6:			; AMDGPU-NEXT: call void @__omp_outlined__18_wrapper(i16 0, i32 [[TMP0]])
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK: worker_state_machine.parallel_region.end:			; AMDGPU: worker_state_machine.parallel_region.check6:
	; CHECK-NEXT: call void @__kmpc_kernel_end_parallel()			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]			; AMDGPU: worker_state_machine.parallel_region.end:
	; CHECK: worker_state_machine.done.barrier:			; AMDGPU-NEXT: call void @__kmpc_kernel_end_parallel()
	; CHECK-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]			; AMDGPU: worker_state_machine.done.barrier:
	; CHECK: thread.user_code.check:			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
	; CHECK-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			; AMDGPU: thread.user_code.check:
	; CHECK: user_code.entry:			; AMDGPU-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	; CHECK-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]			; AMDGPU-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4			; AMDGPU: user_code.entry:
	; CHECK-NEXT: call void @__omp_outlined__4(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]			; AMDGPU-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
	; CHECK-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)			; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: call void @__omp_outlined__4(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK: worker.exit:			; AMDGPU-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: ret void
	;			; AMDGPU: worker.exit:
	;			; AMDGPU-NEXT: ret void
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			;
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__4			;
	; CHECK-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: entry:			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__4
	; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8			; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: call void @unknown_no_openmp() #[[ATTR8]]			; AMDGPU-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
	; CHECK-NEXT: call void @simple_state_machine_interprocedural_before.internalized() #[[ATTR7]]			; AMDGPU-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
	; CHECK-NEXT: call void @no_parallel_region_in_here.internalized() #[[ATTR7]]			; AMDGPU-NEXT: call void @unknown_no_openmp() #[[ATTR9]]
	; CHECK-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4			; AMDGPU-NEXT: call void @simple_state_machine_interprocedural_before.internalized() #[[ATTR8]]
	; CHECK-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			; AMDGPU-NEXT: call void @no_parallel_region_in_here.internalized() #[[ATTR8]]
	; CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__5 to i8), i8 noundef @__omp_outlined__5_wrapper.ID, i8** noundef [[TMP1]], i64 noundef 0)			; AMDGPU-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
	; CHECK-NEXT: call void @simple_state_machine_interprocedural_after.internalized() #[[ATTR7]]			; AMDGPU-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__5 to i8), i8 noundef @__omp_outlined__5_wrapper.ID, i8** noundef [[TMP1]], i64 noundef 0)
	;			; AMDGPU-NEXT: call void @simple_state_machine_interprocedural_after.internalized() #[[ATTR8]]
	;			; AMDGPU-NEXT: ret void
	; CHECK: Function Attrs: convergent noinline nounwind			;
	; CHECK-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_before.internalized			;
	; CHECK-SAME: () #[[ATTR1]] {			; AMDGPU: Function Attrs: convergent noinline nounwind
	; CHECK-NEXT: entry:			; AMDGPU-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_before.internalized
	; CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; AMDGPU-SAME: () #[[ATTR1]] {
	; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2]]) #[[ATTR3]]			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			; AMDGPU-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
	; CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__17 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__17_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2]]) #[[ATTR3]]
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	;			; AMDGPU-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__17 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__17_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
	;			; AMDGPU-NEXT: ret void
	; CHECK: Function Attrs: convergent noinline nounwind			;
	; CHECK-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_before			;
	; CHECK-SAME: () #[[ATTR1]] {			; AMDGPU: Function Attrs: convergent noinline nounwind
	; CHECK-NEXT: entry:			; AMDGPU-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_before
	; CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; AMDGPU-SAME: () #[[ATTR1]] {
	; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			; AMDGPU-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
	; CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__17 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__17_wrapper to i8), i8* [[TMP1]], i64 0)			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	;			; AMDGPU-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__17 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__17_wrapper to i8), i8* [[TMP1]], i64 0)
	;			; AMDGPU-NEXT: ret void
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			;
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__5			;
	; CHECK-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: entry:			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__5
	; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: call void @p1() #[[ATTR9]]			; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	;			; AMDGPU-NEXT: call void @p1() #[[ATTR10]]
	;			; AMDGPU-NEXT: ret void
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			;
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__5_wrapper			;
	; CHECK-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: entry:			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__5_wrapper
	; CHECK-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; AMDGPU-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	; CHECK-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	; CHECK-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; AMDGPU-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	; CHECK-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; AMDGPU-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; AMDGPU-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; CHECK-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; AMDGPU-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	; CHECK-NEXT: call void @__omp_outlined__5(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	;			; AMDGPU-NEXT: call void @__omp_outlined__5(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	;			; AMDGPU-NEXT: ret void
	; CHECK: Function Attrs: convergent noinline nounwind			;
	; CHECK-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_after.internalized			;
	; CHECK-SAME: () #[[ATTR1]] {			; AMDGPU: Function Attrs: convergent noinline nounwind
	; CHECK-NEXT: entry:			; AMDGPU-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_after.internalized
	; CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; AMDGPU-SAME: () #[[ATTR1]] {
	; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2]]) #[[ATTR3]]			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			; AMDGPU-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
	; CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__18 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__18_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2]]) #[[ATTR3]]
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	;			; AMDGPU-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__18 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__18_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
	;			; AMDGPU-NEXT: ret void
	; CHECK: Function Attrs: convergent noinline nounwind			;
	; CHECK-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_after			;
	; CHECK-SAME: () #[[ATTR1]] {			; AMDGPU: Function Attrs: convergent noinline nounwind
	; CHECK-NEXT: entry:			; AMDGPU-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_after
	; CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; AMDGPU-SAME: () #[[ATTR1]] {
	; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			; AMDGPU-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
	; CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__18 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__18_wrapper to i8), i8* [[TMP1]], i64 0)			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	;			; AMDGPU-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__18 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__18_wrapper to i8), i8* [[TMP1]], i64 0)
	;			; AMDGPU-NEXT: ret void
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			;
	; CHECK-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_with_fallback_l55			;
	; CHECK-SAME: () #[[ATTR0]] {			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: entry:			; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_with_fallback_l55
	; CHECK-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			; AMDGPU-SAME: () #[[ATTR0]] {
	; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
	; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; CHECK-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
	; CHECK: worker_state_machine.begin:			; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; CHECK-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; CHECK-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; AMDGPU: worker_state_machine.begin:
	; CHECK-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
	; CHECK-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
	; CHECK-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
	; CHECK: worker_state_machine.finished:			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; CHECK: worker_state_machine.is_active.check:			; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
	; CHECK-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; AMDGPU: worker_state_machine.finished:
	; CHECK: worker_state_machine.parallel_region.check:			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__7_wrapper.ID to void (i16, i32)*)			; AMDGPU: worker_state_machine.is_active.check:
	; CHECK-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; CHECK: worker_state_machine.parallel_region.execute:			; AMDGPU: worker_state_machine.parallel_region.check:
	; CHECK-NEXT: call void @__omp_outlined__7_wrapper(i16 0, i32 [[TMP0]])			; AMDGPU-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__7_wrapper.ID to void (i16, i32)*)
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]			; AMDGPU-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; CHECK: worker_state_machine.parallel_region.check1:			; AMDGPU: worker_state_machine.parallel_region.execute:
	; CHECK-NEXT: [[WORKER_CHECK_PARALLEL_REGION4:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__8_wrapper.ID to void (i16, i32)*)			; AMDGPU-NEXT: call void @__omp_outlined__7_wrapper(i16 0, i32 [[TMP0]])
	; CHECK-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION4]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE2:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
	; CHECK: worker_state_machine.parallel_region.execute2:			; AMDGPU: worker_state_machine.parallel_region.check1:
	; CHECK-NEXT: call void @__omp_outlined__8_wrapper(i16 0, i32 [[TMP0]])			; AMDGPU-NEXT: [[WORKER_CHECK_PARALLEL_REGION4:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__8_wrapper.ID to void (i16, i32)*)
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]			; AMDGPU-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION4]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE2:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]
	; CHECK: worker_state_machine.parallel_region.fallback.execute:			; AMDGPU: worker_state_machine.parallel_region.execute2:
	; CHECK-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])			; AMDGPU-NEXT: call void @__omp_outlined__8_wrapper(i16 0, i32 [[TMP0]])
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK: worker_state_machine.parallel_region.end:			; AMDGPU: worker_state_machine.parallel_region.fallback.execute:
	; CHECK-NEXT: call void @__kmpc_kernel_end_parallel()			; AMDGPU-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK: worker_state_machine.done.barrier:			; AMDGPU: worker_state_machine.parallel_region.end:
	; CHECK-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-NEXT: call void @__kmpc_kernel_end_parallel()
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
	; CHECK: thread.user_code.check:			; AMDGPU: worker_state_machine.done.barrier:
	; CHECK-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
	; CHECK: user_code.entry:			; AMDGPU: thread.user_code.check:
	; CHECK-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]			; AMDGPU-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4			; AMDGPU-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	; CHECK-NEXT: call void @__omp_outlined__6(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]			; AMDGPU: user_code.entry:
	; CHECK-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)			; AMDGPU-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
	; CHECK: worker.exit:			; AMDGPU-NEXT: call void @__omp_outlined__6(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
	;			; AMDGPU-NEXT: ret void
	;			; AMDGPU: worker.exit:
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: ret void
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__6			;
	; CHECK-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			;
	; CHECK-NEXT: entry:			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__6
	; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8			; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8			; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4			; AMDGPU-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
	; CHECK-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			; AMDGPU-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8
	; CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__7 to i8), i8 noundef @__omp_outlined__7_wrapper.ID, i8** noundef [[TMP1]], i64 noundef 0)			; AMDGPU-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
	; CHECK-NEXT: [[CALL:%.*]] = call i32 @unknown() #[[ATTR9]]			; AMDGPU-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
	; CHECK-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**			; AMDGPU-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	; CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__8 to i8), i8 noundef @__omp_outlined__8_wrapper.ID, i8** noundef [[TMP2]], i64 noundef 0)			; AMDGPU-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__7 to i8), i8 noundef @__omp_outlined__7_wrapper.ID, i8** noundef [[TMP1]], i64 noundef 0)
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: [[CALL:%.*]] = call i32 @unknown() #[[ATTR10]]
	;			; AMDGPU-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**
	;			; AMDGPU-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__8 to i8), i8 noundef @__omp_outlined__8_wrapper.ID, i8** noundef [[TMP2]], i64 noundef 0)
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: ret void
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__7			;
	; CHECK-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			;
	; CHECK-NEXT: entry:			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__7
	; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-NEXT: call void @p0() #[[ATTR9]]			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	;			; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	;			; AMDGPU-NEXT: call void @p0() #[[ATTR10]]
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: ret void
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__7_wrapper			;
	; CHECK-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			;
	; CHECK-NEXT: entry:			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__7_wrapper
	; CHECK-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; AMDGPU-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; AMDGPU-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	; CHECK-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; AMDGPU-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	; CHECK-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; AMDGPU-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	; CHECK-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; AMDGPU-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; CHECK-NEXT: call void @__omp_outlined__7(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; AMDGPU-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	;			; AMDGPU-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	;			; AMDGPU-NEXT: call void @__omp_outlined__7(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: ret void
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__8			;
	; CHECK-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			;
	; CHECK-NEXT: entry:			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__8
	; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-NEXT: call void @p1() #[[ATTR9]]			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	;			; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	;			; AMDGPU-NEXT: call void @p1() #[[ATTR10]]
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: ret void
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__8_wrapper			;
	; CHECK-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			;
	; CHECK-NEXT: entry:			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__8_wrapper
	; CHECK-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; AMDGPU-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; AMDGPU-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	; CHECK-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; AMDGPU-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	; CHECK-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; AMDGPU-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	; CHECK-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; AMDGPU-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; CHECK-NEXT: call void @__omp_outlined__8(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; AMDGPU-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	;			; AMDGPU-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	;			; AMDGPU-NEXT: call void @__omp_outlined__8(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: ret void
	; CHECK-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_no_openmp_attr_l66			;
	; CHECK-SAME: () #[[ATTR0]] {			;
	; CHECK-NEXT: entry:			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_no_openmp_attr_l66
	; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-SAME: () #[[ATTR0]] {
	; CHECK-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
	; CHECK-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; CHECK: worker_state_machine.begin:			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
	; CHECK-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; CHECK-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; CHECK-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; AMDGPU: worker_state_machine.begin:
	; CHECK-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
	; CHECK-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
	; CHECK: worker_state_machine.finished:			; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; CHECK: worker_state_machine.is_active.check:			; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; CHECK-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
	; CHECK: worker_state_machine.parallel_region.check:			; AMDGPU: worker_state_machine.finished:
	; CHECK-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__10_wrapper.ID to void (i16, i32)*)			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]			; AMDGPU: worker_state_machine.is_active.check:
	; CHECK: worker_state_machine.parallel_region.execute:			; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; CHECK-NEXT: call void @__omp_outlined__10_wrapper(i16 0, i32 [[TMP0]])			; AMDGPU: worker_state_machine.parallel_region.check:
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]			; AMDGPU-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__10_wrapper.ID to void (i16, i32)*)
	; CHECK: worker_state_machine.parallel_region.check1:			; AMDGPU-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; CHECK-NEXT: br i1 true, label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE2:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK3:%.]]			; AMDGPU: worker_state_machine.parallel_region.execute:
	; CHECK: worker_state_machine.parallel_region.execute2:			; AMDGPU-NEXT: call void @__omp_outlined__10_wrapper(i16 0, i32 [[TMP0]])
	; CHECK-NEXT: call void @__omp_outlined__11_wrapper(i16 0, i32 [[TMP0]])			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]			; AMDGPU: worker_state_machine.parallel_region.check1:
	; CHECK: worker_state_machine.parallel_region.check3:			; AMDGPU-NEXT: br i1 true, label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE2:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK3:%.]]
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]			; AMDGPU: worker_state_machine.parallel_region.execute2:
	; CHECK: worker_state_machine.parallel_region.end:			; AMDGPU-NEXT: call void @__omp_outlined__11_wrapper(i16 0, i32 [[TMP0]])
	; CHECK-NEXT: call void @__kmpc_kernel_end_parallel()			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]			; AMDGPU: worker_state_machine.parallel_region.check3:
	; CHECK: worker_state_machine.done.barrier:			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU: worker_state_machine.parallel_region.end:
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]			; AMDGPU-NEXT: call void @__kmpc_kernel_end_parallel()
	; CHECK: thread.user_code.check:			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
	; CHECK-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			; AMDGPU: worker_state_machine.done.barrier:
	; CHECK-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK: user_code.entry:			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
	; CHECK-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]			; AMDGPU: thread.user_code.check:
	; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4			; AMDGPU-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	; CHECK-NEXT: call void @__omp_outlined__9(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]			; AMDGPU-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	; CHECK-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)			; AMDGPU: user_code.entry:
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
	; CHECK: worker.exit:			; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: call void @__omp_outlined__9(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
	;			; AMDGPU-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
	;			; AMDGPU-NEXT: ret void
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU: worker.exit:
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__9			; AMDGPU-NEXT: ret void
	; CHECK-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			;
	; CHECK-NEXT: entry:			;
	; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__9
	; CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; AMDGPU-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8			; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4			; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			; AMDGPU-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
	; CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__10 to i8), i8 noundef @__omp_outlined__10_wrapper.ID, i8** noundef [[TMP1]], i64 noundef 0)			; AMDGPU-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8
	; CHECK-NEXT: call void @unknown_no_openmp() #[[ATTR8]]			; AMDGPU-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
	; CHECK-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**			; AMDGPU-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
	; CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__11 to i8), i8 noundef @__omp_outlined__11_wrapper.ID, i8** noundef [[TMP2]], i64 noundef 0)			; AMDGPU-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__10 to i8), i8 noundef @__omp_outlined__10_wrapper.ID, i8** noundef [[TMP1]], i64 noundef 0)
	;			; AMDGPU-NEXT: call void @unknown_no_openmp() #[[ATTR9]]
	;			; AMDGPU-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__11 to i8), i8 noundef @__omp_outlined__11_wrapper.ID, i8** noundef [[TMP2]], i64 noundef 0)
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__10			; AMDGPU-NEXT: ret void
	; CHECK-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			;
	; CHECK-NEXT: entry:			;
	; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__10
	; CHECK-NEXT: call void @p0() #[[ATTR9]]			; AMDGPU-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: entry:
	;			; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	;			; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: call void @p0() #[[ATTR10]]
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__10_wrapper			; AMDGPU-NEXT: ret void
	; CHECK-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			;
	; CHECK-NEXT: entry:			;
	; CHECK-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__10_wrapper
	; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	; CHECK-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; AMDGPU-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	; CHECK-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; AMDGPU-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; AMDGPU-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	; CHECK-NEXT: call void @__omp_outlined__10(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; AMDGPU-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	;			; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	;			; AMDGPU-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: call void @__omp_outlined__10(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__11			; AMDGPU-NEXT: ret void
	; CHECK-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			;
	; CHECK-NEXT: entry:			;
	; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__11
	; CHECK-NEXT: call void @p1() #[[ATTR9]]			; AMDGPU-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: entry:
	;			; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	;			; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: call void @p1() #[[ATTR10]]
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__11_wrapper			; AMDGPU-NEXT: ret void
	; CHECK-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			;
	; CHECK-NEXT: entry:			;
	; CHECK-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__11_wrapper
	; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	; CHECK-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; AMDGPU-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	; CHECK-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; AMDGPU-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; AMDGPU-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	; CHECK-NEXT: call void @__omp_outlined__11(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; AMDGPU-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	;			; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	;			; AMDGPU-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: call void @__omp_outlined__11(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_pure_l77			; AMDGPU-NEXT: ret void
	; CHECK-SAME: () #[[ATTR0]] {			;
	; CHECK-NEXT: entry:			;
	; CHECK-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_pure_l77
	; CHECK-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU-SAME: () #[[ATTR0]] {
	; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
	; CHECK-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK: worker_state_machine.begin:			; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; CHECK-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
	; CHECK-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; CHECK-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; CHECK-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; AMDGPU: worker_state_machine.begin:
	; CHECK-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
	; CHECK: worker_state_machine.finished:			; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
	; CHECK: worker_state_machine.is_active.check:			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; CHECK-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; CHECK: worker_state_machine.parallel_region.check:			; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
	; CHECK-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__13_wrapper.ID to void (i16, i32)*)			; AMDGPU: worker_state_machine.finished:
	; CHECK-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]			; AMDGPU-NEXT: ret void
	; CHECK: worker_state_machine.parallel_region.execute:			; AMDGPU: worker_state_machine.is_active.check:
	; CHECK-NEXT: call void @__omp_outlined__13_wrapper(i16 0, i32 [[TMP0]])			; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]			; AMDGPU: worker_state_machine.parallel_region.check:
	; CHECK: worker_state_machine.parallel_region.check1:			; AMDGPU-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__13_wrapper.ID to void (i16, i32)*)
	; CHECK-NEXT: br i1 true, label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE2:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK3:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; CHECK: worker_state_machine.parallel_region.execute2:			; AMDGPU: worker_state_machine.parallel_region.execute:
	; CHECK-NEXT: call void @__omp_outlined__14_wrapper(i16 0, i32 [[TMP0]])			; AMDGPU-NEXT: call void @__omp_outlined__13_wrapper(i16 0, i32 [[TMP0]])
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
	; CHECK: worker_state_machine.parallel_region.check3:			; AMDGPU: worker_state_machine.parallel_region.check1:
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]			; AMDGPU-NEXT: br i1 true, label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE2:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK3:%.]]
	; CHECK: worker_state_machine.parallel_region.end:			; AMDGPU: worker_state_machine.parallel_region.execute2:
	; CHECK-NEXT: call void @__kmpc_kernel_end_parallel()			; AMDGPU-NEXT: call void @__omp_outlined__14_wrapper(i16 0, i32 [[TMP0]])
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK: worker_state_machine.done.barrier:			; AMDGPU: worker_state_machine.parallel_region.check3:
	; CHECK-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]			; AMDGPU: worker_state_machine.parallel_region.end:
	; CHECK: thread.user_code.check:			; AMDGPU-NEXT: call void @__kmpc_kernel_end_parallel()
	; CHECK-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
	; CHECK-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			; AMDGPU: worker_state_machine.done.barrier:
	; CHECK: user_code.entry:			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
	; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4			; AMDGPU: thread.user_code.check:
	; CHECK-NEXT: call void @__omp_outlined__12(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]			; AMDGPU-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	; CHECK-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)			; AMDGPU-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	; CHECK-NEXT: ret void			; AMDGPU: user_code.entry:
	; CHECK: worker.exit:			; AMDGPU-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
	;			; AMDGPU-NEXT: call void @__omp_outlined__12(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
	;			; AMDGPU-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: ret void
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__12			; AMDGPU: worker.exit:
	; CHECK-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: entry:			;
	; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			;
	; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__12
	; CHECK-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8			; AMDGPU-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: call void @unknown_no_openmp() #[[ATTR8]]			; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4			; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			; AMDGPU-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
	; CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__13 to i8), i8 noundef @__omp_outlined__13_wrapper.ID, i8** noundef [[TMP1]], i64 noundef 0)			; AMDGPU-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8
	; CHECK-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**			; AMDGPU-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
	; CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__14 to i8), i8 noundef @__omp_outlined__14_wrapper.ID, i8** noundef [[TMP2]], i64 noundef 0)			; AMDGPU-NEXT: call void @unknown_no_openmp() #[[ATTR9]]
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
	;			; AMDGPU-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	;			; AMDGPU-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__13 to i8), i8 noundef @__omp_outlined__13_wrapper.ID, i8** noundef [[TMP1]], i64 noundef 0)
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__13			; AMDGPU-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__14 to i8), i8 noundef @__omp_outlined__14_wrapper.ID, i8** noundef [[TMP2]], i64 noundef 0)
	; CHECK-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: entry:			;
	; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			;
	; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: call void @p0() #[[ATTR9]]			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__13
	; CHECK-NEXT: ret void			; AMDGPU-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	;			; AMDGPU-NEXT: entry:
	;			; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__13_wrapper			; AMDGPU-NEXT: call void @p0() #[[ATTR10]]
	; CHECK-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: entry:			;
	; CHECK-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			;
	; CHECK-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__13_wrapper
	; CHECK-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; AMDGPU-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	; CHECK-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; AMDGPU-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; AMDGPU-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	; CHECK-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-NEXT: call void @__omp_outlined__13(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; AMDGPU-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	;			; AMDGPU-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	;			; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__14			; AMDGPU-NEXT: call void @__omp_outlined__13(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: entry:			;
	; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			;
	; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: call void @p1() #[[ATTR9]]			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__14
	; CHECK-NEXT: ret void			; AMDGPU-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	;			; AMDGPU-NEXT: entry:
	;			; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__14_wrapper			; AMDGPU-NEXT: call void @p1() #[[ATTR10]]
	; CHECK-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: entry:			;
	; CHECK-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			;
	; CHECK-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__14_wrapper
	; CHECK-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; AMDGPU-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	; CHECK-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; AMDGPU-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; AMDGPU-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	; CHECK-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-NEXT: call void @__omp_outlined__14(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; AMDGPU-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	;			; AMDGPU-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	;			; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	; CHECK-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_nested_recursive_l92			; AMDGPU-NEXT: call void @__omp_outlined__14(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-SAME: () #[[ATTR0]] {			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: entry:			;
	; CHECK-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			;
	; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_nested_recursive_l92
	; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)			; AMDGPU-SAME: () #[[ATTR0]] {
	; CHECK-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
	; CHECK: worker_state_machine.begin:			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; CHECK-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
	; CHECK-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; CHECK-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; CHECK-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; AMDGPU: worker_state_machine.begin:
	; CHECK-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK: worker_state_machine.finished:			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
	; CHECK: worker_state_machine.is_active.check:			; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
	; CHECK-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; CHECK: worker_state_machine.parallel_region.check:			; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; CHECK-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], @__omp_outlined__19_wrapper			; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
	; CHECK-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]			; AMDGPU: worker_state_machine.finished:
	; CHECK: worker_state_machine.parallel_region.execute:			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: call void @__omp_outlined__19_wrapper(i16 0, i32 [[TMP0]])			; AMDGPU: worker_state_machine.is_active.check:
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]			; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; CHECK: worker_state_machine.parallel_region.fallback.execute:			; AMDGPU: worker_state_machine.parallel_region.check:
	; CHECK-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])			; AMDGPU-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], @__omp_outlined__19_wrapper
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]			; AMDGPU-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]
	; CHECK: worker_state_machine.parallel_region.end:			; AMDGPU: worker_state_machine.parallel_region.execute:
	; CHECK-NEXT: call void @__kmpc_kernel_end_parallel()			; AMDGPU-NEXT: call void @__omp_outlined__19_wrapper(i16 0, i32 [[TMP0]])
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
	; CHECK: worker_state_machine.done.barrier:			; AMDGPU: worker_state_machine.parallel_region.fallback.execute:
	; CHECK-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK: thread.user_code.check:			; AMDGPU: worker_state_machine.parallel_region.end:
	; CHECK-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			; AMDGPU-NEXT: call void @__kmpc_kernel_end_parallel()
	; CHECK-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
	; CHECK: user_code.entry:			; AMDGPU: worker_state_machine.done.barrier:
	; CHECK-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-NEXT: call void @__omp_outlined__15(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
	; CHECK-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)			; AMDGPU: thread.user_code.check:
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	; CHECK: worker.exit:			; AMDGPU-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	; CHECK-NEXT: ret void			; AMDGPU: user_code.entry:
	;			; AMDGPU-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
	;			; AMDGPU-NEXT: call void @__omp_outlined__15(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__15			; AMDGPU-NEXT: ret void
	; CHECK-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; AMDGPU: worker.exit:
	; CHECK-NEXT: entry:			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			;
	; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			;
	; CHECK-NEXT: [[CALL:%.]] = call i32 bitcast (i32 (...) @omp_get_thread_num to i32 ()*)() #[[ATTR9]]			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after.internalized(i32 [[CALL]]) #[[ATTR7]]			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__15
	; CHECK-NEXT: ret void			; AMDGPU-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	;			; AMDGPU-NEXT: entry:
	;			; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK: Function Attrs: convergent noinline nounwind			; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after.internalized			; AMDGPU-NEXT: [[CALL:%.]] = call i32 bitcast (i32 (...) @omp_get_thread_num to i32 ()*)() #[[ATTR10]]
	; CHECK-SAME: (i32 [[A:%.*]]) #[[ATTR1]] {			; AMDGPU-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after.internalized(i32 [[CALL]]) #[[ATTR8]]
	; CHECK-NEXT: entry:			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4			;
	; CHECK-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4			;
	; CHECK-NEXT: [[CMP:%.*]] = icmp eq i32 [[A]], 0			; AMDGPU: Function Attrs: convergent noinline nounwind
	; CHECK-NEXT: br i1 [[CMP]], label [[IF_THEN:%.]], label [[IF_END:%.]]			; AMDGPU-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after.internalized
	; CHECK: if.then:			; AMDGPU-SAME: (i32 [[A:%.*]]) #[[ATTR1]] {
	; CHECK-NEXT: br label [[RETURN:%.*]]			; AMDGPU-NEXT: entry:
	; CHECK: if.end:			; AMDGPU-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
	; CHECK-NEXT: [[SUB:%.*]] = sub nsw i32 [[A]], 1			; AMDGPU-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
	; CHECK-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after.internalized(i32 [[SUB]]) #[[ATTR7]]			; AMDGPU-NEXT: [[CMP:%.*]] = icmp eq i32 [[A]], 0
	; CHECK-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after_after.internalized() #[[ATTR7]]			; AMDGPU-NEXT: br i1 [[CMP]], label [[IF_THEN:%.]], label [[IF_END:%.]]
	; CHECK-NEXT: br label [[RETURN]]			; AMDGPU: if.then:
	; CHECK: return:			; AMDGPU-NEXT: br label [[RETURN:%.*]]
	; CHECK-NEXT: ret void			; AMDGPU: if.end:
	;			; AMDGPU-NEXT: [[SUB:%.*]] = sub nsw i32 [[A]], 1
	;			; AMDGPU-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after.internalized(i32 [[SUB]]) #[[ATTR8]]
	; CHECK: Function Attrs: convergent noinline nounwind			; AMDGPU-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after_after.internalized() #[[ATTR8]]
	; CHECK-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after			; AMDGPU-NEXT: br label [[RETURN]]
	; CHECK-SAME: (i32 [[A:%.*]]) #[[ATTR1]] {			; AMDGPU: return:
	; CHECK-NEXT: entry:			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4			;
	; CHECK-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4			;
	; CHECK-NEXT: [[TMP0:%.]] = load i32, i32 [[A_ADDR]], align 4			; AMDGPU: Function Attrs: convergent noinline nounwind
	; CHECK-NEXT: [[CMP:%.*]] = icmp eq i32 [[TMP0]], 0			; AMDGPU-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after
	; CHECK-NEXT: br i1 [[CMP]], label [[IF_THEN:%.]], label [[IF_END:%.]]			; AMDGPU-SAME: (i32 [[A:%.*]]) #[[ATTR1]] {
	; CHECK: if.then:			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: br label [[RETURN:%.*]]			; AMDGPU-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
	; CHECK: if.end:			; AMDGPU-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
	; CHECK-NEXT: [[TMP1:%.]] = load i32, i32 [[A_ADDR]], align 4			; AMDGPU-NEXT: [[TMP0:%.]] = load i32, i32 [[A_ADDR]], align 4
	; CHECK-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP1]], 1			; AMDGPU-NEXT: [[CMP:%.*]] = icmp eq i32 [[TMP0]], 0
	; CHECK-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after(i32 [[SUB]]) #[[ATTR9]]			; AMDGPU-NEXT: br i1 [[CMP]], label [[IF_THEN:%.]], label [[IF_END:%.]]
	; CHECK-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after_after() #[[ATTR9]]			; AMDGPU: if.then:
	; CHECK-NEXT: br label [[RETURN]]			; AMDGPU-NEXT: br label [[RETURN:%.*]]
	; CHECK: return:			; AMDGPU: if.end:
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: [[TMP1:%.]] = load i32, i32 [[A_ADDR]], align 4
	;			; AMDGPU-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP1]], 1
	;			; AMDGPU-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after(i32 [[SUB]]) #[[ATTR10]]
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after_after() #[[ATTR10]]
	; CHECK-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_no_state_machine_weak_callee_l112			; AMDGPU-NEXT: br label [[RETURN]]
	; CHECK-SAME: () #[[ATTR0]] {			; AMDGPU: return:
	; CHECK-NEXT: entry:			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			;
	; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			;
	; CHECK-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)			; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_no_state_machine_weak_callee_l112
	; CHECK-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; AMDGPU-SAME: () #[[ATTR0]] {
	; CHECK-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; AMDGPU-NEXT: entry:
	; CHECK: worker_state_machine.begin:			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
	; CHECK-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; CHECK-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
	; CHECK-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; CHECK-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; CHECK-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; AMDGPU: worker_state_machine.begin:
	; CHECK: worker_state_machine.finished:			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
	; CHECK: worker_state_machine.is_active.check:			; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
	; CHECK-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
	; CHECK: worker_state_machine.parallel_region.fallback.execute:			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; CHECK-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])			; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]			; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
	; CHECK: worker_state_machine.parallel_region.end:			; AMDGPU: worker_state_machine.finished:
	; CHECK-NEXT: call void @__kmpc_kernel_end_parallel()			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]			; AMDGPU: worker_state_machine.is_active.check:
	; CHECK: worker_state_machine.done.barrier:			; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; CHECK-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU: worker_state_machine.parallel_region.fallback.execute:
	; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]			; AMDGPU-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
	; CHECK: thread.user_code.check:			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
	; CHECK-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			; AMDGPU: worker_state_machine.parallel_region.end:
	; CHECK-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			; AMDGPU-NEXT: call void @__kmpc_kernel_end_parallel()
	; CHECK: user_code.entry:			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
	; CHECK-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]			; AMDGPU: worker_state_machine.done.barrier:
	; CHECK-NEXT: call void @__omp_outlined__16(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
	; CHECK-NEXT: ret void			; AMDGPU: thread.user_code.check:
	; CHECK: worker.exit:			; AMDGPU-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	;			; AMDGPU: user_code.entry:
	;			; AMDGPU-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: call void @__omp_outlined__16(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__16			; AMDGPU-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
	; CHECK-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: entry:			; AMDGPU: worker.exit:
	; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			;
	; CHECK-NEXT: call void @weak_callee_empty() #[[ATTR7]]			;
	; CHECK-NEXT: ret void			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	;			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__16
	;			; AMDGPU-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK: Function Attrs: convergent noinline nounwind			; AMDGPU-NEXT: entry:
	; CHECK-LABEL: define {{[^@]+}}@weak_callee_empty			; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-SAME: () #[[ATTR1]] {			; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: entry:			; AMDGPU-NEXT: call void @weak_callee_empty() #[[ATTR8]]
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: ret void
	;			;
	;			;
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU: Function Attrs: convergent noinline nounwind
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__17			; AMDGPU-LABEL: define {{[^@]+}}@weak_callee_empty
	; CHECK-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; AMDGPU-SAME: () #[[ATTR1]] {
	; CHECK-NEXT: entry:			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			;
	; CHECK-NEXT: call void @p0() #[[ATTR9]]			;
	; CHECK-NEXT: ret void			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	;			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__17
	;			; AMDGPU-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: entry:
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__17_wrapper			; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: entry:			; AMDGPU-NEXT: call void @p0() #[[ATTR10]]
	; CHECK-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			;
	; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			;
	; CHECK-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__17_wrapper
	; CHECK-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; AMDGPU-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; AMDGPU-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	; CHECK-NEXT: call void @__omp_outlined__17(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; AMDGPU-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	;			; AMDGPU-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	;			; AMDGPU-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__18			; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	; CHECK-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; AMDGPU-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	; CHECK-NEXT: entry:			; AMDGPU-NEXT: call void @__omp_outlined__17(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			;
	; CHECK-NEXT: call void @p0() #[[ATTR9]]			;
	; CHECK-NEXT: ret void			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	;			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__18
	;			; AMDGPU-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: entry:
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__18_wrapper			; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: entry:			; AMDGPU-NEXT: call void @p0() #[[ATTR10]]
	; CHECK-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			;
	; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			;
	; CHECK-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__18_wrapper
	; CHECK-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; AMDGPU-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; AMDGPU-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	; CHECK-NEXT: call void @__omp_outlined__18(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; AMDGPU-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	;			; AMDGPU-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	;			; AMDGPU-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; CHECK: Function Attrs: convergent noinline nounwind			; AMDGPU-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	; CHECK-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after_after.internalized			; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	; CHECK-SAME: () #[[ATTR1]] {			; AMDGPU-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	; CHECK-NEXT: entry:			; AMDGPU-NEXT: call void @__omp_outlined__18(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2]]) #[[ATTR3]]			;
	; CHECK-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			;
	; CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__19 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__19_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)			; AMDGPU: Function Attrs: convergent noinline nounwind
	; CHECK-NEXT: ret void			; AMDGPU-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after_after.internalized
	;			; AMDGPU-SAME: () #[[ATTR1]] {
	;			; AMDGPU-NEXT: entry:
	; CHECK: Function Attrs: convergent noinline nounwind			; AMDGPU-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
	; CHECK-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after_after			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2]]) #[[ATTR3]]
	; CHECK-SAME: () #[[ATTR1]] {			; AMDGPU-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	; CHECK-NEXT: entry:			; AMDGPU-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__19 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__19_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
	; CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])			;
	; CHECK-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			;
	; CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__19 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__19_wrapper to i8), i8* [[TMP1]], i64 0)			; AMDGPU: Function Attrs: convergent noinline nounwind
	; CHECK-NEXT: ret void			; AMDGPU-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after_after
	;			; AMDGPU-SAME: () #[[ATTR1]] {
	;			; AMDGPU-NEXT: entry:
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__19			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
	; CHECK-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; AMDGPU-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	; CHECK-NEXT: entry:			; AMDGPU-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__19 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__19_wrapper to i8), i8* [[TMP1]], i64 0)
	; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			;
	; CHECK-NEXT: call void @p0() #[[ATTR9]]			;
	; CHECK-NEXT: ret void			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	;			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__19
	;			; AMDGPU-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: entry:
	; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__19_wrapper			; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-NEXT: entry:			; AMDGPU-NEXT: call void @p0() #[[ATTR10]]
	; CHECK-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; AMDGPU-NEXT: ret void
	; CHECK-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			;
	; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			;
	; CHECK-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__19_wrapper
	; CHECK-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; AMDGPU-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; AMDGPU-NEXT: entry:
	; CHECK-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; AMDGPU-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	; CHECK-NEXT: call void @__omp_outlined__19(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; AMDGPU-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	; CHECK-NEXT: ret void			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	;			; AMDGPU-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	;			; AMDGPU-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_no_state_machine_needed_l14			; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	; CHECK-DISABLED-SAME: () #[[ATTR0:[0-9]+]] {			; AMDGPU-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	; CHECK-DISABLED-NEXT: entry:			; AMDGPU-NEXT: call void @__omp_outlined__19(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: ret void
	; CHECK-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			;
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i1 false, i1 true, i1 true)			;
	; CHECK-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_no_state_machine_needed_l14
	; CHECK-DISABLED: user_code.entry:			; NVPTX-SAME: () #[[ATTR0:[0-9]+]] {
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3:[0-9]+]]			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)			; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i1 false, i1 false, i1 true)
	; CHECK-DISABLED: worker.exit:			; NVPTX-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	;			; NVPTX: user_code.entry:
	;			; NVPTX-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3:[0-9]+]]
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: call void @__omp_outlined__(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__			; NVPTX-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
	; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: entry:			; NVPTX: worker.exit:
	; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			;
	; CHECK-DISABLED-NEXT: call void @no_parallel_region_in_here.internalized() #[[ATTR7:[0-9]+]]			;
	; CHECK-DISABLED-NEXT: call void @unknown_no_openmp() #[[ATTR8:[0-9]+]]			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__
	;			; NVPTX-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	;			; NVPTX-NEXT: entry:
	; CHECK-DISABLED: Function Attrs: convergent noinline nounwind			; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@no_parallel_region_in_here.internalized			; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-SAME: () #[[ATTR1:[0-9]+]] {			; NVPTX-NEXT: call void @no_parallel_region_in_here.internalized() #[[ATTR8:[0-9]+]]
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: call void @unknown_no_openmp() #[[ATTR9:[0-9]+]]
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2:[0-9]+]]) #[[ATTR3]]			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_single(%struct.ident_t noundef @[[GLOB2]], i32 [[TMP0]]) #[[ATTR3]]			;
	; CHECK-DISABLED-NEXT: [[TMP2:%.*]] = icmp ne i32 [[TMP1]], 0			;
	; CHECK-DISABLED-NEXT: br i1 [[TMP2]], label [[OMP_IF_THEN:%.]], label [[OMP_IF_END:%.]]			; NVPTX: Function Attrs: convergent noinline nounwind
	; CHECK-DISABLED: omp_if.then:			; NVPTX-LABEL: define {{[^@]+}}@no_parallel_region_in_here.internalized
	; CHECK-DISABLED-NEXT: store i32 0, i32* @G, align 4			; NVPTX-SAME: () #[[ATTR1:[0-9]+]] {
	; CHECK-DISABLED-NEXT: call void @__kmpc_end_single(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]]) #[[ATTR3]]			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: br label [[OMP_IF_END]]			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2:[0-9]+]]) #[[ATTR3]]
	; CHECK-DISABLED: omp_if.end:			; NVPTX-NEXT: [[TMP1:%.]] = call i32 @__kmpc_single(%struct.ident_t noundef @[[GLOB2]], i32 [[TMP0]]) #[[ATTR3]]
	; CHECK-DISABLED-NEXT: call void @__kmpc_barrier(%struct.ident_t* noundef @[[GLOB3:[0-9]+]], i32 [[TMP0]]) #[[ATTR3]]			; NVPTX-NEXT: [[TMP2:%.*]] = icmp ne i32 [[TMP1]], 0
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: br i1 [[TMP2]], label [[OMP_IF_THEN:%.]], label [[OMP_IF_END:%.]]
	;			; NVPTX: omp_if.then:
	;			; NVPTX-NEXT: store i32 0, i32* @G, align 4
	; CHECK-DISABLED: Function Attrs: convergent noinline nounwind			; NVPTX-NEXT: call void @__kmpc_end_single(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]]) #[[ATTR3]]
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@no_parallel_region_in_here			; NVPTX-NEXT: br label [[OMP_IF_END]]
	; CHECK-DISABLED-SAME: () #[[ATTR1]] {			; NVPTX: omp_if.end:
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: call void @__kmpc_barrier(%struct.ident_t* noundef @[[GLOB3:[0-9]+]], i32 [[TMP0]]) #[[ATTR3]]
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_single(%struct.ident_t @[[GLOB2]], i32 [[TMP0]])			;
	; CHECK-DISABLED-NEXT: [[TMP2:%.*]] = icmp ne i32 [[TMP1]], 0			;
	; CHECK-DISABLED-NEXT: br i1 [[TMP2]], label [[OMP_IF_THEN:%.]], label [[OMP_IF_END:%.]]			; NVPTX: Function Attrs: convergent noinline nounwind
	; CHECK-DISABLED: omp_if.then:			; NVPTX-LABEL: define {{[^@]+}}@no_parallel_region_in_here
	; CHECK-DISABLED-NEXT: store i32 0, i32* @G, align 4			; NVPTX-SAME: () #[[ATTR1]] {
	; CHECK-DISABLED-NEXT: call void @__kmpc_end_single(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]])			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: br label [[OMP_IF_END]]			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
	; CHECK-DISABLED: omp_if.end:			; NVPTX-NEXT: [[TMP1:%.]] = call i32 @__kmpc_single(%struct.ident_t @[[GLOB2]], i32 [[TMP0]])
	; CHECK-DISABLED-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB3]], i32 [[TMP0]])			; NVPTX-NEXT: [[TMP2:%.*]] = icmp ne i32 [[TMP1]], 0
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: br i1 [[TMP2]], label [[OMP_IF_THEN:%.]], label [[OMP_IF_END:%.]]
	;			; NVPTX: omp_if.then:
	;			; NVPTX-NEXT: store i32 0, i32* @G, align 4
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: call void @__kmpc_end_single(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]])
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_l22			; NVPTX-NEXT: br label [[OMP_IF_END]]
	; CHECK-DISABLED-SAME: () #[[ATTR0]] {			; NVPTX: omp_if.end:
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB3]], i32 [[TMP0]])
	; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			;
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)			;
	; CHECK-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_l22
	; CHECK-DISABLED: user_code.entry:			; NVPTX-SAME: () #[[ATTR0]] {
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__1(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)			; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
	; CHECK-DISABLED: worker.exit:			; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	;			; NVPTX: worker_state_machine.begin:
	;			; NVPTX-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__1			; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
	; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
	; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX: worker_state_machine.finished:
	; CHECK-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8			; NVPTX: worker_state_machine.is_active.check:
	; CHECK-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8			; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; CHECK-DISABLED-NEXT: call void @unknown_no_openmp() #[[ATTR8]]			; NVPTX: worker_state_machine.parallel_region.check:
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4			; NVPTX-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__2_wrapper.ID to void (i16, i32)*)
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			; NVPTX-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; CHECK-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__2 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__2_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)			; NVPTX: worker_state_machine.parallel_region.execute:
	; CHECK-DISABLED-NEXT: call void @no_parallel_region_in_here.internalized() #[[ATTR7]]			; NVPTX-NEXT: call void @__omp_outlined__2_wrapper(i16 0, i32 [[TMP0]])
	; CHECK-DISABLED-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
	; CHECK-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__3 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__3_wrapper to i8), i8* noundef [[TMP2]], i64 noundef 0)			; NVPTX: worker_state_machine.parallel_region.check1:
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: br i1 true, label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE2:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK3:%.]]
	;			; NVPTX: worker_state_machine.parallel_region.execute2:
	;			; NVPTX-NEXT: call void @__omp_outlined__3_wrapper(i16 0, i32 [[TMP0]])
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__2			; NVPTX: worker_state_machine.parallel_region.check3:
	; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK-DISABLED-NEXT: entry:			; NVPTX: worker_state_machine.parallel_region.end:
	; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: call void @__kmpc_kernel_end_parallel()
	; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
	; CHECK-DISABLED-NEXT: call void @p0() #[[ATTR9:[0-9]+]]			; NVPTX: worker_state_machine.done.barrier:
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	;			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
	;			; NVPTX: thread.user_code.check:
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__2_wrapper			; NVPTX-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	; CHECK-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			; NVPTX: user_code.entry:
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
	; CHECK-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
	; CHECK-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; NVPTX-NEXT: call void @__omp_outlined__1(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
	; CHECK-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; NVPTX: worker.exit:
	; CHECK-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			;
	; CHECK-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			;
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__2(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__1
	;			; NVPTX-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	;			; NVPTX-NEXT: entry:
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__3			; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; NVPTX-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8
	; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
	; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: call void @unknown_no_openmp() #[[ATTR9]]
	; CHECK-DISABLED-NEXT: call void @p1() #[[ATTR9]]			; NVPTX-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	;			; NVPTX-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__2 to i8), i8 noundef @__omp_outlined__2_wrapper.ID, i8** noundef [[TMP1]], i64 noundef 0)
	;			; NVPTX-NEXT: call void @no_parallel_region_in_here.internalized() #[[ATTR8]]
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper			; NVPTX-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__3 to i8), i8 noundef @__omp_outlined__3_wrapper.ID, i8** noundef [[TMP2]], i64 noundef 0)
	; CHECK-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: entry:			;
	; CHECK-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			;
	; CHECK-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__2
	; CHECK-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; NVPTX-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; NVPTX-NEXT: call void @p0() #[[ATTR10:[0-9]+]]
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__3(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: ret void			;
	;			;
	;			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__2_wrapper
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_l39			; NVPTX-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	; CHECK-DISABLED-SAME: () #[[ATTR0]] {			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)			; NVPTX-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	; CHECK-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			; NVPTX-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; CHECK-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			; NVPTX-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	; CHECK-DISABLED: user_code.entry:			; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]			; NVPTX-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4			; NVPTX-NEXT: call void @__omp_outlined__2(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__4(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)			;
	; CHECK-DISABLED-NEXT: ret void			;
	; CHECK-DISABLED: worker.exit:			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__3
	;			; NVPTX-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	;			; NVPTX-NEXT: entry:
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__4			; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; NVPTX-NEXT: call void @p1() #[[ATTR10]]
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			;
	; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			;
	; CHECK-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper
	; CHECK-DISABLED-NEXT: call void @unknown_no_openmp() #[[ATTR8]]			; NVPTX-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	; CHECK-DISABLED-NEXT: call void @simple_state_machine_interprocedural_before.internalized() #[[ATTR7]]			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: call void @no_parallel_region_in_here.internalized() #[[ATTR7]]			; NVPTX-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4			; NVPTX-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__5 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__5_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)			; NVPTX-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	; CHECK-DISABLED-NEXT: call void @simple_state_machine_interprocedural_after.internalized() #[[ATTR7]]			; NVPTX-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	;			; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	;			; NVPTX-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	; CHECK-DISABLED: Function Attrs: convergent noinline nounwind			; NVPTX-NEXT: call void @__omp_outlined__3(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_before.internalized			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-SAME: () #[[ATTR1]] {			;
	; CHECK-DISABLED-NEXT: entry:			;
	; CHECK-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2]]) #[[ATTR3]]			; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_l39
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			; NVPTX-SAME: () #[[ATTR0]] {
	; CHECK-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__17 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__17_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
	;			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	;			; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; CHECK-DISABLED: Function Attrs: convergent noinline nounwind			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_before			; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; CHECK-DISABLED-SAME: () #[[ATTR1]] {			; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; CHECK-DISABLED-NEXT: entry:			; NVPTX: worker_state_machine.begin:
	; CHECK-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; NVPTX-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])			; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
	; CHECK-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__17 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__17_wrapper to i8), i8* [[TMP1]], i64 0)			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	;			; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
	;			; NVPTX: worker_state_machine.finished:
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__5			; NVPTX: worker_state_machine.is_active.check:
	; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; CHECK-DISABLED-NEXT: entry:			; NVPTX: worker_state_machine.parallel_region.check:
	; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], @__omp_outlined__17_wrapper
	; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; CHECK-DISABLED-NEXT: call void @p1() #[[ATTR9]]			; NVPTX: worker_state_machine.parallel_region.execute:
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: call void @__omp_outlined__17_wrapper(i16 0, i32 [[TMP0]])
	;			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
	;			; NVPTX: worker_state_machine.parallel_region.check1:
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: [[WORKER_CHECK_PARALLEL_REGION4:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__5_wrapper.ID to void (i16, i32)*)
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__5_wrapper			; NVPTX-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION4]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE2:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK3:%.]]
	; CHECK-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			; NVPTX: worker_state_machine.parallel_region.execute2:
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: call void @__omp_outlined__5_wrapper(i16 0, i32 [[TMP0]])
	; CHECK-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; NVPTX: worker_state_machine.parallel_region.check3:
	; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: br i1 true, label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE5:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK6:%.]]
	; CHECK-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; NVPTX: worker_state_machine.parallel_region.execute5:
	; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; NVPTX-NEXT: call void @__omp_outlined__18_wrapper(i16 0, i32 [[TMP0]])
	; CHECK-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; NVPTX: worker_state_machine.parallel_region.check6:
	; CHECK-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__5(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; NVPTX: worker_state_machine.parallel_region.end:
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: call void @__kmpc_kernel_end_parallel()
	;			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
	;			; NVPTX: worker_state_machine.done.barrier:
	; CHECK-DISABLED: Function Attrs: convergent noinline nounwind			; NVPTX-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_after.internalized			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
	; CHECK-DISABLED-SAME: () #[[ATTR1]] {			; NVPTX: thread.user_code.check:
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	; CHECK-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; NVPTX-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2]]) #[[ATTR3]]			; NVPTX: user_code.entry:
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			; NVPTX-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
	; CHECK-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__18 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__18_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)			; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: call void @__omp_outlined__4(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
	;			; NVPTX-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
	;			; NVPTX-NEXT: ret void
	; CHECK-DISABLED: Function Attrs: convergent noinline nounwind			; NVPTX: worker.exit:
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_after			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-SAME: () #[[ATTR1]] {			;
	; CHECK-DISABLED-NEXT: entry:			;
	; CHECK-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__4
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			; NVPTX-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__18 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__18_wrapper to i8), i8* [[TMP1]], i64 0)			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	;			; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	;			; NVPTX-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_with_fallback_l55			; NVPTX-NEXT: call void @unknown_no_openmp() #[[ATTR9]]
	; CHECK-DISABLED-SAME: () #[[ATTR0]] {			; NVPTX-NEXT: call void @simple_state_machine_interprocedural_before.internalized() #[[ATTR8]]
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: call void @no_parallel_region_in_here.internalized() #[[ATTR8]]
	; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
	; CHECK-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)			; NVPTX-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__5 to i8), i8 noundef @__omp_outlined__5_wrapper.ID, i8** noundef [[TMP1]], i64 noundef 0)
	; CHECK-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			; NVPTX-NEXT: call void @simple_state_machine_interprocedural_after.internalized() #[[ATTR8]]
	; CHECK-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			; NVPTX-NEXT: ret void
	; CHECK-DISABLED: user_code.entry:			;
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]			;
	; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4			; NVPTX: Function Attrs: convergent noinline nounwind
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__6(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]			; NVPTX-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_before.internalized
	; CHECK-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)			; NVPTX-SAME: () #[[ATTR1]] {
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: entry:
	; CHECK-DISABLED: worker.exit:			; NVPTX-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2]]) #[[ATTR3]]
	;			; NVPTX-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	;			; NVPTX-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__17 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__17_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__6			;
	; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			;
	; CHECK-DISABLED-NEXT: entry:			; NVPTX: Function Attrs: convergent noinline nounwind
	; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_before
	; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-SAME: () #[[ATTR1]] {
	; CHECK-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8			; NVPTX-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
	; CHECK-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4			; NVPTX-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			; NVPTX-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__17 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__17_wrapper to i8), i8* [[TMP1]], i64 0)
	; CHECK-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__7 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__7_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: [[CALL:%.*]] = call i32 @unknown() #[[ATTR9]]			;
	; CHECK-DISABLED-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**			;
	; CHECK-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__8 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__8_wrapper to i8), i8* noundef [[TMP2]], i64 noundef 0)			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__5
	;			; NVPTX-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	;			; NVPTX-NEXT: entry:
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__7			; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; NVPTX-NEXT: call void @p1() #[[ATTR10]]
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			;
	; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			;
	; CHECK-DISABLED-NEXT: call void @p0() #[[ATTR9]]			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__5_wrapper
	;			; NVPTX-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	;			; NVPTX-NEXT: entry:
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__7_wrapper			; NVPTX-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	; CHECK-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; NVPTX-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; CHECK-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; NVPTX-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	; CHECK-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; NVPTX-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; NVPTX-NEXT: call void @__omp_outlined__5(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			;
	; CHECK-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			;
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__7(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; NVPTX: Function Attrs: convergent noinline nounwind
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_after.internalized
	;			; NVPTX-SAME: () #[[ATTR1]] {
	;			; NVPTX-NEXT: entry:
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__8			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2]]) #[[ATTR3]]
	; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; NVPTX-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__18 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__18_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
	; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			;
	; CHECK-DISABLED-NEXT: call void @p1() #[[ATTR9]]			;
	; CHECK-DISABLED-NEXT: ret void			; NVPTX: Function Attrs: convergent noinline nounwind
	;			; NVPTX-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_after
	;			; NVPTX-SAME: () #[[ATTR1]] {
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__8_wrapper			; NVPTX-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
	; CHECK-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	; CHECK-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; NVPTX-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__18 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__18_wrapper to i8), i8* [[TMP1]], i64 0)
	; CHECK-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			;
	; CHECK-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			;
	; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_with_fallback_l55
	; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; NVPTX-SAME: () #[[ATTR0]] {
	; CHECK-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__8(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	;			; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	;			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_no_openmp_attr_l66			; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; CHECK-DISABLED-SAME: () #[[ATTR0]] {			; NVPTX: worker_state_machine.begin:
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
	; CHECK-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; CHECK-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; CHECK-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
	; CHECK-DISABLED: user_code.entry:			; NVPTX: worker_state_machine.finished:
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4			; NVPTX: worker_state_machine.is_active.check:
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__9(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]			; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; CHECK-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)			; NVPTX: worker_state_machine.parallel_region.check:
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__7_wrapper.ID to void (i16, i32)*)
	; CHECK-DISABLED: worker.exit:			; NVPTX-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; CHECK-DISABLED-NEXT: ret void			; NVPTX: worker_state_machine.parallel_region.execute:
	;			; NVPTX-NEXT: call void @__omp_outlined__7_wrapper(i16 0, i32 [[TMP0]])
	;			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX: worker_state_machine.parallel_region.check1:
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__9			; NVPTX-NEXT: [[WORKER_CHECK_PARALLEL_REGION4:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__8_wrapper.ID to void (i16, i32)*)
	; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; NVPTX-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION4]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE2:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]
	; CHECK-DISABLED-NEXT: entry:			; NVPTX: worker_state_machine.parallel_region.execute2:
	; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: call void @__omp_outlined__8_wrapper(i16 0, i32 [[TMP0]])
	; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; NVPTX: worker_state_machine.parallel_region.fallback.execute:
	; CHECK-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8			; NVPTX-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
	; CHECK-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4			; NVPTX: worker_state_machine.parallel_region.end:
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			; NVPTX-NEXT: call void @__kmpc_kernel_end_parallel()
	; CHECK-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__10 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__10_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
	; CHECK-DISABLED-NEXT: call void @unknown_no_openmp() #[[ATTR8]]			; NVPTX: worker_state_machine.done.barrier:
	; CHECK-DISABLED-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**			; NVPTX-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__11 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__11_wrapper to i8), i8* noundef [[TMP2]], i64 noundef 0)			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
	; CHECK-DISABLED-NEXT: ret void			; NVPTX: thread.user_code.check:
	;			; NVPTX-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	;			; NVPTX-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX: user_code.entry:
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__10			; NVPTX-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
	; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: call void @__omp_outlined__6(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
	; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: call void @p0() #[[ATTR9]]			; NVPTX: worker.exit:
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: ret void
	;			;
	;			;
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__10_wrapper			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__6
	; CHECK-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			; NVPTX-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
	; CHECK-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; NVPTX-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8
	; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; NVPTX-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
	; CHECK-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; NVPTX-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
	; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; NVPTX-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	; CHECK-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; NVPTX-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__7 to i8), i8 noundef @__omp_outlined__7_wrapper.ID, i8** noundef [[TMP1]], i64 noundef 0)
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__10(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; NVPTX-NEXT: [[CALL:%.*]] = call i32 @unknown() #[[ATTR10]]
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**
	;			; NVPTX-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__8 to i8), i8 noundef @__omp_outlined__8_wrapper.ID, i8** noundef [[TMP2]], i64 noundef 0)
	;			; NVPTX-NEXT: ret void
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			;
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__11			;
	; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__7
	; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: call void @p1() #[[ATTR9]]			; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	;			; NVPTX-NEXT: call void @p0() #[[ATTR10]]
	;			; NVPTX-NEXT: ret void
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			;
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__11_wrapper			;
	; CHECK-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__7_wrapper
	; CHECK-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; NVPTX-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	; CHECK-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	; CHECK-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; NVPTX-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; NVPTX-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; NVPTX-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; CHECK-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; NVPTX-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__11(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	;			; NVPTX-NEXT: call void @__omp_outlined__7(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	;			; NVPTX-NEXT: ret void
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			;
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_pure_l77			;
	; CHECK-DISABLED-SAME: () #[[ATTR0]] {			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__8
	; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)			; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			; NVPTX-NEXT: call void @p1() #[[ATTR10]]
	; CHECK-DISABLED: user_code.entry:			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]			;
	; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4			;
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__12(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__8_wrapper
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	; CHECK-DISABLED: worker.exit:			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	;			; NVPTX-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	;			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__12			; NVPTX-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; NVPTX-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: call void @__omp_outlined__8(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8			;
	; CHECK-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8			;
	; CHECK-DISABLED-NEXT: call void @unknown_no_openmp() #[[ATTR8]]			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4			; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_no_openmp_attr_l66
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			; NVPTX-SAME: () #[[ATTR0]] {
	; CHECK-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__13 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__13_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
	; CHECK-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__14 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__14_wrapper to i8), i8* noundef [[TMP2]], i64 noundef 0)			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	;			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
	;			; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__13			; NVPTX: worker_state_machine.begin:
	; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; NVPTX-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
	; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
	; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; CHECK-DISABLED-NEXT: call void @p0() #[[ATTR9]]			; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
	;			; NVPTX: worker_state_machine.finished:
	;			; NVPTX-NEXT: ret void
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX: worker_state_machine.is_active.check:
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__13_wrapper			; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; CHECK-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			; NVPTX: worker_state_machine.parallel_region.check:
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__10_wrapper.ID to void (i16, i32)*)
	; CHECK-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; NVPTX-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; CHECK-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; NVPTX: worker_state_machine.parallel_region.execute:
	; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: call void @__omp_outlined__10_wrapper(i16 0, i32 [[TMP0]])
	; CHECK-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
	; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; NVPTX: worker_state_machine.parallel_region.check1:
	; CHECK-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; NVPTX-NEXT: br i1 true, label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE2:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK3:%.]]
	; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; NVPTX: worker_state_machine.parallel_region.execute2:
	; CHECK-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; NVPTX-NEXT: call void @__omp_outlined__11_wrapper(i16 0, i32 [[TMP0]])
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__13(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK-DISABLED-NEXT: ret void			; NVPTX: worker_state_machine.parallel_region.check3:
	;			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	;			; NVPTX: worker_state_machine.parallel_region.end:
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: call void @__kmpc_kernel_end_parallel()
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__14			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
	; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; NVPTX: worker_state_machine.done.barrier:
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
	; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX: thread.user_code.check:
	; CHECK-DISABLED-NEXT: call void @p1() #[[ATTR9]]			; NVPTX-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	;			; NVPTX: user_code.entry:
	;			; NVPTX-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__14_wrapper			; NVPTX-NEXT: call void @__omp_outlined__9(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			; NVPTX-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; NVPTX: worker.exit:
	; CHECK-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			;
	; CHECK-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			;
	; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__9
	; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; NVPTX-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__14(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	;			; NVPTX-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
	;			; NVPTX-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_nested_recursive_l92			; NVPTX-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
	; CHECK-DISABLED-SAME: () #[[ATTR0]] {			; NVPTX-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__10 to i8), i8 noundef @__omp_outlined__10_wrapper.ID, i8** noundef [[TMP1]], i64 noundef 0)
	; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: call void @unknown_no_openmp() #[[ATTR9]]
	; CHECK-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)			; NVPTX-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__11 to i8), i8 noundef @__omp_outlined__11_wrapper.ID, i8** noundef [[TMP2]], i64 noundef 0)
	; CHECK-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			;
	; CHECK-DISABLED: user_code.entry:			;
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__15(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__10
	; CHECK-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)			; NVPTX-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: entry:
	; CHECK-DISABLED: worker.exit:			; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	;			; NVPTX-NEXT: call void @p0() #[[ATTR10]]
	;			; NVPTX-NEXT: ret void
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			;
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__15			;
	; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__10_wrapper
	; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: [[CALL:%.]] = call i32 bitcast (i32 (...) @omp_get_thread_num to i32 ()*)() #[[ATTR9]]			; NVPTX-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	; CHECK-DISABLED-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after.internalized(i32 [[CALL]]) #[[ATTR7]]			; NVPTX-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	;			; NVPTX-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	;			; NVPTX-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; CHECK-DISABLED: Function Attrs: convergent noinline nounwind			; NVPTX-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after.internalized			; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	; CHECK-DISABLED-SAME: (i32 [[A:%.*]]) #[[ATTR1]] {			; NVPTX-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: call void @__omp_outlined__10(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-DISABLED-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4			;
	; CHECK-DISABLED-NEXT: [[CMP:%.*]] = icmp eq i32 [[A]], 0			;
	; CHECK-DISABLED-NEXT: br i1 [[CMP]], label [[IF_THEN:%.]], label [[IF_END:%.]]			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED: if.then:			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__11
	; CHECK-DISABLED-NEXT: br label [[RETURN:%.*]]			; NVPTX-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-DISABLED: if.end:			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: [[SUB:%.*]] = sub nsw i32 [[A]], 1			; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after.internalized(i32 [[SUB]]) #[[ATTR7]]			; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after_after.internalized() #[[ATTR7]]			; NVPTX-NEXT: call void @p1() #[[ATTR10]]
	; CHECK-DISABLED-NEXT: br label [[RETURN]]			; NVPTX-NEXT: ret void
	; CHECK-DISABLED: return:			;
	; CHECK-DISABLED-NEXT: ret void			;
	;			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	;			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__11_wrapper
	; CHECK-DISABLED: Function Attrs: convergent noinline nounwind			; NVPTX-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-SAME: (i32 [[A:%.*]]) #[[ATTR1]] {			; NVPTX-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4			; NVPTX-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[A_ADDR]], align 4			; NVPTX-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; CHECK-DISABLED-NEXT: [[CMP:%.*]] = icmp eq i32 [[TMP0]], 0			; NVPTX-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	; CHECK-DISABLED-NEXT: br i1 [[CMP]], label [[IF_THEN:%.]], label [[IF_END:%.]]			; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	; CHECK-DISABLED: if.then:			; NVPTX-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	; CHECK-DISABLED-NEXT: br label [[RETURN:%.*]]			; NVPTX-NEXT: call void @__omp_outlined__11(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-DISABLED: if.end:			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = load i32, i32 [[A_ADDR]], align 4			;
	; CHECK-DISABLED-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP1]], 1			;
	; CHECK-DISABLED-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after(i32 [[SUB]]) #[[ATTR9]]			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after_after() #[[ATTR9]]			; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_pure_l77
	; CHECK-DISABLED-NEXT: br label [[RETURN]]			; NVPTX-SAME: () #[[ATTR0]] {
	; CHECK-DISABLED: return:			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
	;			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	;			; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_no_state_machine_weak_callee_l112			; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; CHECK-DISABLED-SAME: () #[[ATTR0]] {			; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; CHECK-DISABLED-NEXT: entry:			; NVPTX: worker_state_machine.begin:
	; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)			; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
	; CHECK-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; CHECK-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; CHECK-DISABLED: user_code.entry:			; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]			; NVPTX: worker_state_machine.finished:
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__16(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)			; NVPTX: worker_state_machine.is_active.check:
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; CHECK-DISABLED: worker.exit:			; NVPTX: worker_state_machine.parallel_region.check:
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__13_wrapper.ID to void (i16, i32)*)
	;			; NVPTX-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	;			; NVPTX: worker_state_machine.parallel_region.execute:
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: call void @__omp_outlined__13_wrapper(i16 0, i32 [[TMP0]])
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__16			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
	; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; NVPTX: worker_state_machine.parallel_region.check1:
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: br i1 true, label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE2:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK3:%.]]
	; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX: worker_state_machine.parallel_region.execute2:
	; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: call void @__omp_outlined__14_wrapper(i16 0, i32 [[TMP0]])
	; CHECK-DISABLED-NEXT: call void @weak_callee_empty() #[[ATTR7]]			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	; CHECK-DISABLED-NEXT: ret void			; NVPTX: worker_state_machine.parallel_region.check3:
	;			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
	;			; NVPTX: worker_state_machine.parallel_region.end:
	; CHECK-DISABLED: Function Attrs: convergent noinline nounwind			; NVPTX-NEXT: call void @__kmpc_kernel_end_parallel()
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@weak_callee_empty			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
	; CHECK-DISABLED-SAME: () #[[ATTR1]] {			; NVPTX: worker_state_machine.done.barrier:
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
	;			; NVPTX: thread.user_code.check:
	;			; NVPTX-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__17			; NVPTX: user_code.entry:
	; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; NVPTX-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
	; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: call void @__omp_outlined__12(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
	; CHECK-DISABLED-NEXT: call void @p0() #[[ATTR9]]			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: ret void			; NVPTX: worker.exit:
	;			; NVPTX-NEXT: ret void
	;			;
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			;
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__17_wrapper			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__12
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; NVPTX-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
	; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; NVPTX-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8
	; CHECK-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; NVPTX-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
	; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; NVPTX-NEXT: call void @unknown_no_openmp() #[[ATTR9]]
	; CHECK-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; NVPTX-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__17(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; NVPTX-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__13 to i8), i8 noundef @__omp_outlined__13_wrapper.ID, i8** noundef [[TMP1]], i64 noundef 0)
	;			; NVPTX-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**
	;			; NVPTX-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__14 to i8), i8 noundef @__omp_outlined__14_wrapper.ID, i8** noundef [[TMP2]], i64 noundef 0)
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__18			;
	; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			;
	; CHECK-DISABLED-NEXT: entry:			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__13
	; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-DISABLED-NEXT: call void @p0() #[[ATTR9]]			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	;			; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	;			; NVPTX-NEXT: call void @p0() #[[ATTR10]]
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__18_wrapper			;
	; CHECK-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			;
	; CHECK-DISABLED-NEXT: entry:			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__13_wrapper
	; CHECK-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; NVPTX-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; NVPTX-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; NVPTX-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; NVPTX-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	; CHECK-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; NVPTX-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__18(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; NVPTX-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	;			; NVPTX-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	;			; NVPTX-NEXT: call void @__omp_outlined__13(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-DISABLED: Function Attrs: convergent noinline nounwind			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after_after.internalized			;
	; CHECK-DISABLED-SAME: () #[[ATTR1]] {			;
	; CHECK-DISABLED-NEXT: entry:			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__14
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2]]) #[[ATTR3]]			; NVPTX-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__19 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__19_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)			; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	;			; NVPTX-NEXT: call void @p1() #[[ATTR10]]
	;			; NVPTX-NEXT: ret void
	; CHECK-DISABLED: Function Attrs: convergent noinline nounwind			;
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after_after			;
	; CHECK-DISABLED-SAME: () #[[ATTR1]] {			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__14_wrapper
	; CHECK-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8			; NVPTX-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			; NVPTX-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
	; CHECK-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__19 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__19_wrapper to i8), i8* [[TMP1]], i64 0)			; NVPTX-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	;			; NVPTX-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
	;			; NVPTX-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__19			; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {			; NVPTX-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: call void @__omp_outlined__14(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
	; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			; NVPTX-NEXT: ret void
	; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			;
	; CHECK-DISABLED-NEXT: call void @p0() #[[ATTR9]]			;
	; CHECK-DISABLED-NEXT: ret void			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	;			; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_nested_recursive_l92
	;			; NVPTX-SAME: () #[[ATTR0]] {
	; CHECK-DISABLED: Function Attrs: convergent noinline norecurse nounwind			; NVPTX-NEXT: entry:
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__19_wrapper			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
	; CHECK-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-NEXT: entry:			; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; CHECK-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
	; CHECK-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; CHECK-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8			; NVPTX: worker_state_machine.begin:
	; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; NVPTX-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2			; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
	; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
	; CHECK-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__19(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]			; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; CHECK-DISABLED-NEXT: ret void			; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
				; NVPTX: worker_state_machine.finished:
				; NVPTX-NEXT: ret void
				; NVPTX: worker_state_machine.is_active.check:
				; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
				; NVPTX: worker_state_machine.parallel_region.check:
				; NVPTX-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], @__omp_outlined__19_wrapper
				; NVPTX-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]
				; NVPTX: worker_state_machine.parallel_region.execute:
				; NVPTX-NEXT: call void @__omp_outlined__19_wrapper(i16 0, i32 [[TMP0]])
				; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
				; NVPTX: worker_state_machine.parallel_region.fallback.execute:
				; NVPTX-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
				; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
				; NVPTX: worker_state_machine.parallel_region.end:
				; NVPTX-NEXT: call void @__kmpc_kernel_end_parallel()
				; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
				; NVPTX: worker_state_machine.done.barrier:
				; NVPTX-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
				; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
				; NVPTX: thread.user_code.check:
				; NVPTX-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
				; NVPTX-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
				; NVPTX: user_code.entry:
				; NVPTX-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
				; NVPTX-NEXT: call void @__omp_outlined__15(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
				; NVPTX-NEXT: ret void
				; NVPTX: worker.exit:
				; NVPTX-NEXT: ret void
				;
				;
				; NVPTX: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__15
				; NVPTX-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-NEXT: entry:
				; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-NEXT: [[CALL:%.]] = call i32 bitcast (i32 (...) @omp_get_thread_num to i32 ()*)() #[[ATTR10]]
				; NVPTX-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after.internalized(i32 [[CALL]]) #[[ATTR8]]
				; NVPTX-NEXT: ret void
				;
				;
				; NVPTX: Function Attrs: convergent noinline nounwind
				; NVPTX-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after.internalized
				; NVPTX-SAME: (i32 [[A:%.*]]) #[[ATTR1]] {
				; NVPTX-NEXT: entry:
				; NVPTX-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
				; NVPTX-NEXT: [[CMP:%.*]] = icmp eq i32 [[A]], 0
				; NVPTX-NEXT: br i1 [[CMP]], label [[IF_THEN:%.]], label [[IF_END:%.]]
				; NVPTX: if.then:
				; NVPTX-NEXT: br label [[RETURN:%.*]]
				; NVPTX: if.end:
				; NVPTX-NEXT: [[SUB:%.*]] = sub nsw i32 [[A]], 1
				; NVPTX-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after.internalized(i32 [[SUB]]) #[[ATTR8]]
				; NVPTX-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after_after.internalized() #[[ATTR8]]
				; NVPTX-NEXT: br label [[RETURN]]
				; NVPTX: return:
				; NVPTX-NEXT: ret void
				;
				;
				; NVPTX: Function Attrs: convergent noinline nounwind
				; NVPTX-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after
				; NVPTX-SAME: (i32 [[A:%.*]]) #[[ATTR1]] {
				; NVPTX-NEXT: entry:
				; NVPTX-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
				; NVPTX-NEXT: [[TMP0:%.]] = load i32, i32 [[A_ADDR]], align 4
				; NVPTX-NEXT: [[CMP:%.*]] = icmp eq i32 [[TMP0]], 0
				; NVPTX-NEXT: br i1 [[CMP]], label [[IF_THEN:%.]], label [[IF_END:%.]]
				; NVPTX: if.then:
				; NVPTX-NEXT: br label [[RETURN:%.*]]
				; NVPTX: if.end:
				; NVPTX-NEXT: [[TMP1:%.]] = load i32, i32 [[A_ADDR]], align 4
				; NVPTX-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP1]], 1
				; NVPTX-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after(i32 [[SUB]]) #[[ATTR10]]
				; NVPTX-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after_after() #[[ATTR10]]
				; NVPTX-NEXT: br label [[RETURN]]
				; NVPTX: return:
				; NVPTX-NEXT: ret void
				;
				;
				; NVPTX: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_no_state_machine_weak_callee_l112
				; NVPTX-SAME: () #[[ATTR0]] {
				; NVPTX-NEXT: entry:
				; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
				; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
				; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
				; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
				; NVPTX: worker_state_machine.begin:
				; NVPTX-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
				; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
				; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
				; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
				; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
				; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
				; NVPTX: worker_state_machine.finished:
				; NVPTX-NEXT: ret void
				; NVPTX: worker_state_machine.is_active.check:
				; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
				; NVPTX: worker_state_machine.parallel_region.fallback.execute:
				; NVPTX-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
				; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
				; NVPTX: worker_state_machine.parallel_region.end:
				; NVPTX-NEXT: call void @__kmpc_kernel_end_parallel()
				; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
				; NVPTX: worker_state_machine.done.barrier:
				; NVPTX-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
				; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
				; NVPTX: thread.user_code.check:
				; NVPTX-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
				; NVPTX-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
				; NVPTX: user_code.entry:
				; NVPTX-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
				; NVPTX-NEXT: call void @__omp_outlined__16(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
				; NVPTX-NEXT: ret void
				; NVPTX: worker.exit:
				; NVPTX-NEXT: ret void
				;
				;
				; NVPTX: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__16
				; NVPTX-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-NEXT: entry:
				; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-NEXT: call void @weak_callee_empty() #[[ATTR8]]
				; NVPTX-NEXT: ret void
				;
				;
				; NVPTX: Function Attrs: convergent noinline nounwind
				; NVPTX-LABEL: define {{[^@]+}}@weak_callee_empty
				; NVPTX-SAME: () #[[ATTR1]] {
				; NVPTX-NEXT: entry:
				; NVPTX-NEXT: ret void
				;
				;
				; NVPTX: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__17
				; NVPTX-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-NEXT: entry:
				; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-NEXT: call void @p0() #[[ATTR10]]
				; NVPTX-NEXT: ret void
				;
				;
				; NVPTX: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__17_wrapper
				; NVPTX-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; NVPTX-NEXT: entry:
				; NVPTX-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; NVPTX-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; NVPTX-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; NVPTX-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; NVPTX-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; NVPTX-NEXT: call void @__omp_outlined__17(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-NEXT: ret void
				;
				;
				; NVPTX: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__18
				; NVPTX-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-NEXT: entry:
				; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-NEXT: call void @p0() #[[ATTR10]]
				; NVPTX-NEXT: ret void
				;
				;
				; NVPTX: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__18_wrapper
				; NVPTX-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; NVPTX-NEXT: entry:
				; NVPTX-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; NVPTX-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; NVPTX-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; NVPTX-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; NVPTX-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; NVPTX-NEXT: call void @__omp_outlined__18(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-NEXT: ret void
				;
				;
				; NVPTX: Function Attrs: convergent noinline nounwind
				; NVPTX-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after_after.internalized
				; NVPTX-SAME: () #[[ATTR1]] {
				; NVPTX-NEXT: entry:
				; NVPTX-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2]]) #[[ATTR3]]
				; NVPTX-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; NVPTX-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__19 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__19_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
				; NVPTX-NEXT: ret void
				;
				;
				; NVPTX: Function Attrs: convergent noinline nounwind
				; NVPTX-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after_after
				; NVPTX-SAME: () #[[ATTR1]] {
				; NVPTX-NEXT: entry:
				; NVPTX-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				; NVPTX-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; NVPTX-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__19 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__19_wrapper to i8), i8* [[TMP1]], i64 0)
				; NVPTX-NEXT: ret void
				;
				;
				; NVPTX: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__19
				; NVPTX-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-NEXT: entry:
				; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-NEXT: call void @p0() #[[ATTR10]]
				; NVPTX-NEXT: ret void
				;
				;
				; NVPTX: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__19_wrapper
				; NVPTX-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; NVPTX-NEXT: entry:
				; NVPTX-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; NVPTX-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; NVPTX-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; NVPTX-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; NVPTX-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; NVPTX-NEXT: call void @__omp_outlined__19(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_no_state_machine_needed_l14
				; AMDGPU-DISABLED-SAME: () #[[ATTR0:[0-9]+]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i1 false, i1 true, i1 true)
				; AMDGPU-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
				; AMDGPU-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
				; AMDGPU-DISABLED: user_code.entry:
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3:[0-9]+]]
				; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
				; AMDGPU-DISABLED-NEXT: ret void
				; AMDGPU-DISABLED: worker.exit:
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__
				; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: call void @no_parallel_region_in_here.internalized() #[[ATTR8:[0-9]+]]
				; AMDGPU-DISABLED-NEXT: call void @unknown_no_openmp() #[[ATTR9:[0-9]+]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@no_parallel_region_in_here.internalized
				; AMDGPU-DISABLED-SAME: () #[[ATTR1:[0-9]+]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2:[0-9]+]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_single(%struct.ident_t noundef @[[GLOB2]], i32 [[TMP0]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: [[TMP2:%.*]] = icmp ne i32 [[TMP1]], 0
				; AMDGPU-DISABLED-NEXT: br i1 [[TMP2]], label [[OMP_IF_THEN:%.]], label [[OMP_IF_END:%.]]
				; AMDGPU-DISABLED: omp_if.then:
				; AMDGPU-DISABLED-NEXT: store i32 0, i32* @G, align 4
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_end_single(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: br label [[OMP_IF_END]]
				; AMDGPU-DISABLED: omp_if.end:
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier(%struct.ident_t* noundef @[[GLOB3:[0-9]+]], i32 [[TMP0]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@no_parallel_region_in_here
				; AMDGPU-DISABLED-SAME: () #[[ATTR1]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_single(%struct.ident_t @[[GLOB2]], i32 [[TMP0]])
				; AMDGPU-DISABLED-NEXT: [[TMP2:%.*]] = icmp ne i32 [[TMP1]], 0
				; AMDGPU-DISABLED-NEXT: br i1 [[TMP2]], label [[OMP_IF_THEN:%.]], label [[OMP_IF_END:%.]]
				; AMDGPU-DISABLED: omp_if.then:
				; AMDGPU-DISABLED-NEXT: store i32 0, i32* @G, align 4
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_end_single(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]])
				; AMDGPU-DISABLED-NEXT: br label [[OMP_IF_END]]
				; AMDGPU-DISABLED: omp_if.end:
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB3]], i32 [[TMP0]])
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_l22
				; AMDGPU-DISABLED-SAME: () #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)
				; AMDGPU-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
				; AMDGPU-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
				; AMDGPU-DISABLED: user_code.entry:
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
				; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__1(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
				; AMDGPU-DISABLED-NEXT: ret void
				; AMDGPU-DISABLED: worker.exit:
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__1
				; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; AMDGPU-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8
				; AMDGPU-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				; AMDGPU-DISABLED-NEXT: call void @unknown_no_openmp() #[[ATTR9]]
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__2 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__2_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
				; AMDGPU-DISABLED-NEXT: call void @no_parallel_region_in_here.internalized() #[[ATTR8]]
				; AMDGPU-DISABLED-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__3 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__3_wrapper to i8), i8* noundef [[TMP2]], i64 noundef 0)
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__2
				; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: call void @p0() #[[ATTR10:[0-9]+]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__2_wrapper
				; AMDGPU-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; AMDGPU-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; AMDGPU-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__2(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__3
				; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: call void @p1() #[[ATTR10]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper
				; AMDGPU-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; AMDGPU-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; AMDGPU-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__3(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_l39
				; AMDGPU-DISABLED-SAME: () #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)
				; AMDGPU-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
				; AMDGPU-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
				; AMDGPU-DISABLED: user_code.entry:
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
				; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__4(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
				; AMDGPU-DISABLED-NEXT: ret void
				; AMDGPU-DISABLED: worker.exit:
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__4
				; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; AMDGPU-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				; AMDGPU-DISABLED-NEXT: call void @unknown_no_openmp() #[[ATTR9]]
				; AMDGPU-DISABLED-NEXT: call void @simple_state_machine_interprocedural_before.internalized() #[[ATTR8]]
				; AMDGPU-DISABLED-NEXT: call void @no_parallel_region_in_here.internalized() #[[ATTR8]]
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__5 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__5_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
				; AMDGPU-DISABLED-NEXT: call void @simple_state_machine_interprocedural_after.internalized() #[[ATTR8]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_before.internalized
				; AMDGPU-DISABLED-SAME: () #[[ATTR1]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__17 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__17_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_before
				; AMDGPU-DISABLED-SAME: () #[[ATTR1]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__17 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__17_wrapper to i8), i8* [[TMP1]], i64 0)
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__5
				; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: call void @p1() #[[ATTR10]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__5_wrapper
				; AMDGPU-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; AMDGPU-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; AMDGPU-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__5(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_after.internalized
				; AMDGPU-DISABLED-SAME: () #[[ATTR1]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__18 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__18_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_after
				; AMDGPU-DISABLED-SAME: () #[[ATTR1]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__18 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__18_wrapper to i8), i8* [[TMP1]], i64 0)
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_with_fallback_l55
				; AMDGPU-DISABLED-SAME: () #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)
				; AMDGPU-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
				; AMDGPU-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
				; AMDGPU-DISABLED: user_code.entry:
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
				; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__6(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
				; AMDGPU-DISABLED-NEXT: ret void
				; AMDGPU-DISABLED: worker.exit:
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__6
				; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; AMDGPU-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8
				; AMDGPU-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__7 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__7_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
				; AMDGPU-DISABLED-NEXT: [[CALL:%.*]] = call i32 @unknown() #[[ATTR10]]
				; AMDGPU-DISABLED-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__8 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__8_wrapper to i8), i8* noundef [[TMP2]], i64 noundef 0)
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__7
				; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: call void @p0() #[[ATTR10]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__7_wrapper
				; AMDGPU-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; AMDGPU-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; AMDGPU-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__7(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__8
				; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: call void @p1() #[[ATTR10]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__8_wrapper
				; AMDGPU-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; AMDGPU-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; AMDGPU-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__8(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_no_openmp_attr_l66
				; AMDGPU-DISABLED-SAME: () #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)
				; AMDGPU-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
				; AMDGPU-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
				; AMDGPU-DISABLED: user_code.entry:
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
				; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__9(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
				; AMDGPU-DISABLED-NEXT: ret void
				; AMDGPU-DISABLED: worker.exit:
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__9
				; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; AMDGPU-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8
				; AMDGPU-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__10 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__10_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
				; AMDGPU-DISABLED-NEXT: call void @unknown_no_openmp() #[[ATTR9]]
				; AMDGPU-DISABLED-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__11 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__11_wrapper to i8), i8* noundef [[TMP2]], i64 noundef 0)
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__10
				; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: call void @p0() #[[ATTR10]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__10_wrapper
				; AMDGPU-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; AMDGPU-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; AMDGPU-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__10(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__11
				; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: call void @p1() #[[ATTR10]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__11_wrapper
				; AMDGPU-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; AMDGPU-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; AMDGPU-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__11(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_pure_l77
				; AMDGPU-DISABLED-SAME: () #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)
				; AMDGPU-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
				; AMDGPU-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
				; AMDGPU-DISABLED: user_code.entry:
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
				; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__12(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
				; AMDGPU-DISABLED-NEXT: ret void
				; AMDGPU-DISABLED: worker.exit:
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__12
				; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; AMDGPU-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8
				; AMDGPU-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				; AMDGPU-DISABLED-NEXT: call void @unknown_no_openmp() #[[ATTR9]]
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__13 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__13_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
				; AMDGPU-DISABLED-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__14 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__14_wrapper to i8), i8* noundef [[TMP2]], i64 noundef 0)
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__13
				; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: call void @p0() #[[ATTR10]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__13_wrapper
				; AMDGPU-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; AMDGPU-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; AMDGPU-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__13(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__14
				; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: call void @p1() #[[ATTR10]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__14_wrapper
				; AMDGPU-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; AMDGPU-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; AMDGPU-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__14(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_nested_recursive_l92
				; AMDGPU-DISABLED-SAME: () #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)
				; AMDGPU-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
				; AMDGPU-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
				; AMDGPU-DISABLED: user_code.entry:
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__15(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
				; AMDGPU-DISABLED-NEXT: ret void
				; AMDGPU-DISABLED: worker.exit:
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__15
				; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[CALL:%.]] = call i32 bitcast (i32 (...) @omp_get_thread_num to i32 ()*)() #[[ATTR10]]
				; AMDGPU-DISABLED-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after.internalized(i32 [[CALL]]) #[[ATTR8]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after.internalized
				; AMDGPU-DISABLED-SAME: (i32 [[A:%.*]]) #[[ATTR1]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
				; AMDGPU-DISABLED-NEXT: [[CMP:%.*]] = icmp eq i32 [[A]], 0
				; AMDGPU-DISABLED-NEXT: br i1 [[CMP]], label [[IF_THEN:%.]], label [[IF_END:%.]]
				; AMDGPU-DISABLED: if.then:
				; AMDGPU-DISABLED-NEXT: br label [[RETURN:%.*]]
				; AMDGPU-DISABLED: if.end:
				; AMDGPU-DISABLED-NEXT: [[SUB:%.*]] = sub nsw i32 [[A]], 1
				; AMDGPU-DISABLED-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after.internalized(i32 [[SUB]]) #[[ATTR8]]
				; AMDGPU-DISABLED-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after_after.internalized() #[[ATTR8]]
				; AMDGPU-DISABLED-NEXT: br label [[RETURN]]
				; AMDGPU-DISABLED: return:
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after
				; AMDGPU-DISABLED-SAME: (i32 [[A:%.*]]) #[[ATTR1]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[A_ADDR]], align 4
				; AMDGPU-DISABLED-NEXT: [[CMP:%.*]] = icmp eq i32 [[TMP0]], 0
				; AMDGPU-DISABLED-NEXT: br i1 [[CMP]], label [[IF_THEN:%.]], label [[IF_END:%.]]
				; AMDGPU-DISABLED: if.then:
				; AMDGPU-DISABLED-NEXT: br label [[RETURN:%.*]]
				; AMDGPU-DISABLED: if.end:
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = load i32, i32 [[A_ADDR]], align 4
				; AMDGPU-DISABLED-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP1]], 1
				; AMDGPU-DISABLED-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after(i32 [[SUB]]) #[[ATTR10]]
				; AMDGPU-DISABLED-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after_after() #[[ATTR10]]
				; AMDGPU-DISABLED-NEXT: br label [[RETURN]]
				; AMDGPU-DISABLED: return:
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_no_state_machine_weak_callee_l112
				; AMDGPU-DISABLED-SAME: () #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)
				; AMDGPU-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
				; AMDGPU-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
				; AMDGPU-DISABLED: user_code.entry:
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__16(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
				; AMDGPU-DISABLED-NEXT: ret void
				; AMDGPU-DISABLED: worker.exit:
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__16
				; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: call void @weak_callee_empty() #[[ATTR8]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@weak_callee_empty
				; AMDGPU-DISABLED-SAME: () #[[ATTR1]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__17
				; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: call void @p0() #[[ATTR10]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__17_wrapper
				; AMDGPU-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; AMDGPU-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; AMDGPU-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__17(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__18
				; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: call void @p0() #[[ATTR10]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__18_wrapper
				; AMDGPU-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; AMDGPU-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; AMDGPU-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__18(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after_after.internalized
				; AMDGPU-DISABLED-SAME: () #[[ATTR1]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__19 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__19_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after_after
				; AMDGPU-DISABLED-SAME: () #[[ATTR1]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__19 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__19_wrapper to i8), i8* [[TMP1]], i64 0)
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__19
				; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; AMDGPU-DISABLED-NEXT: call void @p0() #[[ATTR10]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; AMDGPU-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__19_wrapper
				; AMDGPU-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; AMDGPU-DISABLED-NEXT: entry:
				; AMDGPU-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; AMDGPU-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; AMDGPU-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; AMDGPU-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; AMDGPU-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__19(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; AMDGPU-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_no_state_machine_needed_l14
				; NVPTX-DISABLED-SAME: () #[[ATTR0:[0-9]+]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i1 false, i1 true, i1 true)
				; NVPTX-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
				; NVPTX-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
				; NVPTX-DISABLED: user_code.entry:
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3:[0-9]+]]
				; NVPTX-DISABLED-NEXT: call void @__omp_outlined__(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
				; NVPTX-DISABLED-NEXT: ret void
				; NVPTX-DISABLED: worker.exit:
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__
				; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: call void @no_parallel_region_in_here.internalized() #[[ATTR8:[0-9]+]]
				; NVPTX-DISABLED-NEXT: call void @unknown_no_openmp() #[[ATTR9:[0-9]+]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@no_parallel_region_in_here.internalized
				; NVPTX-DISABLED-SAME: () #[[ATTR1:[0-9]+]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2:[0-9]+]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_single(%struct.ident_t noundef @[[GLOB2]], i32 [[TMP0]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: [[TMP2:%.*]] = icmp ne i32 [[TMP1]], 0
				; NVPTX-DISABLED-NEXT: br i1 [[TMP2]], label [[OMP_IF_THEN:%.]], label [[OMP_IF_END:%.]]
				; NVPTX-DISABLED: omp_if.then:
				; NVPTX-DISABLED-NEXT: store i32 0, i32* @G, align 4
				; NVPTX-DISABLED-NEXT: call void @__kmpc_end_single(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: br label [[OMP_IF_END]]
				; NVPTX-DISABLED: omp_if.end:
				; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier(%struct.ident_t* noundef @[[GLOB3:[0-9]+]], i32 [[TMP0]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@no_parallel_region_in_here
				; NVPTX-DISABLED-SAME: () #[[ATTR1]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_single(%struct.ident_t @[[GLOB2]], i32 [[TMP0]])
				; NVPTX-DISABLED-NEXT: [[TMP2:%.*]] = icmp ne i32 [[TMP1]], 0
				; NVPTX-DISABLED-NEXT: br i1 [[TMP2]], label [[OMP_IF_THEN:%.]], label [[OMP_IF_END:%.]]
				; NVPTX-DISABLED: omp_if.then:
				; NVPTX-DISABLED-NEXT: store i32 0, i32* @G, align 4
				; NVPTX-DISABLED-NEXT: call void @__kmpc_end_single(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]])
				; NVPTX-DISABLED-NEXT: br label [[OMP_IF_END]]
				; NVPTX-DISABLED: omp_if.end:
				; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB3]], i32 [[TMP0]])
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_l22
				; NVPTX-DISABLED-SAME: () #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)
				; NVPTX-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
				; NVPTX-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
				; NVPTX-DISABLED: user_code.entry:
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
				; NVPTX-DISABLED-NEXT: call void @__omp_outlined__1(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
				; NVPTX-DISABLED-NEXT: ret void
				; NVPTX-DISABLED: worker.exit:
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__1
				; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; NVPTX-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8
				; NVPTX-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				; NVPTX-DISABLED-NEXT: call void @unknown_no_openmp() #[[ATTR9]]
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; NVPTX-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__2 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__2_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
				; NVPTX-DISABLED-NEXT: call void @no_parallel_region_in_here.internalized() #[[ATTR8]]
				; NVPTX-DISABLED-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**
				; NVPTX-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__3 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__3_wrapper to i8), i8* noundef [[TMP2]], i64 noundef 0)
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__2
				; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: call void @p0() #[[ATTR10:[0-9]+]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__2_wrapper
				; NVPTX-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; NVPTX-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; NVPTX-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; NVPTX-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; NVPTX-DISABLED-NEXT: call void @__omp_outlined__2(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__3
				; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: call void @p1() #[[ATTR10]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper
				; NVPTX-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; NVPTX-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; NVPTX-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; NVPTX-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; NVPTX-DISABLED-NEXT: call void @__omp_outlined__3(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_l39
				; NVPTX-DISABLED-SAME: () #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)
				; NVPTX-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
				; NVPTX-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
				; NVPTX-DISABLED: user_code.entry:
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
				; NVPTX-DISABLED-NEXT: call void @__omp_outlined__4(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
				; NVPTX-DISABLED-NEXT: ret void
				; NVPTX-DISABLED: worker.exit:
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__4
				; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; NVPTX-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				; NVPTX-DISABLED-NEXT: call void @unknown_no_openmp() #[[ATTR9]]
				; NVPTX-DISABLED-NEXT: call void @simple_state_machine_interprocedural_before.internalized() #[[ATTR8]]
				; NVPTX-DISABLED-NEXT: call void @no_parallel_region_in_here.internalized() #[[ATTR8]]
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; NVPTX-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__5 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__5_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
				; NVPTX-DISABLED-NEXT: call void @simple_state_machine_interprocedural_after.internalized() #[[ATTR8]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_before.internalized
				; NVPTX-DISABLED-SAME: () #[[ATTR1]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; NVPTX-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__17 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__17_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_before
				; NVPTX-DISABLED-SAME: () #[[ATTR1]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; NVPTX-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__17 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__17_wrapper to i8), i8* [[TMP1]], i64 0)
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__5
				; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: call void @p1() #[[ATTR10]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__5_wrapper
				; NVPTX-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; NVPTX-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; NVPTX-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; NVPTX-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; NVPTX-DISABLED-NEXT: call void @__omp_outlined__5(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_after.internalized
				; NVPTX-DISABLED-SAME: () #[[ATTR1]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; NVPTX-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__18 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__18_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_after
				; NVPTX-DISABLED-SAME: () #[[ATTR1]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; NVPTX-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__18 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__18_wrapper to i8), i8* [[TMP1]], i64 0)
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_with_fallback_l55
				; NVPTX-DISABLED-SAME: () #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)
				; NVPTX-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
				; NVPTX-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
				; NVPTX-DISABLED: user_code.entry:
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
				; NVPTX-DISABLED-NEXT: call void @__omp_outlined__6(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
				; NVPTX-DISABLED-NEXT: ret void
				; NVPTX-DISABLED: worker.exit:
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__6
				; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; NVPTX-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8
				; NVPTX-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; NVPTX-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__7 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__7_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
				; NVPTX-DISABLED-NEXT: [[CALL:%.*]] = call i32 @unknown() #[[ATTR10]]
				; NVPTX-DISABLED-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**
				; NVPTX-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__8 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__8_wrapper to i8), i8* noundef [[TMP2]], i64 noundef 0)
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__7
				; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: call void @p0() #[[ATTR10]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__7_wrapper
				; NVPTX-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; NVPTX-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; NVPTX-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; NVPTX-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; NVPTX-DISABLED-NEXT: call void @__omp_outlined__7(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__8
				; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: call void @p1() #[[ATTR10]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__8_wrapper
				; NVPTX-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; NVPTX-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; NVPTX-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; NVPTX-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; NVPTX-DISABLED-NEXT: call void @__omp_outlined__8(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_no_openmp_attr_l66
				; NVPTX-DISABLED-SAME: () #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)
				; NVPTX-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
				; NVPTX-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
				; NVPTX-DISABLED: user_code.entry:
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
				; NVPTX-DISABLED-NEXT: call void @__omp_outlined__9(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
				; NVPTX-DISABLED-NEXT: ret void
				; NVPTX-DISABLED: worker.exit:
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__9
				; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; NVPTX-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8
				; NVPTX-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; NVPTX-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__10 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__10_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
				; NVPTX-DISABLED-NEXT: call void @unknown_no_openmp() #[[ATTR9]]
				; NVPTX-DISABLED-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**
				; NVPTX-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__11 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__11_wrapper to i8), i8* noundef [[TMP2]], i64 noundef 0)
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__10
				; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: call void @p0() #[[ATTR10]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__10_wrapper
				; NVPTX-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; NVPTX-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; NVPTX-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; NVPTX-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; NVPTX-DISABLED-NEXT: call void @__omp_outlined__10(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__11
				; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: call void @p1() #[[ATTR10]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__11_wrapper
				; NVPTX-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; NVPTX-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; NVPTX-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; NVPTX-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; NVPTX-DISABLED-NEXT: call void @__omp_outlined__11(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_pure_l77
				; NVPTX-DISABLED-SAME: () #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)
				; NVPTX-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
				; NVPTX-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
				; NVPTX-DISABLED: user_code.entry:
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
				; NVPTX-DISABLED-NEXT: call void @__omp_outlined__12(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
				; NVPTX-DISABLED-NEXT: ret void
				; NVPTX-DISABLED: worker.exit:
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__12
				; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; NVPTX-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [0 x i8], align 8
				; NVPTX-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
				; NVPTX-DISABLED-NEXT: call void @unknown_no_openmp() #[[ATTR9]]
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; NVPTX-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__13 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__13_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
				; NVPTX-DISABLED-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS1]] to i8**
				; NVPTX-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__14 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__14_wrapper to i8), i8* noundef [[TMP2]], i64 noundef 0)
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__13
				; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: call void @p0() #[[ATTR10]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__13_wrapper
				; NVPTX-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; NVPTX-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; NVPTX-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; NVPTX-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; NVPTX-DISABLED-NEXT: call void @__omp_outlined__13(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__14
				; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: call void @p1() #[[ATTR10]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__14_wrapper
				; NVPTX-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; NVPTX-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; NVPTX-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; NVPTX-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; NVPTX-DISABLED-NEXT: call void @__omp_outlined__14(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_nested_recursive_l92
				; NVPTX-DISABLED-SAME: () #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)
				; NVPTX-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
				; NVPTX-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
				; NVPTX-DISABLED: user_code.entry:
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: call void @__omp_outlined__15(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
				; NVPTX-DISABLED-NEXT: ret void
				; NVPTX-DISABLED: worker.exit:
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__15
				; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[CALL:%.]] = call i32 bitcast (i32 (...) @omp_get_thread_num to i32 ()*)() #[[ATTR10]]
				; NVPTX-DISABLED-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after.internalized(i32 [[CALL]]) #[[ATTR8]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after.internalized
				; NVPTX-DISABLED-SAME: (i32 [[A:%.*]]) #[[ATTR1]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
				; NVPTX-DISABLED-NEXT: [[CMP:%.*]] = icmp eq i32 [[A]], 0
				; NVPTX-DISABLED-NEXT: br i1 [[CMP]], label [[IF_THEN:%.]], label [[IF_END:%.]]
				; NVPTX-DISABLED: if.then:
				; NVPTX-DISABLED-NEXT: br label [[RETURN:%.*]]
				; NVPTX-DISABLED: if.end:
				; NVPTX-DISABLED-NEXT: [[SUB:%.*]] = sub nsw i32 [[A]], 1
				; NVPTX-DISABLED-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after.internalized(i32 [[SUB]]) #[[ATTR8]]
				; NVPTX-DISABLED-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after_after.internalized() #[[ATTR8]]
				; NVPTX-DISABLED-NEXT: br label [[RETURN]]
				; NVPTX-DISABLED: return:
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after
				; NVPTX-DISABLED-SAME: (i32 [[A:%.*]]) #[[ATTR1]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[A_ADDR]], align 4
				; NVPTX-DISABLED-NEXT: [[CMP:%.*]] = icmp eq i32 [[TMP0]], 0
				; NVPTX-DISABLED-NEXT: br i1 [[CMP]], label [[IF_THEN:%.]], label [[IF_END:%.]]
				; NVPTX-DISABLED: if.then:
				; NVPTX-DISABLED-NEXT: br label [[RETURN:%.*]]
				; NVPTX-DISABLED: if.end:
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = load i32, i32 [[A_ADDR]], align 4
				; NVPTX-DISABLED-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP1]], 1
				; NVPTX-DISABLED-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after(i32 [[SUB]]) #[[ATTR10]]
				; NVPTX-DISABLED-NEXT: call void @simple_state_machine_interprocedural_nested_recursive_after_after() #[[ATTR10]]
				; NVPTX-DISABLED-NEXT: br label [[RETURN]]
				; NVPTX-DISABLED: return:
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_no_state_machine_weak_callee_l112
				; NVPTX-DISABLED-SAME: () #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 true, i1 true)
				; NVPTX-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
				; NVPTX-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
				; NVPTX-DISABLED: user_code.entry:
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: call void @__omp_outlined__16(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
				; NVPTX-DISABLED-NEXT: ret void
				; NVPTX-DISABLED: worker.exit:
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__16
				; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: call void @weak_callee_empty() #[[ATTR8]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@weak_callee_empty
				; NVPTX-DISABLED-SAME: () #[[ATTR1]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__17
				; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: call void @p0() #[[ATTR10]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__17_wrapper
				; NVPTX-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; NVPTX-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; NVPTX-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; NVPTX-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; NVPTX-DISABLED-NEXT: call void @__omp_outlined__17(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__18
				; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: call void @p0() #[[ATTR10]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__18_wrapper
				; NVPTX-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; NVPTX-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; NVPTX-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; NVPTX-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; NVPTX-DISABLED-NEXT: call void @__omp_outlined__18(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after_after.internalized
				; NVPTX-DISABLED-SAME: () #[[ATTR1]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t noundef @[[GLOB2]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; NVPTX-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB2]], i32 [[TMP0]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__19 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__19_wrapper to i8), i8* noundef [[TMP1]], i64 noundef 0)
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@simple_state_machine_interprocedural_nested_recursive_after_after
				; NVPTX-DISABLED-SAME: () #[[ATTR1]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
				; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB2]])
				; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
				; NVPTX-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB2]], i32 [[TMP0]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32)* @__omp_outlined__19 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__19_wrapper to i8), i8* [[TMP1]], i64 0)
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__19
				; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
				; NVPTX-DISABLED-NEXT: call void @p0() #[[ATTR10]]
				; NVPTX-DISABLED-NEXT: ret void
				;
				;
				; NVPTX-DISABLED: Function Attrs: convergent noinline norecurse nounwind
				; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__19_wrapper
				; NVPTX-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
				; NVPTX-DISABLED-NEXT: entry:
				; NVPTX-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
				; NVPTX-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
				; NVPTX-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
				; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
				; NVPTX-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
				; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
				; NVPTX-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
				; NVPTX-DISABLED-NEXT: call void @__omp_outlined__19(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]
				; NVPTX-DISABLED-NEXT: ret void
	;			;

llvm/test/Transforms/OpenMP/spmdization.ll

; NOTE: Assertions have been autogenerated by utils/update_test_checks.py UTC_ARGS: --function-signature --check-globals		; NOTE: Assertions have been autogenerated by utils/update_test_checks.py UTC_ARGS: --function-signature --check-globals
; RUN: opt -S -passes=openmp-opt < %s \| FileCheck %s		; RUN: opt --mtriple=amdgcn-amd-amdhsa --data-layout=A5 -S -passes=openmp-opt < %s \| FileCheck %s --check-prefixes=AMDGPU
; RUN: opt -S -passes=openmp-opt -openmp-opt-disable-spmdization < %s \| FileCheck %s --check-prefix=CHECK-DISABLED		; RUN: opt --mtriple=nvptx64-- -S -passes=openmp-opt < %s \| FileCheck %s --check-prefixes=NVPTX
		; RUN: opt --mtriple=amdgcn-amd-amdhsa --data-layout=A5 -S -passes=openmp-opt -openmp-opt-disable-spmdization < %s \| FileCheck %s --check-prefix=AMDGPU-DISABLED
		; RUN: opt --mtriple=nvptx64-- -S -passes=openmp-opt -openmp-opt-disable-spmdization < %s \| FileCheck %s --check-prefix=NVPTX-DISABLED

;; void unknown(void);		;; void unknown(void);
;; void spmd_amenable(void) __attribute__((assume("ompx_spmd_amenable")));		;; void spmd_amenable(void) __attribute__((assume("ompx_spmd_amenable")));
;;		;;
;; void sequential_loop() {		;; void sequential_loop() {
;; #pragma omp target teams		;; #pragma omp target teams
;; {		;; {
;; for (int i = 0; i < 100; ++i) {		;; for (int i = 0; i < 100; ++i) {
▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
;; #pragma omp target teams		;; #pragma omp target teams
;; {		;; {
;; // Incompatible parallel level, called both		;; // Incompatible parallel level, called both
;; // from parallel and target regions		;; // from parallel and target regions
;; unknown();		;; unknown();
;; }		;; }
;; }		;; }

target triple = "nvptx64"

%struct.ident_t = type { i32, i32, i32, i32, i8* }		%struct.ident_t = type { i32, i32, i32, i32, i8* }

@0 = private unnamed_addr constant [23 x i8] c";unknown;unknown;0;0;;\00", align 1		@0 = private unnamed_addr constant [23 x i8] c";unknown;unknown;0;0;;\00", align 1
@1 = private unnamed_addr constant %struct.ident_t { i32 0, i32 2, i32 0, i32 0, i8* getelementptr inbounds ([23 x i8], [23 x i8]* @0, i32 0, i32 0) }, align 8		@1 = private unnamed_addr constant %struct.ident_t { i32 0, i32 2, i32 0, i32 0, i8* getelementptr inbounds ([23 x i8], [23 x i8]* @0, i32 0, i32 0) }, align 8
@__omp_offloading_14_a34ca11_sequential_loop_l5_exec_mode = weak constant i8 1		@__omp_offloading_14_a34ca11_sequential_loop_l5_exec_mode = weak constant i8 1
@__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20_exec_mode = weak constant i8 1		@__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20_exec_mode = weak constant i8 1
@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35_exec_mode = weak constant i8 1		@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35_exec_mode = weak constant i8 1
@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50_exec_mode = weak constant i8 1		@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50_exec_mode = weak constant i8 1
@__omp_offloading_14_a34ca11_do_not_spmdize_target_l65_exec_mode = weak constant i8 1		@__omp_offloading_14_a34ca11_do_not_spmdize_target_l65_exec_mode = weak constant i8 1
@llvm.compiler.used = appending global [5 x i8] [i8 @__omp_offloading_14_a34ca11_sequential_loop_l5_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50_exec_mode, i8* @__omp_offloading_14_a34ca11_do_not_spmdize_target_l65_exec_mode], section "llvm.metadata"		@llvm.compiler.used = appending global [5 x i8] [i8 @__omp_offloading_14_a34ca11_sequential_loop_l5_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50_exec_mode, i8* @__omp_offloading_14_a34ca11_do_not_spmdize_target_l65_exec_mode], section "llvm.metadata"


		;.
		; AMDGPU: @[[GLOB0:[0-9]+]] = private unnamed_addr constant [23 x i8] c"
		; AMDGPU: @[[GLOB1:[0-9]+]] = private unnamed_addr constant [[STRUCT_IDENT_T:%.]] { i32 0, i32 2, i32 0, i32 0, i8 getelementptr inbounds ([23 x i8], [23 x i8]* @[[GLOB0]], i32 0, i32 0) }, align 8
		; AMDGPU: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_L5_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 2
		; AMDGPU: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_TO_STACK_VAR_L20_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 2
		; AMDGPU: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_TO_SHARED_VAR_L35_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 2
		; AMDGPU: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_TO_SHARED_VAR_GUARDED_L50_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 2
		; AMDGPU: @[[__OMP_OFFLOADING_14_A34CA11_DO_NOT_SPMDIZE_TARGET_L65_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 1
		; AMDGPU: @[[LLVM_COMPILER_USED:[a-zA-Z0-9_$"\\.-]+]] = appending global [5 x i8] [i8 @__omp_offloading_14_a34ca11_sequential_loop_l5_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50_exec_mode, i8* @__omp_offloading_14_a34ca11_do_not_spmdize_target_l65_exec_mode], section "llvm.metadata"
		; AMDGPU: @[[X:[a-zA-Z0-9_$"\\.-]+]] = internal addrspace(3) global [4 x i8] undef, align 32
		; AMDGPU: @[[X_1:[a-zA-Z0-9_$"\\.-]+]] = internal addrspace(3) global [4 x i8] undef, align 32
;.		;.
; CHECK: @[[GLOB0:[0-9]+]] = private unnamed_addr constant [23 x i8] c"		; NVPTX: @[[GLOB0:[0-9]+]] = private unnamed_addr constant [23 x i8] c"
; CHECK: @[[GLOB1:[0-9]+]] = private unnamed_addr constant [[STRUCT_IDENT_T:%.]] { i32 0, i32 2, i32 0, i32 0, i8 getelementptr inbounds ([23 x i8], [23 x i8]* @[[GLOB0]], i32 0, i32 0) }, align 8		; NVPTX: @[[GLOB1:[0-9]+]] = private unnamed_addr constant [[STRUCT_IDENT_T:%.]] { i32 0, i32 2, i32 0, i32 0, i8 getelementptr inbounds ([23 x i8], [23 x i8]* @[[GLOB0]], i32 0, i32 0) }, align 8
; CHECK: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_L5_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 2		; NVPTX: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_L5_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 2
; CHECK: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_TO_STACK_VAR_L20_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 2		; NVPTX: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_TO_STACK_VAR_L20_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 2
; CHECK: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_TO_SHARED_VAR_L35_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 2		; NVPTX: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_TO_SHARED_VAR_L35_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 2
; CHECK: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_TO_SHARED_VAR_GUARDED_L50_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 2		; NVPTX: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_TO_SHARED_VAR_GUARDED_L50_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 2
; CHECK: @[[__OMP_OFFLOADING_14_A34CA11_DO_NOT_SPMDIZE_TARGET_L65_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 1		; NVPTX: @[[__OMP_OFFLOADING_14_A34CA11_DO_NOT_SPMDIZE_TARGET_L65_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 1
; CHECK: @[[LLVM_COMPILER_USED:[a-zA-Z0-9_$"\\.-]+]] = appending global [5 x i8] [i8 @__omp_offloading_14_a34ca11_sequential_loop_l5_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50_exec_mode, i8* @__omp_offloading_14_a34ca11_do_not_spmdize_target_l65_exec_mode], section "llvm.metadata"		; NVPTX: @[[LLVM_COMPILER_USED:[a-zA-Z0-9_$"\\.-]+]] = appending global [5 x i8] [i8 @__omp_offloading_14_a34ca11_sequential_loop_l5_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50_exec_mode, i8* @__omp_offloading_14_a34ca11_do_not_spmdize_target_l65_exec_mode], section "llvm.metadata"
; CHECK: @[[X:[a-zA-Z0-9_$"\\.-]+]] = internal addrspace(3) global [4 x i8] undef, align 32		; NVPTX: @[[X:[a-zA-Z0-9_$"\\.-]+]] = internal addrspace(3) global [4 x i8] undef, align 32
; CHECK: @[[X1:[a-zA-Z0-9_$"\\.-]+]] = internal addrspace(3) global [4 x i8] undef, align 32		; NVPTX: @[[X1:[a-zA-Z0-9_$"\\.-]+]] = internal addrspace(3) global [4 x i8] undef, align 32
;.		;.
; CHECK-DISABLED: @[[GLOB0:[0-9]+]] = private unnamed_addr constant [23 x i8] c"		; AMDGPU-DISABLED: @[[GLOB0:[0-9]+]] = private unnamed_addr constant [23 x i8] c"
; CHECK-DISABLED: @[[GLOB1:[0-9]+]] = private unnamed_addr constant [[STRUCT_IDENT_T:%.]] { i32 0, i32 2, i32 0, i32 0, i8 getelementptr inbounds ([23 x i8], [23 x i8]* @[[GLOB0]], i32 0, i32 0) }, align 8		; AMDGPU-DISABLED: @[[GLOB1:[0-9]+]] = private unnamed_addr constant [[STRUCT_IDENT_T:%.]] { i32 0, i32 2, i32 0, i32 0, i8 getelementptr inbounds ([23 x i8], [23 x i8]* @[[GLOB0]], i32 0, i32 0) }, align 8
; CHECK-DISABLED: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_L5_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 1		; AMDGPU-DISABLED: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_L5_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 1
; CHECK-DISABLED: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_TO_STACK_VAR_L20_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 1		; AMDGPU-DISABLED: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_TO_STACK_VAR_L20_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 1
; CHECK-DISABLED: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_TO_SHARED_VAR_L35_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 1		; AMDGPU-DISABLED: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_TO_SHARED_VAR_L35_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 1
; CHECK-DISABLED: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_TO_SHARED_VAR_GUARDED_L50_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 1		; AMDGPU-DISABLED: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_TO_SHARED_VAR_GUARDED_L50_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 1
; CHECK-DISABLED: @[[__OMP_OFFLOADING_14_A34CA11_DO_NOT_SPMDIZE_TARGET_L65_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 1		; AMDGPU-DISABLED: @[[__OMP_OFFLOADING_14_A34CA11_DO_NOT_SPMDIZE_TARGET_L65_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 1
; CHECK-DISABLED: @[[LLVM_COMPILER_USED:[a-zA-Z0-9_$"\\.-]+]] = appending global [5 x i8] [i8 @__omp_offloading_14_a34ca11_sequential_loop_l5_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50_exec_mode, i8* @__omp_offloading_14_a34ca11_do_not_spmdize_target_l65_exec_mode], section "llvm.metadata"		; AMDGPU-DISABLED: @[[LLVM_COMPILER_USED:[a-zA-Z0-9_$"\\.-]+]] = appending global [5 x i8] [i8 @__omp_offloading_14_a34ca11_sequential_loop_l5_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50_exec_mode, i8* @__omp_offloading_14_a34ca11_do_not_spmdize_target_l65_exec_mode], section "llvm.metadata"
; CHECK-DISABLED: @[[X:[a-zA-Z0-9_$"\\.-]+]] = internal addrspace(3) global [4 x i8] undef, align 32		; AMDGPU-DISABLED: @[[X:[a-zA-Z0-9_$"\\.-]+]] = internal addrspace(3) global [4 x i8] undef, align 32
; CHECK-DISABLED: @[[X1:[a-zA-Z0-9_$"\\.-]+]] = internal addrspace(3) global [4 x i8] undef, align 32		; AMDGPU-DISABLED: @[[X_1:[a-zA-Z0-9_$"\\.-]+]] = internal addrspace(3) global [4 x i8] undef, align 32
; CHECK-DISABLED: @[[__OMP_OUTLINED__1_WRAPPER_ID:[a-zA-Z0-9_$"\\.-]+]] = private constant i8 undef		; AMDGPU-DISABLED: @[[__OMP_OUTLINED__1_WRAPPER_ID:[a-zA-Z0-9_$"\\.-]+]] = private constant i8 undef
; CHECK-DISABLED: @[[__OMP_OUTLINED__3_WRAPPER_ID:[a-zA-Z0-9_$"\\.-]+]] = private constant i8 undef		; AMDGPU-DISABLED: @[[__OMP_OUTLINED__3_WRAPPER_ID:[a-zA-Z0-9_$"\\.-]+]] = private constant i8 undef
; CHECK-DISABLED: @[[__OMP_OUTLINED__5_WRAPPER_ID:[a-zA-Z0-9_$"\\.-]+]] = private constant i8 undef		; AMDGPU-DISABLED: @[[__OMP_OUTLINED__5_WRAPPER_ID:[a-zA-Z0-9_$"\\.-]+]] = private constant i8 undef
; CHECK-DISABLED: @[[__OMP_OUTLINED__7_WRAPPER_ID:[a-zA-Z0-9_$"\\.-]+]] = private constant i8 undef		; AMDGPU-DISABLED: @[[__OMP_OUTLINED__7_WRAPPER_ID:[a-zA-Z0-9_$"\\.-]+]] = private constant i8 undef
		;.
		; NVPTX-DISABLED: @[[GLOB0:[0-9]+]] = private unnamed_addr constant [23 x i8] c"
		; NVPTX-DISABLED: @[[GLOB1:[0-9]+]] = private unnamed_addr constant [[STRUCT_IDENT_T:%.]] { i32 0, i32 2, i32 0, i32 0, i8 getelementptr inbounds ([23 x i8], [23 x i8]* @[[GLOB0]], i32 0, i32 0) }, align 8
		; NVPTX-DISABLED: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_L5_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 1
		; NVPTX-DISABLED: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_TO_STACK_VAR_L20_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 1
		; NVPTX-DISABLED: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_TO_SHARED_VAR_L35_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 1
		; NVPTX-DISABLED: @[[__OMP_OFFLOADING_14_A34CA11_SEQUENTIAL_LOOP_TO_SHARED_VAR_GUARDED_L50_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 1
		; NVPTX-DISABLED: @[[__OMP_OFFLOADING_14_A34CA11_DO_NOT_SPMDIZE_TARGET_L65_EXEC_MODE:[a-zA-Z0-9_$"\\.-]+]] = weak constant i8 1
		; NVPTX-DISABLED: @[[LLVM_COMPILER_USED:[a-zA-Z0-9_$"\\.-]+]] = appending global [5 x i8] [i8 @__omp_offloading_14_a34ca11_sequential_loop_l5_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35_exec_mode, i8* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50_exec_mode, i8* @__omp_offloading_14_a34ca11_do_not_spmdize_target_l65_exec_mode], section "llvm.metadata"
		; NVPTX-DISABLED: @[[X:[a-zA-Z0-9_$"\\.-]+]] = internal addrspace(3) global [4 x i8] undef, align 32
		; NVPTX-DISABLED: @[[X1:[a-zA-Z0-9_$"\\.-]+]] = internal addrspace(3) global [4 x i8] undef, align 32
		; NVPTX-DISABLED: @[[__OMP_OUTLINED__1_WRAPPER_ID:[a-zA-Z0-9_$"\\.-]+]] = private constant i8 undef
		; NVPTX-DISABLED: @[[__OMP_OUTLINED__3_WRAPPER_ID:[a-zA-Z0-9_$"\\.-]+]] = private constant i8 undef
		; NVPTX-DISABLED: @[[__OMP_OUTLINED__5_WRAPPER_ID:[a-zA-Z0-9_$"\\.-]+]] = private constant i8 undef
		; NVPTX-DISABLED: @[[__OMP_OUTLINED__7_WRAPPER_ID:[a-zA-Z0-9_$"\\.-]+]] = private constant i8 undef
;.		;.
define weak void @__omp_offloading_14_a34ca11_sequential_loop_l5() #0 {		define weak void @__omp_offloading_14_a34ca11_sequential_loop_l5() #0 {
; CHECK-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_l5		; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_l5
; CHECK-SAME: () #[[ATTR0:[0-9]+]] {		; AMDGPU-SAME: () #[[ATTR0:[0-9]+]] {
; CHECK-NEXT: entry:		; AMDGPU-NEXT: entry:
; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4		; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4		; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 true, i1 false, i1 false)		; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 true, i1 false, i1 false)
; CHECK-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1		; AMDGPU-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
; CHECK-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]		; AMDGPU-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
; CHECK: user_code.entry:		; AMDGPU: user_code.entry:
; CHECK-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3:[0-9]+]]		; AMDGPU-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR4:[0-9]+]]
; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4		; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
; CHECK-NEXT: call void @__omp_outlined__(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]		; AMDGPU-NEXT: call void @__omp_outlined__(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR4]]
; CHECK-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 true, i1 false)		; AMDGPU-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 true, i1 false)
; CHECK-NEXT: ret void		; AMDGPU-NEXT: ret void
; CHECK: worker.exit:		; AMDGPU: worker.exit:
; CHECK-NEXT: ret void		; AMDGPU-NEXT: ret void
;		;
; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_l5		; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_l5
; CHECK-DISABLED-SAME: () #[[ATTR0:[0-9]+]] {		; NVPTX-SAME: () #[[ATTR0:[0-9]+]] {
; CHECK-DISABLED-NEXT: entry:		; NVPTX-NEXT: entry:
; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8		; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4		; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4		; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 true, i1 false, i1 false)
; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4		; NVPTX-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)		; NVPTX-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
; CHECK-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1		; NVPTX: user_code.entry:
; CHECK-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]		; NVPTX-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR4:[0-9]+]]
; CHECK-DISABLED: worker_state_machine.begin:		; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
; CHECK-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])		; NVPTX-NEXT: call void @__omp_outlined__(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR4]]
; CHECK-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])		; NVPTX-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 true, i1 false)
; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8		; NVPTX-NEXT: ret void
; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*		; NVPTX: worker.exit:
; CHECK-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null		; NVPTX-NEXT: ret void
; CHECK-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]		;
; CHECK-DISABLED: worker_state_machine.finished:		; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_l5
; CHECK-DISABLED-NEXT: ret void		; AMDGPU-DISABLED-SAME: () #[[ATTR0:[0-9]+]] {
; CHECK-DISABLED: worker_state_machine.is_active.check:		; AMDGPU-DISABLED-NEXT: entry:
; CHECK-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]		; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
; CHECK-DISABLED: worker_state_machine.parallel_region.check:		; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__1_wrapper.ID to void (i16, i32)*)		; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]		; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
; CHECK-DISABLED: worker_state_machine.parallel_region.execute:		; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
; CHECK-DISABLED-NEXT: call void @__omp_outlined__1_wrapper(i16 0, i32 [[TMP0]])		; AMDGPU-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
; CHECK-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]		; AMDGPU-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
; CHECK-DISABLED: worker_state_machine.parallel_region.fallback.execute:		; AMDGPU-DISABLED: worker_state_machine.begin:
; CHECK-DISABLED-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])		; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
; CHECK-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]		; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
; CHECK-DISABLED: worker_state_machine.parallel_region.end:		; AMDGPU-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
; CHECK-DISABLED-NEXT: call void @__kmpc_kernel_end_parallel()		; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
; CHECK-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]		; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
; CHECK-DISABLED: worker_state_machine.done.barrier:		; AMDGPU-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
; CHECK-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])		; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
; CHECK-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]		; AMDGPU-DISABLED: worker_state_machine.finished:
; CHECK-DISABLED: thread.user_code.check:		; AMDGPU-DISABLED-NEXT: ret void
; CHECK-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1		; AMDGPU-DISABLED: worker_state_machine.is_active.check:
; CHECK-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]		; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
; CHECK-DISABLED: user_code.entry:		; AMDGPU-DISABLED: worker_state_machine.parallel_region.check:
; CHECK-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3:[0-9]+]]		; AMDGPU-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__1_wrapper.ID to void (i16, i32)*)
; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4		; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]
; CHECK-DISABLED-NEXT: call void @__omp_outlined__(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]		; AMDGPU-DISABLED: worker_state_machine.parallel_region.execute:
; CHECK-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)		; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__1_wrapper(i16 0, i32 [[TMP0]])
; CHECK-DISABLED-NEXT: ret void		; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
; CHECK-DISABLED: worker.exit:		; AMDGPU-DISABLED: worker_state_machine.parallel_region.fallback.execute:
; CHECK-DISABLED-NEXT: ret void		; AMDGPU-DISABLED-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
		; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
		; AMDGPU-DISABLED: worker_state_machine.parallel_region.end:
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_kernel_end_parallel()
		; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
		; AMDGPU-DISABLED: worker_state_machine.done.barrier:
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
		; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
		; AMDGPU-DISABLED: thread.user_code.check:
		; AMDGPU-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
		; AMDGPU-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
		; AMDGPU-DISABLED: user_code.entry:
		; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR4:[0-9]+]]
		; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
		; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR4]]
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
		; AMDGPU-DISABLED-NEXT: ret void
		; AMDGPU-DISABLED: worker.exit:
		; AMDGPU-DISABLED-NEXT: ret void
		;
		; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_l5
		; NVPTX-DISABLED-SAME: () #[[ATTR0:[0-9]+]] {
		; NVPTX-DISABLED-NEXT: entry:
		; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
		; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
		; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
		; NVPTX-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
		; NVPTX-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
		; NVPTX-DISABLED: worker_state_machine.begin:
		; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
		; NVPTX-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
		; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
		; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
		; NVPTX-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
		; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
		; NVPTX-DISABLED: worker_state_machine.finished:
		; NVPTX-DISABLED-NEXT: ret void
		; NVPTX-DISABLED: worker_state_machine.is_active.check:
		; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
		; NVPTX-DISABLED: worker_state_machine.parallel_region.check:
		; NVPTX-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__1_wrapper.ID to void (i16, i32)*)
		; NVPTX-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]
		; NVPTX-DISABLED: worker_state_machine.parallel_region.execute:
		; NVPTX-DISABLED-NEXT: call void @__omp_outlined__1_wrapper(i16 0, i32 [[TMP0]])
		; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
		; NVPTX-DISABLED: worker_state_machine.parallel_region.fallback.execute:
		; NVPTX-DISABLED-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
		; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
		; NVPTX-DISABLED: worker_state_machine.parallel_region.end:
		; NVPTX-DISABLED-NEXT: call void @__kmpc_kernel_end_parallel()
		; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
		; NVPTX-DISABLED: worker_state_machine.done.barrier:
		; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
		; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
		; NVPTX-DISABLED: thread.user_code.check:
		; NVPTX-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
		; NVPTX-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
		; NVPTX-DISABLED: user_code.entry:
		; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR4:[0-9]+]]
		; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
		; NVPTX-DISABLED-NEXT: call void @__omp_outlined__(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR4]]
		; NVPTX-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
		; NVPTX-DISABLED-NEXT: ret void
		; NVPTX-DISABLED: worker.exit:
		; NVPTX-DISABLED-NEXT: ret void
;		;
entry:		entry:
%.zero.addr = alloca i32, align 4		%.zero.addr = alloca i32, align 4
%.threadid_temp. = alloca i32, align 4		%.threadid_temp. = alloca i32, align 4
store i32 0, i32* %.zero.addr, align 4		store i32 0, i32* %.zero.addr, align 4
%0 = call i32 @__kmpc_target_init(%struct.ident_t* @1, i1 false, i1 true, i1 true)		%0 = call i32 @__kmpc_target_init(%struct.ident_t* @1, i1 false, i1 true, i1 true)
%exec_user_code = icmp eq i32 %0, -1		%exec_user_code = icmp eq i32 %0, -1
br i1 %exec_user_code, label %user_code.entry, label %worker.exit		br i1 %exec_user_code, label %user_code.entry, label %worker.exit

user_code.entry: ; preds = %entry		user_code.entry: ; preds = %entry
%1 = call i32 @__kmpc_global_thread_num(%struct.ident_t* @1)		%1 = call i32 @__kmpc_global_thread_num(%struct.ident_t* @1)
store i32 %1, i32* %.threadid_temp., align 4		store i32 %1, i32* %.threadid_temp., align 4
call void @__omp_outlined__(i32* %.threadid_temp., i32* %.zero.addr) #3		call void @__omp_outlined__(i32* %.threadid_temp., i32* %.zero.addr) #3
call void @__kmpc_target_deinit(%struct.ident_t* @1, i1 false, i1 true)		call void @__kmpc_target_deinit(%struct.ident_t* @1, i1 false, i1 true)
ret void		ret void

worker.exit: ; preds = %entry		worker.exit: ; preds = %entry
ret void		ret void
}		}

declare i32 @__kmpc_target_init(%struct.ident_t*, i1, i1, i1)		declare i32 @__kmpc_target_init(%struct.ident_t*, i1, i1, i1)

define internal void @__omp_outlined__(i32* noalias %.global_tid., i32* noalias %.bound_tid.) #0 {		define internal void @__omp_outlined__(i32* noalias %.global_tid., i32* noalias %.bound_tid.) #0 {
; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__		;
; CHECK-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {		;
; CHECK-NEXT: entry:		; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__
; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8		; AMDGPU-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8		; AMDGPU-NEXT: entry:
; CHECK-NEXT: [[I:%.*]] = alloca i32, align 4		; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8		; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8		; AMDGPU-NEXT: [[I:%.*]] = alloca i32, align 4
; CHECK-NEXT: store i32 0, i32* [[I]], align 4		; AMDGPU-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
; CHECK-NEXT: br label [[FOR_COND:%.*]]		; AMDGPU-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
; CHECK: for.cond:		; AMDGPU-NEXT: store i32 0, i32* [[I]], align 4
; CHECK-NEXT: [[TMP0:%.]] = load i32, i32 [[I]], align 4		; AMDGPU-NEXT: br label [[FOR_COND:%.*]]
; CHECK-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP0]], 100		; AMDGPU: for.cond:
; CHECK-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]		; AMDGPU-NEXT: [[TMP0:%.]] = load i32, i32 [[I]], align 4
; CHECK: for.body:		; AMDGPU-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP0]], 100
; CHECK-NEXT: [[TMP1:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4		; AMDGPU-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]
; CHECK-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**		; AMDGPU: for.body:
; CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP1]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__1 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8), i8* noundef [[TMP2]], i64 noundef 0)		; AMDGPU-NEXT: [[TMP1:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
; CHECK-NEXT: br label [[FOR_INC:%.*]]		; AMDGPU-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
; CHECK: for.inc:		; AMDGPU-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP1]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__1 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8), i8* noundef [[TMP2]], i64 noundef 0)
; CHECK-NEXT: [[TMP3:%.]] = load i32, i32 [[I]], align 4		; AMDGPU-NEXT: br label [[FOR_INC:%.*]]
; CHECK-NEXT: [[INC:%.*]] = add nsw i32 [[TMP3]], 1		; AMDGPU: for.inc:
; CHECK-NEXT: store i32 [[INC]], i32* [[I]], align 4		; AMDGPU-NEXT: [[TMP3:%.]] = load i32, i32 [[I]], align 4
; CHECK-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP13:![0-9]+]]		; AMDGPU-NEXT: [[INC:%.*]] = add nsw i32 [[TMP3]], 1
; CHECK: for.end:		; AMDGPU-NEXT: store i32 [[INC]], i32* [[I]], align 4
; CHECK-NEXT: call void @spmd_amenable() #[[ATTR5:[0-9]+]]		; AMDGPU-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP13:![0-9]+]]
; CHECK-NEXT: ret void		; AMDGPU: for.end:
;		; AMDGPU-NEXT: call void @spmd_amenable() #[[ATTR6:[0-9]+]]
; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__		; AMDGPU-NEXT: ret void
; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {		;
; CHECK-DISABLED-NEXT: entry:		; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__
; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8		; NVPTX-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8		; NVPTX-NEXT: entry:
; CHECK-DISABLED-NEXT: [[I:%.*]] = alloca i32, align 4		; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8		; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8		; NVPTX-NEXT: [[I:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: store i32 0, i32* [[I]], align 4		; NVPTX-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
; CHECK-DISABLED-NEXT: br label [[FOR_COND:%.*]]		; NVPTX-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
; CHECK-DISABLED: for.cond:		; NVPTX-NEXT: store i32 0, i32* [[I]], align 4
; CHECK-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[I]], align 4		; NVPTX-NEXT: br label [[FOR_COND:%.*]]
; CHECK-DISABLED-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP0]], 100		; NVPTX: for.cond:
; CHECK-DISABLED-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]		; NVPTX-NEXT: [[TMP0:%.]] = load i32, i32 [[I]], align 4
; CHECK-DISABLED: for.body:		; NVPTX-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP0]], 100
; CHECK-DISABLED-NEXT: [[TMP1:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4		; NVPTX-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]
; CHECK-DISABLED-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**		; NVPTX: for.body:
; CHECK-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP1]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__1 to i8), i8 noundef @__omp_outlined__1_wrapper.ID, i8** noundef [[TMP2]], i64 noundef 0)		; NVPTX-NEXT: [[TMP1:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
; CHECK-DISABLED-NEXT: br label [[FOR_INC:%.*]]		; NVPTX-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
; CHECK-DISABLED: for.inc:		; NVPTX-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP1]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__1 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__1_wrapper to i8), i8* noundef [[TMP2]], i64 noundef 0)
; CHECK-DISABLED-NEXT: [[TMP3:%.]] = load i32, i32 [[I]], align 4		; NVPTX-NEXT: br label [[FOR_INC:%.*]]
; CHECK-DISABLED-NEXT: [[INC:%.*]] = add nsw i32 [[TMP3]], 1		; NVPTX: for.inc:
; CHECK-DISABLED-NEXT: store i32 [[INC]], i32* [[I]], align 4		; NVPTX-NEXT: [[TMP3:%.]] = load i32, i32 [[I]], align 4
; CHECK-DISABLED-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP13:![0-9]+]]		; NVPTX-NEXT: [[INC:%.*]] = add nsw i32 [[TMP3]], 1
; CHECK-DISABLED: for.end:		; NVPTX-NEXT: store i32 [[INC]], i32* [[I]], align 4
; CHECK-DISABLED-NEXT: call void @spmd_amenable() #[[ATTR5:[0-9]+]]		; NVPTX-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP13:![0-9]+]]
; CHECK-DISABLED-NEXT: ret void		; NVPTX: for.end:
		; NVPTX-NEXT: call void @spmd_amenable() #[[ATTR6:[0-9]+]]
		; NVPTX-NEXT: ret void
		;
		; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__
		; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
		; AMDGPU-DISABLED-NEXT: entry:
		; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; AMDGPU-DISABLED-NEXT: [[I:%.*]] = alloca i32, align 4
		; AMDGPU-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
		; AMDGPU-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[I]], align 4
		; AMDGPU-DISABLED-NEXT: br label [[FOR_COND:%.*]]
		; AMDGPU-DISABLED: for.cond:
		; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[I]], align 4
		; AMDGPU-DISABLED-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP0]], 100
		; AMDGPU-DISABLED-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]
		; AMDGPU-DISABLED: for.body:
		; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
		; AMDGPU-DISABLED-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP1]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__1 to i8), i8 noundef @__omp_outlined__1_wrapper.ID, i8** noundef [[TMP2]], i64 noundef 0)
		; AMDGPU-DISABLED-NEXT: br label [[FOR_INC:%.*]]
		; AMDGPU-DISABLED: for.inc:
		; AMDGPU-DISABLED-NEXT: [[TMP3:%.]] = load i32, i32 [[I]], align 4
		; AMDGPU-DISABLED-NEXT: [[INC:%.*]] = add nsw i32 [[TMP3]], 1
		; AMDGPU-DISABLED-NEXT: store i32 [[INC]], i32* [[I]], align 4
		; AMDGPU-DISABLED-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP13:![0-9]+]]
		; AMDGPU-DISABLED: for.end:
		; AMDGPU-DISABLED-NEXT: call void @spmd_amenable() #[[ATTR6:[0-9]+]]
		; AMDGPU-DISABLED-NEXT: ret void
		;
		; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__
		; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
		; NVPTX-DISABLED-NEXT: entry:
		; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-DISABLED-NEXT: [[I:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
		; NVPTX-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		; NVPTX-DISABLED-NEXT: store i32 0, i32* [[I]], align 4
		; NVPTX-DISABLED-NEXT: br label [[FOR_COND:%.*]]
		; NVPTX-DISABLED: for.cond:
		; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[I]], align 4
		; NVPTX-DISABLED-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP0]], 100
		; NVPTX-DISABLED-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]
		; NVPTX-DISABLED: for.body:
		; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
		; NVPTX-DISABLED-NEXT: [[TMP2:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
		; NVPTX-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP1]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__1 to i8), i8 noundef @__omp_outlined__1_wrapper.ID, i8** noundef [[TMP2]], i64 noundef 0)
		; NVPTX-DISABLED-NEXT: br label [[FOR_INC:%.*]]
		; NVPTX-DISABLED: for.inc:
		; NVPTX-DISABLED-NEXT: [[TMP3:%.]] = load i32, i32 [[I]], align 4
		; NVPTX-DISABLED-NEXT: [[INC:%.*]] = add nsw i32 [[TMP3]], 1
		; NVPTX-DISABLED-NEXT: store i32 [[INC]], i32* [[I]], align 4
		; NVPTX-DISABLED-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP13:![0-9]+]]
		; NVPTX-DISABLED: for.end:
		; NVPTX-DISABLED-NEXT: call void @spmd_amenable() #[[ATTR6:[0-9]+]]
		; NVPTX-DISABLED-NEXT: ret void
;		;
entry:		entry:
%.global_tid..addr = alloca i32*, align 8		%.global_tid..addr = alloca i32*, align 8
%.bound_tid..addr = alloca i32*, align 8		%.bound_tid..addr = alloca i32*, align 8
%i = alloca i32, align 4		%i = alloca i32, align 4
%captured_vars_addrs = alloca [0 x i8*], align 8		%captured_vars_addrs = alloca [0 x i8*], align 8
store i32* %.global_tid., i32** %.global_tid..addr, align 8		store i32* %.global_tid., i32** %.global_tid..addr, align 8
store i32* %.bound_tid., i32** %.bound_tid..addr, align 8		store i32* %.bound_tid., i32** %.bound_tid..addr, align 8
Show All 19 Lines	for.inc: ; preds = %for.body
br label %for.cond, !llvm.loop !13		br label %for.cond, !llvm.loop !13

for.end: ; preds = %for.cond		for.end: ; preds = %for.cond
call void @spmd_amenable() #4		call void @spmd_amenable() #4
ret void		ret void
}		}

define internal void @__omp_outlined__1(i32* noalias %.global_tid., i32* noalias %.bound_tid.) #0 {		define internal void @__omp_outlined__1(i32* noalias %.global_tid., i32* noalias %.bound_tid.) #0 {
; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__1		;
; CHECK-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {		;
; CHECK-NEXT: entry:		; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__1
; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8		; AMDGPU-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8		; AMDGPU-NEXT: entry:
; CHECK-NEXT: call void @unknown() #[[ATTR6:[0-9]+]]		; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-NEXT: ret void		; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
;		; AMDGPU-NEXT: call void @unknown() #[[ATTR7:[0-9]+]]
; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__1		; AMDGPU-NEXT: ret void
; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {		;
; CHECK-DISABLED-NEXT: entry:		; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__1
; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8		; NVPTX-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8		; NVPTX-NEXT: entry:
; CHECK-DISABLED-NEXT: call void @unknown() #[[ATTR6:[0-9]+]]		; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-DISABLED-NEXT: ret void		; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-NEXT: call void @unknown() #[[ATTR7:[0-9]+]]
		; NVPTX-NEXT: ret void
		;
		; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__1
		; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
		; AMDGPU-DISABLED-NEXT: entry:
		; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; AMDGPU-DISABLED-NEXT: call void @unknown() #[[ATTR7:[0-9]+]]
		; AMDGPU-DISABLED-NEXT: ret void
		;
		; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__1
		; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
		; NVPTX-DISABLED-NEXT: entry:
		; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-DISABLED-NEXT: call void @unknown() #[[ATTR7:[0-9]+]]
		; NVPTX-DISABLED-NEXT: ret void
;		;
entry:		entry:
%.global_tid..addr = alloca i32*, align 8		%.global_tid..addr = alloca i32*, align 8
%.bound_tid..addr = alloca i32*, align 8		%.bound_tid..addr = alloca i32*, align 8
store i32* %.global_tid., i32** %.global_tid..addr, align 8		store i32* %.global_tid., i32** %.global_tid..addr, align 8
store i32* %.bound_tid., i32** %.bound_tid..addr, align 8		store i32* %.bound_tid., i32** %.bound_tid..addr, align 8
call void @unknown() #5		call void @unknown() #5
ret void		ret void
}		}

declare void @unknown() #1		declare void @unknown() #1

define internal void @__omp_outlined__1_wrapper(i16 zeroext %0, i32 %1) #0 {		define internal void @__omp_outlined__1_wrapper(i16 zeroext %0, i32 %1) #0 {
; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper		;
; CHECK-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {		;
; CHECK-NEXT: entry:		; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
; CHECK-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2		; AMDGPU-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
; CHECK-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4		; AMDGPU-NEXT: entry:
; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4		; AMDGPU-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
; CHECK-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8		; AMDGPU-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
; CHECK-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4		; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2		; AMDGPU-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4		; AMDGPU-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
; CHECK-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])		; AMDGPU-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
; CHECK-NEXT: call void @__omp_outlined__1(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]		; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
; CHECK-NEXT: ret void		; AMDGPU-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
;		; AMDGPU-NEXT: call void @__omp_outlined__1(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR4]]
; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper		; AMDGPU-NEXT: ret void
; CHECK-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {		;
; CHECK-DISABLED-NEXT: entry:		; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
; CHECK-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2		; NVPTX-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
; CHECK-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4		; NVPTX-NEXT: entry:
; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4		; NVPTX-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
; CHECK-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8		; NVPTX-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4		; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2		; NVPTX-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4		; NVPTX-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
; CHECK-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])		; NVPTX-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
; CHECK-DISABLED-NEXT: call void @__omp_outlined__1(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]		; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
; CHECK-DISABLED-NEXT: ret void		; NVPTX-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
		; NVPTX-NEXT: call void @__omp_outlined__1(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR4]]
		; NVPTX-NEXT: ret void
		;
		; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
		; AMDGPU-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
		; AMDGPU-DISABLED-NEXT: entry:
		; AMDGPU-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
		; AMDGPU-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
		; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
		; AMDGPU-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
		; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
		; AMDGPU-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
		; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
		; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__1(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR4]]
		; AMDGPU-DISABLED-NEXT: ret void
		;
		; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
		; NVPTX-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
		; NVPTX-DISABLED-NEXT: entry:
		; NVPTX-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
		; NVPTX-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
		; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
		; NVPTX-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
		; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
		; NVPTX-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
		; NVPTX-DISABLED-NEXT: call void @__omp_outlined__1(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR4]]
		; NVPTX-DISABLED-NEXT: ret void
;		;
entry:		entry:
%.addr = alloca i16, align 2		%.addr = alloca i16, align 2
%.addr1 = alloca i32, align 4		%.addr1 = alloca i32, align 4
%.zero.addr = alloca i32, align 4		%.zero.addr = alloca i32, align 4
%global_args = alloca i8**, align 8		%global_args = alloca i8**, align 8
store i32 0, i32* %.zero.addr, align 4		store i32 0, i32* %.zero.addr, align 4
store i16 %0, i16* %.addr, align 2		store i16 %0, i16* %.addr, align 2
Show All 9 Lines

declare void @spmd_amenable() #2		declare void @spmd_amenable() #2

declare i32 @__kmpc_global_thread_num(%struct.ident_t*) #3		declare i32 @__kmpc_global_thread_num(%struct.ident_t*) #3

declare void @__kmpc_target_deinit(%struct.ident_t*, i1, i1)		declare void @__kmpc_target_deinit(%struct.ident_t*, i1, i1)

define weak void @__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20() #0 {		define weak void @__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20() #0 {
; CHECK-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20		;
; CHECK-SAME: () #[[ATTR0]] {		;
; CHECK-NEXT: entry:		; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20
; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4		; AMDGPU-SAME: () #[[ATTR0]] {
; CHECK-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4		; AMDGPU-NEXT: entry:
; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 true, i1 false, i1 false)		; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1		; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
; CHECK-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]		; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 true, i1 false, i1 false)
; CHECK: user_code.entry:		; AMDGPU-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
; CHECK-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]		; AMDGPU-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4		; AMDGPU: user_code.entry:
; CHECK-NEXT: call void @__omp_outlined__2(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]		; AMDGPU-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR4]]
; CHECK-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 true, i1 false)		; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
; CHECK-NEXT: ret void		; AMDGPU-NEXT: call void @__omp_outlined__2(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR4]]
; CHECK: worker.exit:		; AMDGPU-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 true, i1 false)
; CHECK-NEXT: ret void		; AMDGPU-NEXT: ret void
;		; AMDGPU: worker.exit:
; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20		; AMDGPU-NEXT: ret void
; CHECK-DISABLED-SAME: () #[[ATTR0]] {		;
; CHECK-DISABLED-NEXT: entry:		; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20
; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8		; NVPTX-SAME: () #[[ATTR0]] {
; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4		; NVPTX-NEXT: entry:
; CHECK-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4		; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4		; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)		; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 true, i1 false, i1 false)
; CHECK-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1		; NVPTX-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
; CHECK-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]		; NVPTX-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
; CHECK-DISABLED: worker_state_machine.begin:		; NVPTX: user_code.entry:
; CHECK-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])		; NVPTX-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR4]]
; CHECK-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])		; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8		; NVPTX-NEXT: call void @__omp_outlined__2(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR4]]
; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*		; NVPTX-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 true, i1 false)
; CHECK-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null		; NVPTX-NEXT: ret void
; CHECK-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]		; NVPTX: worker.exit:
; CHECK-DISABLED: worker_state_machine.finished:		; NVPTX-NEXT: ret void
; CHECK-DISABLED-NEXT: ret void		;
; CHECK-DISABLED: worker_state_machine.is_active.check:		; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20
; CHECK-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]		; AMDGPU-DISABLED-SAME: () #[[ATTR0]] {
; CHECK-DISABLED: worker_state_machine.parallel_region.check:		; AMDGPU-DISABLED-NEXT: entry:
; CHECK-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__3_wrapper.ID to void (i16, i32)*)		; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
; CHECK-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]		; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-DISABLED: worker_state_machine.parallel_region.execute:		; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: call void @__omp_outlined__3_wrapper(i16 0, i32 [[TMP0]])		; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
; CHECK-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]		; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
; CHECK-DISABLED: worker_state_machine.parallel_region.fallback.execute:		; AMDGPU-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
; CHECK-DISABLED-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])		; AMDGPU-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
; CHECK-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]		; AMDGPU-DISABLED: worker_state_machine.begin:
; CHECK-DISABLED: worker_state_machine.parallel_region.end:		; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
; CHECK-DISABLED-NEXT: call void @__kmpc_kernel_end_parallel()		; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
; CHECK-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]		; AMDGPU-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
; CHECK-DISABLED: worker_state_machine.done.barrier:		; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
; CHECK-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])		; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
; CHECK-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]		; AMDGPU-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
; CHECK-DISABLED: thread.user_code.check:		; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
; CHECK-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1		; AMDGPU-DISABLED: worker_state_machine.finished:
; CHECK-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]		; AMDGPU-DISABLED-NEXT: ret void
; CHECK-DISABLED: user_code.entry:		; AMDGPU-DISABLED: worker_state_machine.is_active.check:
; CHECK-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]		; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4		; AMDGPU-DISABLED: worker_state_machine.parallel_region.check:
; CHECK-DISABLED-NEXT: call void @__omp_outlined__2(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]		; AMDGPU-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__3_wrapper.ID to void (i16, i32)*)
; CHECK-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)		; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]
; CHECK-DISABLED-NEXT: ret void		; AMDGPU-DISABLED: worker_state_machine.parallel_region.execute:
; CHECK-DISABLED: worker.exit:		; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__3_wrapper(i16 0, i32 [[TMP0]])
; CHECK-DISABLED-NEXT: ret void		; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
		; AMDGPU-DISABLED: worker_state_machine.parallel_region.fallback.execute:
		; AMDGPU-DISABLED-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
		; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
		; AMDGPU-DISABLED: worker_state_machine.parallel_region.end:
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_kernel_end_parallel()
		; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
		; AMDGPU-DISABLED: worker_state_machine.done.barrier:
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
		; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
		; AMDGPU-DISABLED: thread.user_code.check:
		; AMDGPU-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
		; AMDGPU-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
		; AMDGPU-DISABLED: user_code.entry:
		; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR4]]
		; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
		; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__2(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR4]]
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
		; AMDGPU-DISABLED-NEXT: ret void
		; AMDGPU-DISABLED: worker.exit:
		; AMDGPU-DISABLED-NEXT: ret void
		;
		; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20
		; NVPTX-DISABLED-SAME: () #[[ATTR0]] {
		; NVPTX-DISABLED-NEXT: entry:
		; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
		; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
		; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
		; NVPTX-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
		; NVPTX-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
		; NVPTX-DISABLED: worker_state_machine.begin:
		; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
		; NVPTX-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
		; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
		; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
		; NVPTX-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
		; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
		; NVPTX-DISABLED: worker_state_machine.finished:
		; NVPTX-DISABLED-NEXT: ret void
		; NVPTX-DISABLED: worker_state_machine.is_active.check:
		; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
		; NVPTX-DISABLED: worker_state_machine.parallel_region.check:
		; NVPTX-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__3_wrapper.ID to void (i16, i32)*)
		; NVPTX-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]
		; NVPTX-DISABLED: worker_state_machine.parallel_region.execute:
		; NVPTX-DISABLED-NEXT: call void @__omp_outlined__3_wrapper(i16 0, i32 [[TMP0]])
		; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
		; NVPTX-DISABLED: worker_state_machine.parallel_region.fallback.execute:
		; NVPTX-DISABLED-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
		; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
		; NVPTX-DISABLED: worker_state_machine.parallel_region.end:
		; NVPTX-DISABLED-NEXT: call void @__kmpc_kernel_end_parallel()
		; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
		; NVPTX-DISABLED: worker_state_machine.done.barrier:
		; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
		; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
		; NVPTX-DISABLED: thread.user_code.check:
		; NVPTX-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
		; NVPTX-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
		; NVPTX-DISABLED: user_code.entry:
		; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR4]]
		; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
		; NVPTX-DISABLED-NEXT: call void @__omp_outlined__2(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR4]]
		; NVPTX-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
		; NVPTX-DISABLED-NEXT: ret void
		; NVPTX-DISABLED: worker.exit:
		; NVPTX-DISABLED-NEXT: ret void
;		;
entry:		entry:
%.zero.addr = alloca i32, align 4		%.zero.addr = alloca i32, align 4
%.threadid_temp. = alloca i32, align 4		%.threadid_temp. = alloca i32, align 4
store i32 0, i32* %.zero.addr, align 4		store i32 0, i32* %.zero.addr, align 4
%0 = call i32 @__kmpc_target_init(%struct.ident_t* @1, i1 false, i1 true, i1 true)		%0 = call i32 @__kmpc_target_init(%struct.ident_t* @1, i1 false, i1 true, i1 true)
%exec_user_code = icmp eq i32 %0, -1		%exec_user_code = icmp eq i32 %0, -1
br i1 %exec_user_code, label %user_code.entry, label %worker.exit		br i1 %exec_user_code, label %user_code.entry, label %worker.exit

user_code.entry: ; preds = %entry		user_code.entry: ; preds = %entry
%1 = call i32 @__kmpc_global_thread_num(%struct.ident_t* @1)		%1 = call i32 @__kmpc_global_thread_num(%struct.ident_t* @1)
store i32 %1, i32* %.threadid_temp., align 4		store i32 %1, i32* %.threadid_temp., align 4
call void @__omp_outlined__2(i32* %.threadid_temp., i32* %.zero.addr) #3		call void @__omp_outlined__2(i32* %.threadid_temp., i32* %.zero.addr) #3
call void @__kmpc_target_deinit(%struct.ident_t* @1, i1 false, i1 true)		call void @__kmpc_target_deinit(%struct.ident_t* @1, i1 false, i1 true)
ret void		ret void

worker.exit: ; preds = %entry		worker.exit: ; preds = %entry
ret void		ret void
}		}

define internal void @__omp_outlined__2(i32* noalias %.global_tid., i32* noalias %.bound_tid.) #0 {		define internal void @__omp_outlined__2(i32* noalias %.global_tid., i32* noalias %.bound_tid.) #0 {
; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__2		; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__2
; CHECK-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {		; AMDGPU-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
; CHECK-NEXT: entry:		; AMDGPU-NEXT: entry:
; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8		; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8		; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-NEXT: [[I:%.*]] = alloca i32, align 4		; AMDGPU-NEXT: [[I:%.*]] = alloca i32, align 4
; CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8		; AMDGPU-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
; CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8		; AMDGPU-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
; CHECK-NEXT: [[TMP0:%.*]] = alloca i8, i64 4, align 1		; AMDGPU-NEXT: [[TMP0:%.*]] = alloca i8, i64 4, align 1
; CHECK-NEXT: [[X_ON_STACK:%.]] = bitcast i8 [[TMP0]] to i32*		; AMDGPU-NEXT: [[X_ON_STACK:%.]] = bitcast i8 [[TMP0]] to i32*
; CHECK-NEXT: call void @use(i32* nocapture [[X_ON_STACK]]) #[[ATTR5]]		; AMDGPU-NEXT: call void @use(i32* nocapture [[X_ON_STACK]]) #[[ATTR6]]
; CHECK-NEXT: store i32 0, i32* [[I]], align 4		; AMDGPU-NEXT: store i32 0, i32* [[I]], align 4
; CHECK-NEXT: br label [[FOR_COND:%.*]]		; AMDGPU-NEXT: br label [[FOR_COND:%.*]]
; CHECK: for.cond:		; AMDGPU: for.cond:
; CHECK-NEXT: [[TMP1:%.]] = load i32, i32 [[I]], align 4		; AMDGPU-NEXT: [[TMP1:%.]] = load i32, i32 [[I]], align 4
; CHECK-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP1]], 100		; AMDGPU-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP1]], 100
; CHECK-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]		; AMDGPU-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]
; CHECK: for.body:		; AMDGPU: for.body:
; CHECK-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4		; AMDGPU-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
; CHECK-NEXT: [[TMP3:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**		; AMDGPU-NEXT: [[TMP3:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
; CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP2]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__3 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__3_wrapper to i8), i8* noundef [[TMP3]], i64 noundef 0)		; AMDGPU-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP2]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__3 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__3_wrapper to i8), i8* noundef [[TMP3]], i64 noundef 0)
; CHECK-NEXT: br label [[FOR_INC:%.*]]		; AMDGPU-NEXT: br label [[FOR_INC:%.*]]
; CHECK: for.inc:		; AMDGPU: for.inc:
; CHECK-NEXT: [[TMP4:%.]] = load i32, i32 [[I]], align 4		; AMDGPU-NEXT: [[TMP4:%.]] = load i32, i32 [[I]], align 4
; CHECK-NEXT: [[INC:%.*]] = add nsw i32 [[TMP4]], 1		; AMDGPU-NEXT: [[INC:%.*]] = add nsw i32 [[TMP4]], 1
; CHECK-NEXT: store i32 [[INC]], i32* [[I]], align 4		; AMDGPU-NEXT: store i32 [[INC]], i32* [[I]], align 4
; CHECK-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP15:![0-9]+]]		; AMDGPU-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP15:![0-9]+]]
; CHECK: for.end:		; AMDGPU: for.end:
; CHECK-NEXT: call void @spmd_amenable() #[[ATTR5]]		; AMDGPU-NEXT: call void @spmd_amenable() #[[ATTR6]]
; CHECK-NEXT: ret void		; AMDGPU-NEXT: ret void
;		;
; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__2		; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__2
; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {		; NVPTX-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
; CHECK-DISABLED-NEXT: entry:		; NVPTX-NEXT: entry:
; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8		; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8		; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-DISABLED-NEXT: [[I:%.*]] = alloca i32, align 4		; NVPTX-NEXT: [[I:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8		; NVPTX-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
; CHECK-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8		; NVPTX-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
; CHECK-DISABLED-NEXT: [[TMP0:%.*]] = alloca i8, i64 4, align 1		; NVPTX-NEXT: [[TMP0:%.*]] = alloca i8, i64 4, align 1
; CHECK-DISABLED-NEXT: [[X_ON_STACK:%.]] = bitcast i8 [[TMP0]] to i32*		; NVPTX-NEXT: [[X_ON_STACK:%.]] = bitcast i8 [[TMP0]] to i32*
; CHECK-DISABLED-NEXT: call void @use(i32* nocapture [[X_ON_STACK]]) #[[ATTR5]]		; NVPTX-NEXT: call void @use(i32* nocapture [[X_ON_STACK]]) #[[ATTR6]]
; CHECK-DISABLED-NEXT: store i32 0, i32* [[I]], align 4		; NVPTX-NEXT: store i32 0, i32* [[I]], align 4
; CHECK-DISABLED-NEXT: br label [[FOR_COND:%.*]]		; NVPTX-NEXT: br label [[FOR_COND:%.*]]
; CHECK-DISABLED: for.cond:		; NVPTX: for.cond:
; CHECK-DISABLED-NEXT: [[TMP1:%.]] = load i32, i32 [[I]], align 4		; NVPTX-NEXT: [[TMP1:%.]] = load i32, i32 [[I]], align 4
; CHECK-DISABLED-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP1]], 100		; NVPTX-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP1]], 100
; CHECK-DISABLED-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]		; NVPTX-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]
; CHECK-DISABLED: for.body:		; NVPTX: for.body:
; CHECK-DISABLED-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4		; NVPTX-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
; CHECK-DISABLED-NEXT: [[TMP3:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**		; NVPTX-NEXT: [[TMP3:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
; CHECK-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP2]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__3 to i8), i8 noundef @__omp_outlined__3_wrapper.ID, i8** noundef [[TMP3]], i64 noundef 0)		; NVPTX-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP2]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__3 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__3_wrapper to i8), i8* noundef [[TMP3]], i64 noundef 0)
; CHECK-DISABLED-NEXT: br label [[FOR_INC:%.*]]		; NVPTX-NEXT: br label [[FOR_INC:%.*]]
; CHECK-DISABLED: for.inc:		; NVPTX: for.inc:
; CHECK-DISABLED-NEXT: [[TMP4:%.]] = load i32, i32 [[I]], align 4		; NVPTX-NEXT: [[TMP4:%.]] = load i32, i32 [[I]], align 4
; CHECK-DISABLED-NEXT: [[INC:%.*]] = add nsw i32 [[TMP4]], 1		; NVPTX-NEXT: [[INC:%.*]] = add nsw i32 [[TMP4]], 1
; CHECK-DISABLED-NEXT: store i32 [[INC]], i32* [[I]], align 4		; NVPTX-NEXT: store i32 [[INC]], i32* [[I]], align 4
; CHECK-DISABLED-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP15:![0-9]+]]		; NVPTX-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP15:![0-9]+]]
; CHECK-DISABLED: for.end:		; NVPTX: for.end:
; CHECK-DISABLED-NEXT: call void @spmd_amenable() #[[ATTR5]]		; NVPTX-NEXT: call void @spmd_amenable() #[[ATTR6]]
; CHECK-DISABLED-NEXT: ret void		; NVPTX-NEXT: ret void
		;
		; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__2
		; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
		; AMDGPU-DISABLED-NEXT: entry:
		; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; AMDGPU-DISABLED-NEXT: [[I:%.*]] = alloca i32, align 4
		; AMDGPU-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
		; AMDGPU-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		; AMDGPU-DISABLED-NEXT: [[TMP0:%.*]] = alloca i8, i64 4, align 1
		; AMDGPU-DISABLED-NEXT: [[X_ON_STACK:%.]] = bitcast i8 [[TMP0]] to i32*
		; AMDGPU-DISABLED-NEXT: call void @use(i32* nocapture [[X_ON_STACK]]) #[[ATTR6]]
		; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[I]], align 4
		; AMDGPU-DISABLED-NEXT: br label [[FOR_COND:%.*]]
		; AMDGPU-DISABLED: for.cond:
		; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = load i32, i32 [[I]], align 4
		; AMDGPU-DISABLED-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP1]], 100
		; AMDGPU-DISABLED-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]
		; AMDGPU-DISABLED: for.body:
		; AMDGPU-DISABLED-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
		; AMDGPU-DISABLED-NEXT: [[TMP3:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP2]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__3 to i8), i8 noundef @__omp_outlined__3_wrapper.ID, i8** noundef [[TMP3]], i64 noundef 0)
		; AMDGPU-DISABLED-NEXT: br label [[FOR_INC:%.*]]
		; AMDGPU-DISABLED: for.inc:
		; AMDGPU-DISABLED-NEXT: [[TMP4:%.]] = load i32, i32 [[I]], align 4
		; AMDGPU-DISABLED-NEXT: [[INC:%.*]] = add nsw i32 [[TMP4]], 1
		; AMDGPU-DISABLED-NEXT: store i32 [[INC]], i32* [[I]], align 4
		; AMDGPU-DISABLED-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP15:![0-9]+]]
		; AMDGPU-DISABLED: for.end:
		; AMDGPU-DISABLED-NEXT: call void @spmd_amenable() #[[ATTR6]]
		; AMDGPU-DISABLED-NEXT: ret void
		;
		; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__2
		; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
		; NVPTX-DISABLED-NEXT: entry:
		; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-DISABLED-NEXT: [[I:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [0 x i8], align 8
		; NVPTX-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		; NVPTX-DISABLED-NEXT: [[TMP0:%.*]] = alloca i8, i64 4, align 1
		; NVPTX-DISABLED-NEXT: [[X_ON_STACK:%.]] = bitcast i8 [[TMP0]] to i32*
		; NVPTX-DISABLED-NEXT: call void @use(i32* nocapture [[X_ON_STACK]]) #[[ATTR6]]
		; NVPTX-DISABLED-NEXT: store i32 0, i32* [[I]], align 4
		; NVPTX-DISABLED-NEXT: br label [[FOR_COND:%.*]]
		; NVPTX-DISABLED: for.cond:
		; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = load i32, i32 [[I]], align 4
		; NVPTX-DISABLED-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP1]], 100
		; NVPTX-DISABLED-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]
		; NVPTX-DISABLED: for.body:
		; NVPTX-DISABLED-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
		; NVPTX-DISABLED-NEXT: [[TMP3:%.]] = bitcast [0 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
		; NVPTX-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP2]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32)* @__omp_outlined__3 to i8), i8 noundef @__omp_outlined__3_wrapper.ID, i8** noundef [[TMP3]], i64 noundef 0)
		; NVPTX-DISABLED-NEXT: br label [[FOR_INC:%.*]]
		; NVPTX-DISABLED: for.inc:
		; NVPTX-DISABLED-NEXT: [[TMP4:%.]] = load i32, i32 [[I]], align 4
		; NVPTX-DISABLED-NEXT: [[INC:%.*]] = add nsw i32 [[TMP4]], 1
		; NVPTX-DISABLED-NEXT: store i32 [[INC]], i32* [[I]], align 4
		; NVPTX-DISABLED-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP15:![0-9]+]]
		; NVPTX-DISABLED: for.end:
		; NVPTX-DISABLED-NEXT: call void @spmd_amenable() #[[ATTR6]]
		; NVPTX-DISABLED-NEXT: ret void
;		;
entry:		entry:
%.global_tid..addr = alloca i32*, align 8		%.global_tid..addr = alloca i32*, align 8
%.bound_tid..addr = alloca i32*, align 8		%.bound_tid..addr = alloca i32*, align 8
%i = alloca i32, align 4		%i = alloca i32, align 4
%captured_vars_addrs = alloca [0 x i8*], align 8		%captured_vars_addrs = alloca [0 x i8*], align 8
store i32* %.global_tid., i32** %.global_tid..addr, align 8		store i32* %.global_tid., i32** %.global_tid..addr, align 8
store i32* %.bound_tid., i32** %.bound_tid..addr, align 8		store i32* %.bound_tid., i32** %.bound_tid..addr, align 8
Show All 27 Lines	for.end: ; preds = %for.cond
ret void		ret void
}		}

declare i8* @__kmpc_alloc_shared(i64) #3		declare i8* @__kmpc_alloc_shared(i64) #3

declare void @use(i32* nocapture) #2		declare void @use(i32* nocapture) #2

define internal void @__omp_outlined__3(i32* noalias %.global_tid., i32* noalias %.bound_tid.) #0 {		define internal void @__omp_outlined__3(i32* noalias %.global_tid., i32* noalias %.bound_tid.) #0 {
; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__3		;
; CHECK-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {		;
; CHECK-NEXT: entry:		; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__3
; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8		; AMDGPU-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8		; AMDGPU-NEXT: entry:
; CHECK-NEXT: call void @unknown() #[[ATTR6]]		; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-NEXT: ret void		; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
;		; AMDGPU-NEXT: call void @unknown() #[[ATTR7]]
; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__3		; AMDGPU-NEXT: ret void
; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {		;
; CHECK-DISABLED-NEXT: entry:		; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__3
; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8		; NVPTX-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8		; NVPTX-NEXT: entry:
; CHECK-DISABLED-NEXT: call void @unknown() #[[ATTR6]]		; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-DISABLED-NEXT: ret void		; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-NEXT: call void @unknown() #[[ATTR7]]
		; NVPTX-NEXT: ret void
		;
		; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__3
		; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
		; AMDGPU-DISABLED-NEXT: entry:
		; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; AMDGPU-DISABLED-NEXT: call void @unknown() #[[ATTR7]]
		; AMDGPU-DISABLED-NEXT: ret void
		;
		; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__3
		; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
		; NVPTX-DISABLED-NEXT: entry:
		; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-DISABLED-NEXT: call void @unknown() #[[ATTR7]]
		; NVPTX-DISABLED-NEXT: ret void
;		;
entry:		entry:
%.global_tid..addr = alloca i32*, align 8		%.global_tid..addr = alloca i32*, align 8
%.bound_tid..addr = alloca i32*, align 8		%.bound_tid..addr = alloca i32*, align 8
store i32* %.global_tid., i32** %.global_tid..addr, align 8		store i32* %.global_tid., i32** %.global_tid..addr, align 8
store i32* %.bound_tid., i32** %.bound_tid..addr, align 8		store i32* %.bound_tid., i32** %.bound_tid..addr, align 8
call void @unknown() #5		call void @unknown() #5
ret void		ret void
}		}

define internal void @__omp_outlined__3_wrapper(i16 zeroext %0, i32 %1) #0 {		define internal void @__omp_outlined__3_wrapper(i16 zeroext %0, i32 %1) #0 {
; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper		;
; CHECK-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {		;
; CHECK-NEXT: entry:		; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper
; CHECK-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2		; AMDGPU-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
; CHECK-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4		; AMDGPU-NEXT: entry:
; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4		; AMDGPU-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
; CHECK-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8		; AMDGPU-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
; CHECK-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4		; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2		; AMDGPU-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4		; AMDGPU-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
; CHECK-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])		; AMDGPU-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
; CHECK-NEXT: call void @__omp_outlined__3(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]		; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
; CHECK-NEXT: ret void		; AMDGPU-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
;		; AMDGPU-NEXT: call void @__omp_outlined__3(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR4]]
; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper		; AMDGPU-NEXT: ret void
; CHECK-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {		;
; CHECK-DISABLED-NEXT: entry:		; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper
; CHECK-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2		; NVPTX-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
; CHECK-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4		; NVPTX-NEXT: entry:
; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4		; NVPTX-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
; CHECK-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8		; NVPTX-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4		; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2		; NVPTX-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4		; NVPTX-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
; CHECK-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])		; NVPTX-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
; CHECK-DISABLED-NEXT: call void @__omp_outlined__3(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR3]]		; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
; CHECK-DISABLED-NEXT: ret void		; NVPTX-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
		; NVPTX-NEXT: call void @__omp_outlined__3(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR4]]
		; NVPTX-NEXT: ret void
		;
		; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper
		; AMDGPU-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
		; AMDGPU-DISABLED-NEXT: entry:
		; AMDGPU-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
		; AMDGPU-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
		; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
		; AMDGPU-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
		; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
		; AMDGPU-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
		; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
		; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__3(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR4]]
		; AMDGPU-DISABLED-NEXT: ret void
		;
		; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper
		; NVPTX-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
		; NVPTX-DISABLED-NEXT: entry:
		; NVPTX-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
		; NVPTX-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
		; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
		; NVPTX-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
		; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
		; NVPTX-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
		; NVPTX-DISABLED-NEXT: call void @__omp_outlined__3(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]]) #[[ATTR4]]
		; NVPTX-DISABLED-NEXT: ret void
;		;
entry:		entry:
%.addr = alloca i16, align 2		%.addr = alloca i16, align 2
%.addr1 = alloca i32, align 4		%.addr1 = alloca i32, align 4
%.zero.addr = alloca i32, align 4		%.zero.addr = alloca i32, align 4
%global_args = alloca i8**, align 8		%global_args = alloca i8**, align 8
store i32 0, i32* %.zero.addr, align 4		store i32 0, i32* %.zero.addr, align 4
store i16 %0, i16* %.addr, align 2		store i16 %0, i16* %.addr, align 2
store i32 %1, i32* %.addr1, align 4		store i32 %1, i32* %.addr1, align 4
call void @__kmpc_get_shared_variables(i8*** %global_args)		call void @__kmpc_get_shared_variables(i8*** %global_args)
call void @__omp_outlined__3(i32* %.addr1, i32* %.zero.addr) #3		call void @__omp_outlined__3(i32* %.addr1, i32* %.zero.addr) #3
ret void		ret void
}		}

declare void @__kmpc_free_shared(i8* nocapture, i64) #3		declare void @__kmpc_free_shared(i8* nocapture, i64) #3

define weak void @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35() #0 {		define weak void @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35() #0 {
; CHECK-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35		;
; CHECK-SAME: () #[[ATTR0]] {		;
; CHECK-NEXT: entry:		; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35
; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4		; AMDGPU-SAME: () #[[ATTR0]] {
; CHECK-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4		; AMDGPU-NEXT: entry:
; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 true, i1 false, i1 false)		; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1		; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
; CHECK-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]		; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 true, i1 false, i1 false)
; CHECK: user_code.entry:		; AMDGPU-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
; CHECK-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]		; AMDGPU-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4		; AMDGPU: user_code.entry:
; CHECK-NEXT: call void @__omp_outlined__4(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]		; AMDGPU-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR4]]
; CHECK-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 true, i1 false)		; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
; CHECK-NEXT: ret void		; AMDGPU-NEXT: call void @__omp_outlined__4(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR4]]
; CHECK: worker.exit:		; AMDGPU-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 true, i1 false)
; CHECK-NEXT: ret void		; AMDGPU-NEXT: ret void
;		; AMDGPU: worker.exit:
; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35		; AMDGPU-NEXT: ret void
; CHECK-DISABLED-SAME: () #[[ATTR0]] {		;
; CHECK-DISABLED-NEXT: entry:		; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35
; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8		; NVPTX-SAME: () #[[ATTR0]] {
; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4		; NVPTX-NEXT: entry:
; CHECK-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4		; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4		; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)		; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 true, i1 false, i1 false)
; CHECK-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1		; NVPTX-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
; CHECK-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]		; NVPTX-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
; CHECK-DISABLED: worker_state_machine.begin:		; NVPTX: user_code.entry:
; CHECK-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])		; NVPTX-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR4]]
; CHECK-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])		; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8		; NVPTX-NEXT: call void @__omp_outlined__4(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR4]]
; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*		; NVPTX-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 true, i1 false)
; CHECK-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null		; NVPTX-NEXT: ret void
; CHECK-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]		; NVPTX: worker.exit:
; CHECK-DISABLED: worker_state_machine.finished:		; NVPTX-NEXT: ret void
; CHECK-DISABLED-NEXT: ret void		;
; CHECK-DISABLED: worker_state_machine.is_active.check:		; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35
; CHECK-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]		; AMDGPU-DISABLED-SAME: () #[[ATTR0]] {
; CHECK-DISABLED: worker_state_machine.parallel_region.check:		; AMDGPU-DISABLED-NEXT: entry:
; CHECK-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__5_wrapper.ID to void (i16, i32)*)		; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
; CHECK-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]		; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-DISABLED: worker_state_machine.parallel_region.execute:		; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: call void @__omp_outlined__5_wrapper(i16 0, i32 [[TMP0]])		; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
; CHECK-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]		; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
; CHECK-DISABLED: worker_state_machine.parallel_region.fallback.execute:		; AMDGPU-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
; CHECK-DISABLED-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])		; AMDGPU-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
; CHECK-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]		; AMDGPU-DISABLED: worker_state_machine.begin:
; CHECK-DISABLED: worker_state_machine.parallel_region.end:		; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
; CHECK-DISABLED-NEXT: call void @__kmpc_kernel_end_parallel()		; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
; CHECK-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]		; AMDGPU-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
; CHECK-DISABLED: worker_state_machine.done.barrier:		; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
; CHECK-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])		; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
; CHECK-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]		; AMDGPU-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
; CHECK-DISABLED: thread.user_code.check:		; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
; CHECK-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1		; AMDGPU-DISABLED: worker_state_machine.finished:
; CHECK-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]		; AMDGPU-DISABLED-NEXT: ret void
; CHECK-DISABLED: user_code.entry:		; AMDGPU-DISABLED: worker_state_machine.is_active.check:
; CHECK-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]		; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4		; AMDGPU-DISABLED: worker_state_machine.parallel_region.check:
; CHECK-DISABLED-NEXT: call void @__omp_outlined__4(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]		; AMDGPU-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__5_wrapper.ID to void (i16, i32)*)
; CHECK-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)		; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]
; CHECK-DISABLED-NEXT: ret void		; AMDGPU-DISABLED: worker_state_machine.parallel_region.execute:
; CHECK-DISABLED: worker.exit:		; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__5_wrapper(i16 0, i32 [[TMP0]])
; CHECK-DISABLED-NEXT: ret void		; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
		; AMDGPU-DISABLED: worker_state_machine.parallel_region.fallback.execute:
		; AMDGPU-DISABLED-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
		; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
		; AMDGPU-DISABLED: worker_state_machine.parallel_region.end:
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_kernel_end_parallel()
		; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
		; AMDGPU-DISABLED: worker_state_machine.done.barrier:
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
		; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
		; AMDGPU-DISABLED: thread.user_code.check:
		; AMDGPU-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
		; AMDGPU-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
		; AMDGPU-DISABLED: user_code.entry:
		; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR4]]
		; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
		; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__4(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR4]]
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
		; AMDGPU-DISABLED-NEXT: ret void
		; AMDGPU-DISABLED: worker.exit:
		; AMDGPU-DISABLED-NEXT: ret void
		;
		; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35
		; NVPTX-DISABLED-SAME: () #[[ATTR0]] {
		; NVPTX-DISABLED-NEXT: entry:
		; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
		; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
		; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
		; NVPTX-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
		; NVPTX-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
		; NVPTX-DISABLED: worker_state_machine.begin:
		; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
		; NVPTX-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
		; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
		; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
		; NVPTX-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
		; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
		; NVPTX-DISABLED: worker_state_machine.finished:
		; NVPTX-DISABLED-NEXT: ret void
		; NVPTX-DISABLED: worker_state_machine.is_active.check:
		; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
		; NVPTX-DISABLED: worker_state_machine.parallel_region.check:
		; NVPTX-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__5_wrapper.ID to void (i16, i32)*)
		; NVPTX-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]
		; NVPTX-DISABLED: worker_state_machine.parallel_region.execute:
		; NVPTX-DISABLED-NEXT: call void @__omp_outlined__5_wrapper(i16 0, i32 [[TMP0]])
		; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
		; NVPTX-DISABLED: worker_state_machine.parallel_region.fallback.execute:
		; NVPTX-DISABLED-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
		; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
		; NVPTX-DISABLED: worker_state_machine.parallel_region.end:
		; NVPTX-DISABLED-NEXT: call void @__kmpc_kernel_end_parallel()
		; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
		; NVPTX-DISABLED: worker_state_machine.done.barrier:
		; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
		; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
		; NVPTX-DISABLED: thread.user_code.check:
		; NVPTX-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
		; NVPTX-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
		; NVPTX-DISABLED: user_code.entry:
		; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR4]]
		; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
		; NVPTX-DISABLED-NEXT: call void @__omp_outlined__4(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR4]]
		; NVPTX-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
		; NVPTX-DISABLED-NEXT: ret void
		; NVPTX-DISABLED: worker.exit:
		; NVPTX-DISABLED-NEXT: ret void
;		;
entry:		entry:
%.zero.addr = alloca i32, align 4		%.zero.addr = alloca i32, align 4
%.threadid_temp. = alloca i32, align 4		%.threadid_temp. = alloca i32, align 4
store i32 0, i32* %.zero.addr, align 4		store i32 0, i32* %.zero.addr, align 4
%0 = call i32 @__kmpc_target_init(%struct.ident_t* @1, i1 false, i1 true, i1 true)		%0 = call i32 @__kmpc_target_init(%struct.ident_t* @1, i1 false, i1 true, i1 true)
%exec_user_code = icmp eq i32 %0, -1		%exec_user_code = icmp eq i32 %0, -1
br i1 %exec_user_code, label %user_code.entry, label %worker.exit		br i1 %exec_user_code, label %user_code.entry, label %worker.exit

user_code.entry: ; preds = %entry		user_code.entry: ; preds = %entry
%1 = call i32 @__kmpc_global_thread_num(%struct.ident_t* @1)		%1 = call i32 @__kmpc_global_thread_num(%struct.ident_t* @1)
store i32 %1, i32* %.threadid_temp., align 4		store i32 %1, i32* %.threadid_temp., align 4
call void @__omp_outlined__4(i32* %.threadid_temp., i32* %.zero.addr) #3		call void @__omp_outlined__4(i32* %.threadid_temp., i32* %.zero.addr) #3
call void @__kmpc_target_deinit(%struct.ident_t* @1, i1 false, i1 true)		call void @__kmpc_target_deinit(%struct.ident_t* @1, i1 false, i1 true)
ret void		ret void

worker.exit: ; preds = %entry		worker.exit: ; preds = %entry
ret void		ret void
}		}

define internal void @__omp_outlined__4(i32* noalias %.global_tid., i32* noalias %.bound_tid.) #0 {		define internal void @__omp_outlined__4(i32* noalias %.global_tid., i32* noalias %.bound_tid.) #0 {
; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__4		;
; CHECK-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {		;
; CHECK-NEXT: entry:		; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__4
; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8		; AMDGPU-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8		; AMDGPU-NEXT: entry:
; CHECK-NEXT: [[I:%.*]] = alloca i32, align 4		; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8		; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8		; AMDGPU-NEXT: [[I:%.*]] = alloca i32, align 4
; CHECK-NEXT: store i32 0, i32* [[I]], align 4		; AMDGPU-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
; CHECK-NEXT: br label [[FOR_COND:%.*]]		; AMDGPU-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
; CHECK: for.cond:		; AMDGPU-NEXT: store i32 0, i32* [[I]], align 4
; CHECK-NEXT: [[TMP0:%.]] = load i32, i32 [[I]], align 4		; AMDGPU-NEXT: br label [[FOR_COND:%.*]]
; CHECK-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP0]], 100		; AMDGPU: for.cond:
; CHECK-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]		; AMDGPU-NEXT: [[TMP0:%.]] = load i32, i32 [[I]], align 4
; CHECK: for.body:		; AMDGPU-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP0]], 100
; CHECK-NEXT: [[TMP1:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0		; AMDGPU-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]
; CHECK-NEXT: store i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([4 x i8], [4 x i8] addrspace(3)* @x, i32 0, i32 0) to i8), i8* [[TMP1]], align 8		; AMDGPU: for.body:
; CHECK-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4		; AMDGPU-NEXT: [[TMP1:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
; CHECK-NEXT: [[TMP3:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**		; AMDGPU-NEXT: store i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([4 x i8], [4 x i8] addrspace(3)* @x, i32 0, i32 0) to i8), i8* [[TMP1]], align 8
; CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP2]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32, i32) @__omp_outlined__5 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__5_wrapper to i8), i8* noundef [[TMP3]], i64 noundef 1)		; AMDGPU-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
; CHECK-NEXT: br label [[FOR_INC:%.*]]		; AMDGPU-NEXT: [[TMP3:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
; CHECK: for.inc:		; AMDGPU-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP2]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32, i32) @__omp_outlined__5 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__5_wrapper to i8), i8* noundef [[TMP3]], i64 noundef 1)
; CHECK-NEXT: [[TMP4:%.]] = load i32, i32 [[I]], align 4		; AMDGPU-NEXT: br label [[FOR_INC:%.*]]
; CHECK-NEXT: [[INC:%.*]] = add nsw i32 [[TMP4]], 1		; AMDGPU: for.inc:
; CHECK-NEXT: store i32 [[INC]], i32* [[I]], align 4		; AMDGPU-NEXT: [[TMP4:%.]] = load i32, i32 [[I]], align 4
; CHECK-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP16:![0-9]+]]		; AMDGPU-NEXT: [[INC:%.*]] = add nsw i32 [[TMP4]], 1
; CHECK: for.end:		; AMDGPU-NEXT: store i32 [[INC]], i32* [[I]], align 4
; CHECK-NEXT: call void @spmd_amenable() #[[ATTR5]]		; AMDGPU-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP16:![0-9]+]]
; CHECK-NEXT: ret void		; AMDGPU: for.end:
;		; AMDGPU-NEXT: call void @spmd_amenable() #[[ATTR6]]
; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__4		; AMDGPU-NEXT: ret void
; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {		;
; CHECK-DISABLED-NEXT: entry:		; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__4
; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8		; NVPTX-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8		; NVPTX-NEXT: entry:
; CHECK-DISABLED-NEXT: [[I:%.*]] = alloca i32, align 4		; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8		; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8		; NVPTX-NEXT: [[I:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: store i32 0, i32* [[I]], align 4		; NVPTX-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
; CHECK-DISABLED-NEXT: br label [[FOR_COND:%.*]]		; NVPTX-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
; CHECK-DISABLED: for.cond:		; NVPTX-NEXT: store i32 0, i32* [[I]], align 4
; CHECK-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[I]], align 4		; NVPTX-NEXT: br label [[FOR_COND:%.*]]
; CHECK-DISABLED-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP0]], 100		; NVPTX: for.cond:
; CHECK-DISABLED-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]		; NVPTX-NEXT: [[TMP0:%.]] = load i32, i32 [[I]], align 4
; CHECK-DISABLED: for.body:		; NVPTX-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP0]], 100
; CHECK-DISABLED-NEXT: [[TMP1:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0		; NVPTX-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]
; CHECK-DISABLED-NEXT: store i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([4 x i8], [4 x i8] addrspace(3)* @x, i32 0, i32 0) to i8), i8* [[TMP1]], align 8		; NVPTX: for.body:
; CHECK-DISABLED-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4		; NVPTX-NEXT: [[TMP1:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
; CHECK-DISABLED-NEXT: [[TMP3:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**		; NVPTX-NEXT: store i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([4 x i8], [4 x i8] addrspace(3)* @x, i32 0, i32 0) to i8), i8* [[TMP1]], align 8
; CHECK-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP2]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32, i32) @__omp_outlined__5 to i8), i8 noundef @__omp_outlined__5_wrapper.ID, i8** noundef [[TMP3]], i64 noundef 1)		; NVPTX-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
; CHECK-DISABLED-NEXT: br label [[FOR_INC:%.*]]		; NVPTX-NEXT: [[TMP3:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
; CHECK-DISABLED: for.inc:		; NVPTX-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP2]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32, i32) @__omp_outlined__5 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__5_wrapper to i8), i8* noundef [[TMP3]], i64 noundef 1)
; CHECK-DISABLED-NEXT: [[TMP4:%.]] = load i32, i32 [[I]], align 4		; NVPTX-NEXT: br label [[FOR_INC:%.*]]
; CHECK-DISABLED-NEXT: [[INC:%.*]] = add nsw i32 [[TMP4]], 1		; NVPTX: for.inc:
; CHECK-DISABLED-NEXT: store i32 [[INC]], i32* [[I]], align 4		; NVPTX-NEXT: [[TMP4:%.]] = load i32, i32 [[I]], align 4
; CHECK-DISABLED-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP16:![0-9]+]]		; NVPTX-NEXT: [[INC:%.*]] = add nsw i32 [[TMP4]], 1
; CHECK-DISABLED: for.end:		; NVPTX-NEXT: store i32 [[INC]], i32* [[I]], align 4
; CHECK-DISABLED-NEXT: call void @spmd_amenable() #[[ATTR5]]		; NVPTX-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP16:![0-9]+]]
; CHECK-DISABLED-NEXT: ret void		; NVPTX: for.end:
		; NVPTX-NEXT: call void @spmd_amenable() #[[ATTR6]]
		; NVPTX-NEXT: ret void
		;
		; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__4
		; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
		; AMDGPU-DISABLED-NEXT: entry:
		; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; AMDGPU-DISABLED-NEXT: [[I:%.*]] = alloca i32, align 4
		; AMDGPU-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
		; AMDGPU-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[I]], align 4
		; AMDGPU-DISABLED-NEXT: br label [[FOR_COND:%.*]]
		; AMDGPU-DISABLED: for.cond:
		; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[I]], align 4
		; AMDGPU-DISABLED-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP0]], 100
		; AMDGPU-DISABLED-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]
		; AMDGPU-DISABLED: for.body:
		; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
		; AMDGPU-DISABLED-NEXT: store i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([4 x i8], [4 x i8] addrspace(3)* @x, i32 0, i32 0) to i8), i8* [[TMP1]], align 8
		; AMDGPU-DISABLED-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
		; AMDGPU-DISABLED-NEXT: [[TMP3:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP2]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32, i32) @__omp_outlined__5 to i8), i8 noundef @__omp_outlined__5_wrapper.ID, i8** noundef [[TMP3]], i64 noundef 1)
		; AMDGPU-DISABLED-NEXT: br label [[FOR_INC:%.*]]
		; AMDGPU-DISABLED: for.inc:
		; AMDGPU-DISABLED-NEXT: [[TMP4:%.]] = load i32, i32 [[I]], align 4
		; AMDGPU-DISABLED-NEXT: [[INC:%.*]] = add nsw i32 [[TMP4]], 1
		; AMDGPU-DISABLED-NEXT: store i32 [[INC]], i32* [[I]], align 4
		; AMDGPU-DISABLED-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP16:![0-9]+]]
		; AMDGPU-DISABLED: for.end:
		; AMDGPU-DISABLED-NEXT: call void @spmd_amenable() #[[ATTR6]]
		; AMDGPU-DISABLED-NEXT: ret void
		;
		; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__4
		; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
		; NVPTX-DISABLED-NEXT: entry:
		; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-DISABLED-NEXT: [[I:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
		; NVPTX-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		; NVPTX-DISABLED-NEXT: store i32 0, i32* [[I]], align 4
		; NVPTX-DISABLED-NEXT: br label [[FOR_COND:%.*]]
		; NVPTX-DISABLED: for.cond:
		; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[I]], align 4
		; NVPTX-DISABLED-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP0]], 100
		; NVPTX-DISABLED-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]
		; NVPTX-DISABLED: for.body:
		; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
		; NVPTX-DISABLED-NEXT: store i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([4 x i8], [4 x i8] addrspace(3)* @x, i32 0, i32 0) to i8), i8* [[TMP1]], align 8
		; NVPTX-DISABLED-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
		; NVPTX-DISABLED-NEXT: [[TMP3:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
		; NVPTX-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP2]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32, i32) @__omp_outlined__5 to i8), i8 noundef @__omp_outlined__5_wrapper.ID, i8** noundef [[TMP3]], i64 noundef 1)
		; NVPTX-DISABLED-NEXT: br label [[FOR_INC:%.*]]
		; NVPTX-DISABLED: for.inc:
		; NVPTX-DISABLED-NEXT: [[TMP4:%.]] = load i32, i32 [[I]], align 4
		; NVPTX-DISABLED-NEXT: [[INC:%.*]] = add nsw i32 [[TMP4]], 1
		; NVPTX-DISABLED-NEXT: store i32 [[INC]], i32* [[I]], align 4
		; NVPTX-DISABLED-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP16:![0-9]+]]
		; NVPTX-DISABLED: for.end:
		; NVPTX-DISABLED-NEXT: call void @spmd_amenable() #[[ATTR6]]
		; NVPTX-DISABLED-NEXT: ret void
;		;
entry:		entry:
%.global_tid..addr = alloca i32*, align 8		%.global_tid..addr = alloca i32*, align 8
%.bound_tid..addr = alloca i32*, align 8		%.bound_tid..addr = alloca i32*, align 8
%i = alloca i32, align 4		%i = alloca i32, align 4
%captured_vars_addrs = alloca [1 x i8*], align 8		%captured_vars_addrs = alloca [1 x i8*], align 8
store i32* %.global_tid., i32** %.global_tid..addr, align 8		store i32* %.global_tid., i32** %.global_tid..addr, align 8
store i32* %.bound_tid., i32** %.bound_tid..addr, align 8		store i32* %.bound_tid., i32** %.bound_tid..addr, align 8
Show All 25 Lines

for.end: ; preds = %for.cond		for.end: ; preds = %for.cond
call void @spmd_amenable() #4		call void @spmd_amenable() #4
call void @__kmpc_free_shared(i8* %x, i64 4)		call void @__kmpc_free_shared(i8* %x, i64 4)
ret void		ret void
}		}

define internal void @__omp_outlined__5(i32* noalias %.global_tid., i32* noalias %.bound_tid., i32* nonnull align 4 dereferenceable(4) %x) #0 {		define internal void @__omp_outlined__5(i32* noalias %.global_tid., i32* noalias %.bound_tid., i32* nonnull align 4 dereferenceable(4) %x) #0 {
; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__5		;
; CHECK-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.]], i32 nocapture nofree nonnull align 4 dereferenceable(4) [[X:%.*]]) #[[ATTR0]] {		;
; CHECK-NEXT: entry:		; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__5
; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8		; AMDGPU-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.]], i32 nocapture nofree nonnull align 4 dereferenceable(4) [[X:%.*]]) #[[ATTR0]] {
; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8		; AMDGPU-NEXT: entry:
; CHECK-NEXT: [[X_ADDR:%.]] = alloca i32, align 8		; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-NEXT: store i32* [[X]], i32** [[X_ADDR]], align 8		; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-NEXT: [[TMP0:%.]] = load i32, i32 [[X]], align 4		; AMDGPU-NEXT: [[X_ADDR:%.]] = alloca i32, align 8
; CHECK-NEXT: [[INC:%.*]] = add nsw i32 [[TMP0]], 1		; AMDGPU-NEXT: store i32* [[X]], i32** [[X_ADDR]], align 8
; CHECK-NEXT: store i32 [[INC]], i32* [[X]], align 4		; AMDGPU-NEXT: [[TMP0:%.]] = load i32, i32 [[X]], align 4
; CHECK-NEXT: call void @unknown() #[[ATTR6]]		; AMDGPU-NEXT: [[INC:%.*]] = add nsw i32 [[TMP0]], 1
; CHECK-NEXT: ret void		; AMDGPU-NEXT: store i32 [[INC]], i32* [[X]], align 4
;		; AMDGPU-NEXT: call void @unknown() #[[ATTR7]]
; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__5		; AMDGPU-NEXT: ret void
; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.]], i32 nocapture nofree nonnull align 4 dereferenceable(4) [[X:%.*]]) #[[ATTR0]] {		;
; CHECK-DISABLED-NEXT: entry:		; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__5
; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8		; NVPTX-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.]], i32 nocapture nofree nonnull align 4 dereferenceable(4) [[X:%.*]]) #[[ATTR0]] {
; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8		; NVPTX-NEXT: entry:
; CHECK-DISABLED-NEXT: [[X_ADDR:%.]] = alloca i32, align 8		; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-DISABLED-NEXT: store i32* [[X]], i32** [[X_ADDR]], align 8		; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[X]], align 4		; NVPTX-NEXT: [[X_ADDR:%.]] = alloca i32, align 8
; CHECK-DISABLED-NEXT: [[INC:%.*]] = add nsw i32 [[TMP0]], 1		; NVPTX-NEXT: store i32* [[X]], i32** [[X_ADDR]], align 8
; CHECK-DISABLED-NEXT: store i32 [[INC]], i32* [[X]], align 4		; NVPTX-NEXT: [[TMP0:%.]] = load i32, i32 [[X]], align 4
; CHECK-DISABLED-NEXT: call void @unknown() #[[ATTR6]]		; NVPTX-NEXT: [[INC:%.*]] = add nsw i32 [[TMP0]], 1
; CHECK-DISABLED-NEXT: ret void		; NVPTX-NEXT: store i32 [[INC]], i32* [[X]], align 4
		; NVPTX-NEXT: call void @unknown() #[[ATTR7]]
		; NVPTX-NEXT: ret void
		;
		; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__5
		; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.]], i32 nocapture nofree nonnull align 4 dereferenceable(4) [[X:%.*]]) #[[ATTR0]] {
		; AMDGPU-DISABLED-NEXT: entry:
		; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; AMDGPU-DISABLED-NEXT: [[X_ADDR:%.]] = alloca i32, align 8
		; AMDGPU-DISABLED-NEXT: store i32* [[X]], i32** [[X_ADDR]], align 8
		; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[X]], align 4
		; AMDGPU-DISABLED-NEXT: [[INC:%.*]] = add nsw i32 [[TMP0]], 1
		; AMDGPU-DISABLED-NEXT: store i32 [[INC]], i32* [[X]], align 4
		; AMDGPU-DISABLED-NEXT: call void @unknown() #[[ATTR7]]
		; AMDGPU-DISABLED-NEXT: ret void
		;
		; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__5
		; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.]], i32 nocapture nofree nonnull align 4 dereferenceable(4) [[X:%.*]]) #[[ATTR0]] {
		; NVPTX-DISABLED-NEXT: entry:
		; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-DISABLED-NEXT: [[X_ADDR:%.]] = alloca i32, align 8
		; NVPTX-DISABLED-NEXT: store i32* [[X]], i32** [[X_ADDR]], align 8
		; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[X]], align 4
		; NVPTX-DISABLED-NEXT: [[INC:%.*]] = add nsw i32 [[TMP0]], 1
		; NVPTX-DISABLED-NEXT: store i32 [[INC]], i32* [[X]], align 4
		; NVPTX-DISABLED-NEXT: call void @unknown() #[[ATTR7]]
		; NVPTX-DISABLED-NEXT: ret void
;		;
entry:		entry:
%.global_tid..addr = alloca i32*, align 8		%.global_tid..addr = alloca i32*, align 8
%.bound_tid..addr = alloca i32*, align 8		%.bound_tid..addr = alloca i32*, align 8
%x.addr = alloca i32*, align 8		%x.addr = alloca i32*, align 8
store i32* %.global_tid., i32** %.global_tid..addr, align 8		store i32* %.global_tid., i32** %.global_tid..addr, align 8
store i32* %.bound_tid., i32** %.bound_tid..addr, align 8		store i32* %.bound_tid., i32** %.bound_tid..addr, align 8
store i32* %x, i32** %x.addr, align 8		store i32* %x, i32** %x.addr, align 8
%0 = load i32, i32* %x.addr, align 8		%0 = load i32, i32* %x.addr, align 8
%1 = load i32, i32* %0, align 4		%1 = load i32, i32* %0, align 4
%inc = add nsw i32 %1, 1		%inc = add nsw i32 %1, 1
store i32 %inc, i32* %0, align 4		store i32 %inc, i32* %0, align 4
call void @unknown() #5		call void @unknown() #5
ret void		ret void
}		}

define internal void @__omp_outlined__5_wrapper(i16 zeroext %0, i32 %1) #0 {		define internal void @__omp_outlined__5_wrapper(i16 zeroext %0, i32 %1) #0 {
; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__5_wrapper		;
; CHECK-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {		;
; CHECK-NEXT: entry:		; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__5_wrapper
; CHECK-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2		; AMDGPU-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
; CHECK-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4		; AMDGPU-NEXT: entry:
; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4		; AMDGPU-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
; CHECK-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8		; AMDGPU-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
; CHECK-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4		; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2		; AMDGPU-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4		; AMDGPU-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
; CHECK-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])		; AMDGPU-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
; CHECK-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8		; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
; CHECK-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0		; AMDGPU-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
; CHECK-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**		; AMDGPU-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8
; CHECK-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 8		; AMDGPU-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0
; CHECK-NEXT: call void @__omp_outlined__5(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR3]]		; AMDGPU-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
; CHECK-NEXT: ret void		; AMDGPU-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 8
;		; AMDGPU-NEXT: call void @__omp_outlined__5(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR4]]
; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__5_wrapper		; AMDGPU-NEXT: ret void
; CHECK-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {		;
; CHECK-DISABLED-NEXT: entry:		; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__5_wrapper
; CHECK-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2		; NVPTX-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
; CHECK-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4		; NVPTX-NEXT: entry:
; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4		; NVPTX-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
; CHECK-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8		; NVPTX-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4		; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2		; NVPTX-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4		; NVPTX-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
; CHECK-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])		; NVPTX-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
; CHECK-DISABLED-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8		; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
; CHECK-DISABLED-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0		; NVPTX-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
; CHECK-DISABLED-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**		; NVPTX-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8
; CHECK-DISABLED-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 8		; NVPTX-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0
; CHECK-DISABLED-NEXT: call void @__omp_outlined__5(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR3]]		; NVPTX-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
; CHECK-DISABLED-NEXT: ret void		; NVPTX-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 8
		; NVPTX-NEXT: call void @__omp_outlined__5(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR4]]
		; NVPTX-NEXT: ret void
		;
		; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__5_wrapper
		; AMDGPU-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
		; AMDGPU-DISABLED-NEXT: entry:
		; AMDGPU-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
		; AMDGPU-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
		; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
		; AMDGPU-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
		; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
		; AMDGPU-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
		; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
		; AMDGPU-DISABLED-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8
		; AMDGPU-DISABLED-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0
		; AMDGPU-DISABLED-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
		; AMDGPU-DISABLED-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 8
		; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__5(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR4]]
		; AMDGPU-DISABLED-NEXT: ret void
		;
		; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__5_wrapper
		; NVPTX-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
		; NVPTX-DISABLED-NEXT: entry:
		; NVPTX-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
		; NVPTX-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
		; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
		; NVPTX-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
		; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
		; NVPTX-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
		; NVPTX-DISABLED-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8
		; NVPTX-DISABLED-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0
		; NVPTX-DISABLED-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
		; NVPTX-DISABLED-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 8
		; NVPTX-DISABLED-NEXT: call void @__omp_outlined__5(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR4]]
		; NVPTX-DISABLED-NEXT: ret void
;		;
entry:		entry:
%.addr = alloca i16, align 2		%.addr = alloca i16, align 2
%.addr1 = alloca i32, align 4		%.addr1 = alloca i32, align 4
%.zero.addr = alloca i32, align 4		%.zero.addr = alloca i32, align 4
%global_args = alloca i8**, align 8		%global_args = alloca i8**, align 8
store i32 0, i32* %.zero.addr, align 4		store i32 0, i32* %.zero.addr, align 4
store i16 %0, i16* %.addr, align 2		store i16 %0, i16* %.addr, align 2
store i32 %1, i32* %.addr1, align 4		store i32 %1, i32* %.addr1, align 4
call void @__kmpc_get_shared_variables(i8*** %global_args)		call void @__kmpc_get_shared_variables(i8*** %global_args)
%2 = load i8, i8* %global_args, align 8		%2 = load i8, i8* %global_args, align 8
%3 = getelementptr inbounds i8, i8* %2, i64 0		%3 = getelementptr inbounds i8, i8* %2, i64 0
%4 = bitcast i8 %3 to i32		%4 = bitcast i8 %3 to i32
%5 = load i32, i32* %4, align 8		%5 = load i32, i32* %4, align 8
call void @__omp_outlined__5(i32* %.addr1, i32* %.zero.addr, i32* %5) #3		call void @__omp_outlined__5(i32* %.addr1, i32* %.zero.addr, i32* %5) #3
ret void		ret void
}		}

define weak void @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50() #0 {		define weak void @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50() #0 {
; CHECK-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50		;
; CHECK-SAME: () #[[ATTR0]] {		;
; CHECK-NEXT: entry:		; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50
; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4		; AMDGPU-SAME: () #[[ATTR0]] {
; CHECK-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4		; AMDGPU-NEXT: entry:
; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 true, i1 false, i1 false)		; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1		; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
; CHECK-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]		; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 true, i1 false, i1 false)
; CHECK: user_code.entry:		; AMDGPU-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
; CHECK-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]		; AMDGPU-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4		; AMDGPU: user_code.entry:
; CHECK-NEXT: call void @__omp_outlined__6(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]		; AMDGPU-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR4]]
; CHECK-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 true, i1 false)		; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
; CHECK-NEXT: ret void		; AMDGPU-NEXT: call void @__omp_outlined__6(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR4]]
; CHECK: worker.exit:		; AMDGPU-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 true, i1 false)
; CHECK-NEXT: ret void		; AMDGPU-NEXT: ret void
;		; AMDGPU: worker.exit:
; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50		; AMDGPU-NEXT: ret void
; CHECK-DISABLED-SAME: () #[[ATTR0]] {		;
; CHECK-DISABLED-NEXT: entry:		; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50
; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8		; NVPTX-SAME: () #[[ATTR0]] {
; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4		; NVPTX-NEXT: entry:
; CHECK-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4		; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4		; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)		; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 true, i1 false, i1 false)
; CHECK-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1		; NVPTX-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
; CHECK-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]		; NVPTX-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
; CHECK-DISABLED: worker_state_machine.begin:		; NVPTX: user_code.entry:
; CHECK-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])		; NVPTX-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR4]]
; CHECK-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])		; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8		; NVPTX-NEXT: call void @__omp_outlined__6(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR4]]
; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*		; NVPTX-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 true, i1 false)
; CHECK-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null		; NVPTX-NEXT: ret void
; CHECK-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]		; NVPTX: worker.exit:
; CHECK-DISABLED: worker_state_machine.finished:		; NVPTX-NEXT: ret void
; CHECK-DISABLED-NEXT: ret void		;
; CHECK-DISABLED: worker_state_machine.is_active.check:		; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50
; CHECK-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]		; AMDGPU-DISABLED-SAME: () #[[ATTR0]] {
; CHECK-DISABLED: worker_state_machine.parallel_region.check:		; AMDGPU-DISABLED-NEXT: entry:
; CHECK-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__7_wrapper.ID to void (i16, i32)*)		; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
; CHECK-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]		; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-DISABLED: worker_state_machine.parallel_region.execute:		; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: call void @__omp_outlined__7_wrapper(i16 0, i32 [[TMP0]])		; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
; CHECK-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]		; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
; CHECK-DISABLED: worker_state_machine.parallel_region.fallback.execute:		; AMDGPU-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
; CHECK-DISABLED-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])		; AMDGPU-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
; CHECK-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]		; AMDGPU-DISABLED: worker_state_machine.begin:
; CHECK-DISABLED: worker_state_machine.parallel_region.end:		; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
; CHECK-DISABLED-NEXT: call void @__kmpc_kernel_end_parallel()		; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
; CHECK-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]		; AMDGPU-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
; CHECK-DISABLED: worker_state_machine.done.barrier:		; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
; CHECK-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])		; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
; CHECK-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]		; AMDGPU-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
; CHECK-DISABLED: thread.user_code.check:		; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
; CHECK-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1		; AMDGPU-DISABLED: worker_state_machine.finished:
; CHECK-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]		; AMDGPU-DISABLED-NEXT: ret void
; CHECK-DISABLED: user_code.entry:		; AMDGPU-DISABLED: worker_state_machine.is_active.check:
; CHECK-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]		; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4		; AMDGPU-DISABLED: worker_state_machine.parallel_region.check:
; CHECK-DISABLED-NEXT: call void @__omp_outlined__6(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]		; AMDGPU-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__7_wrapper.ID to void (i16, i32)*)
; CHECK-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)		; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]
; CHECK-DISABLED-NEXT: ret void		; AMDGPU-DISABLED: worker_state_machine.parallel_region.execute:
; CHECK-DISABLED: worker.exit:		; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__7_wrapper(i16 0, i32 [[TMP0]])
; CHECK-DISABLED-NEXT: ret void		; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
		; AMDGPU-DISABLED: worker_state_machine.parallel_region.fallback.execute:
		; AMDGPU-DISABLED-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
		; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
		; AMDGPU-DISABLED: worker_state_machine.parallel_region.end:
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_kernel_end_parallel()
		; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
		; AMDGPU-DISABLED: worker_state_machine.done.barrier:
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
		; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
		; AMDGPU-DISABLED: thread.user_code.check:
		; AMDGPU-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
		; AMDGPU-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
		; AMDGPU-DISABLED: user_code.entry:
		; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR4]]
		; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
		; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__6(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR4]]
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
		; AMDGPU-DISABLED-NEXT: ret void
		; AMDGPU-DISABLED: worker.exit:
		; AMDGPU-DISABLED-NEXT: ret void
		;
		; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50
		; NVPTX-DISABLED-SAME: () #[[ATTR0]] {
		; NVPTX-DISABLED-NEXT: entry:
		; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
		; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
		; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
		; NVPTX-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
		; NVPTX-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
		; NVPTX-DISABLED: worker_state_machine.begin:
		; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
		; NVPTX-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
		; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
		; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
		; NVPTX-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
		; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
		; NVPTX-DISABLED: worker_state_machine.finished:
		; NVPTX-DISABLED-NEXT: ret void
		; NVPTX-DISABLED: worker_state_machine.is_active.check:
		; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
		; NVPTX-DISABLED: worker_state_machine.parallel_region.check:
		; NVPTX-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__7_wrapper.ID to void (i16, i32)*)
		; NVPTX-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]
		; NVPTX-DISABLED: worker_state_machine.parallel_region.execute:
		; NVPTX-DISABLED-NEXT: call void @__omp_outlined__7_wrapper(i16 0, i32 [[TMP0]])
		; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
		; NVPTX-DISABLED: worker_state_machine.parallel_region.fallback.execute:
		; NVPTX-DISABLED-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
		; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END]]
		; NVPTX-DISABLED: worker_state_machine.parallel_region.end:
		; NVPTX-DISABLED-NEXT: call void @__kmpc_kernel_end_parallel()
		; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
		; NVPTX-DISABLED: worker_state_machine.done.barrier:
		; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
		; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
		; NVPTX-DISABLED: thread.user_code.check:
		; NVPTX-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
		; NVPTX-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
		; NVPTX-DISABLED: user_code.entry:
		; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR4]]
		; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
		; NVPTX-DISABLED-NEXT: call void @__omp_outlined__6(i32* noalias nocapture noundef nonnull readonly align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR4]]
		; NVPTX-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
		; NVPTX-DISABLED-NEXT: ret void
		; NVPTX-DISABLED: worker.exit:
		; NVPTX-DISABLED-NEXT: ret void
;		;
entry:		entry:
%.zero.addr = alloca i32, align 4		%.zero.addr = alloca i32, align 4
%.threadid_temp. = alloca i32, align 4		%.threadid_temp. = alloca i32, align 4
store i32 0, i32* %.zero.addr, align 4		store i32 0, i32* %.zero.addr, align 4
%0 = call i32 @__kmpc_target_init(%struct.ident_t* @1, i1 false, i1 true, i1 true)		%0 = call i32 @__kmpc_target_init(%struct.ident_t* @1, i1 false, i1 true, i1 true)
%exec_user_code = icmp eq i32 %0, -1		%exec_user_code = icmp eq i32 %0, -1
br i1 %exec_user_code, label %user_code.entry, label %worker.exit		br i1 %exec_user_code, label %user_code.entry, label %worker.exit

user_code.entry: ; preds = %entry		user_code.entry: ; preds = %entry
%1 = call i32 @__kmpc_global_thread_num(%struct.ident_t* @1)		%1 = call i32 @__kmpc_global_thread_num(%struct.ident_t* @1)
store i32 %1, i32* %.threadid_temp., align 4		store i32 %1, i32* %.threadid_temp., align 4
call void @__omp_outlined__6(i32* %.threadid_temp., i32* %.zero.addr) #3		call void @__omp_outlined__6(i32* %.threadid_temp., i32* %.zero.addr) #3
call void @__kmpc_target_deinit(%struct.ident_t* @1, i1 false, i1 true)		call void @__kmpc_target_deinit(%struct.ident_t* @1, i1 false, i1 true)
ret void		ret void

worker.exit: ; preds = %entry		worker.exit: ; preds = %entry
ret void		ret void
}		}

define internal void @__omp_outlined__6(i32* noalias %.global_tid., i32* noalias %.bound_tid.) #0 {		define internal void @__omp_outlined__6(i32* noalias %.global_tid., i32* noalias %.bound_tid.) #0 {
; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__6		;
; CHECK-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {		;
; CHECK-NEXT: entry:		; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__6
; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8		; AMDGPU-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8		; AMDGPU-NEXT: entry:
; CHECK-NEXT: [[I:%.*]] = alloca i32, align 4		; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8		; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8		; AMDGPU-NEXT: [[I:%.*]] = alloca i32, align 4
; CHECK-NEXT: [[X_ON_STACK:%.]] = bitcast i8 addrspacecast (i8 addrspace(3)* getelementptr inbounds ([4 x i8], [4 x i8] addrspace(3)* @x1, i32 0, i32 0) to i8) to i32		; AMDGPU-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
; CHECK-NEXT: br label [[REGION_CHECK_TID:%.*]]		; AMDGPU-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
; CHECK: region.check.tid:		; AMDGPU-NEXT: [[X_ON_STACK:%.]] = bitcast i8 addrspacecast (i8 addrspace(3)* getelementptr inbounds ([4 x i8], [4 x i8] addrspace(3)* @x.1, i32 0, i32 0) to i8) to i32
; CHECK-NEXT: [[TMP0:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()		; AMDGPU-NEXT: br label [[REGION_CHECK_TID:%.*]]
; CHECK-NEXT: [[TMP1:%.*]] = icmp eq i32 [[TMP0]], 0		; AMDGPU: region.check.tid:
; CHECK-NEXT: br i1 [[TMP1]], label [[REGION_GUARDED:%.]], label [[REGION_BARRIER:%.]]		; AMDGPU-NEXT: [[TMP0:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
; CHECK: region.guarded:		; AMDGPU-NEXT: [[TMP1:%.*]] = icmp eq i32 [[TMP0]], 0
; CHECK-NEXT: store i32 42, i32* [[X_ON_STACK]], align 4		; AMDGPU-NEXT: br i1 [[TMP1]], label [[REGION_GUARDED:%.]], label [[REGION_BARRIER:%.]]
; CHECK-NEXT: br label [[REGION_GUARDED_END:%.*]]		; AMDGPU: region.guarded:
; CHECK: region.guarded.end:		; AMDGPU-NEXT: store i32 42, i32* [[X_ON_STACK]], align 4
; CHECK-NEXT: br label [[REGION_BARRIER]]		; AMDGPU-NEXT: br label [[REGION_GUARDED_END:%.*]]
; CHECK: region.barrier:		; AMDGPU: region.guarded.end:
; CHECK-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])		; AMDGPU-NEXT: br label [[REGION_BARRIER]]
; CHECK-NEXT: br label [[REGION_EXIT:%.*]]		; AMDGPU: region.barrier:
; CHECK: region.exit:		; AMDGPU-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
; CHECK-NEXT: store i32 0, i32* [[I]], align 4		; AMDGPU-NEXT: br label [[REGION_EXIT:%.*]]
; CHECK-NEXT: br label [[FOR_COND:%.*]]		; AMDGPU: region.exit:
; CHECK: for.cond:		; AMDGPU-NEXT: store i32 0, i32* [[I]], align 4
; CHECK-NEXT: [[TMP2:%.]] = load i32, i32 [[I]], align 4		; AMDGPU-NEXT: br label [[FOR_COND:%.*]]
; CHECK-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP2]], 100		; AMDGPU: for.cond:
; CHECK-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]		; AMDGPU-NEXT: [[TMP2:%.]] = load i32, i32 [[I]], align 4
; CHECK: for.body:		; AMDGPU-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP2]], 100
; CHECK-NEXT: [[TMP3:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0		; AMDGPU-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]
; CHECK-NEXT: store i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([4 x i8], [4 x i8] addrspace(3)* @x1, i32 0, i32 0) to i8), i8* [[TMP3]], align 8		; AMDGPU: for.body:
; CHECK-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4		; AMDGPU-NEXT: [[TMP3:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
; CHECK-NEXT: [[TMP5:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**		; AMDGPU-NEXT: store i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([4 x i8], [4 x i8] addrspace(3)* @x.1, i32 0, i32 0) to i8), i8* [[TMP3]], align 8
; CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP4]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32, i32) @__omp_outlined__7 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__7_wrapper to i8), i8* noundef [[TMP5]], i64 noundef 1)		; AMDGPU-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
; CHECK-NEXT: br label [[FOR_INC:%.*]]		; AMDGPU-NEXT: [[TMP5:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
; CHECK: for.inc:		; AMDGPU-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP4]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32, i32) @__omp_outlined__7 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__7_wrapper to i8), i8* noundef [[TMP5]], i64 noundef 1)
; CHECK-NEXT: [[TMP6:%.]] = load i32, i32 [[I]], align 4		; AMDGPU-NEXT: br label [[FOR_INC:%.*]]
; CHECK-NEXT: [[INC:%.*]] = add nsw i32 [[TMP6]], 1		; AMDGPU: for.inc:
; CHECK-NEXT: store i32 [[INC]], i32* [[I]], align 4		; AMDGPU-NEXT: [[TMP6:%.]] = load i32, i32 [[I]], align 4
; CHECK-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP17:![0-9]+]]		; AMDGPU-NEXT: [[INC:%.*]] = add nsw i32 [[TMP6]], 1
; CHECK: for.end:		; AMDGPU-NEXT: store i32 [[INC]], i32* [[I]], align 4
; CHECK-NEXT: call void @spmd_amenable() #[[ATTR5]]		; AMDGPU-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP17:![0-9]+]]
; CHECK-NEXT: ret void		; AMDGPU: for.end:
;		; AMDGPU-NEXT: call void @spmd_amenable() #[[ATTR6]]
; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__6		; AMDGPU-NEXT: ret void
; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {		;
; CHECK-DISABLED-NEXT: entry:		; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__6
; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8		; NVPTX-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8		; NVPTX-NEXT: entry:
; CHECK-DISABLED-NEXT: [[I:%.*]] = alloca i32, align 4		; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8		; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8		; NVPTX-NEXT: [[I:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: [[X_ON_STACK:%.]] = bitcast i8 addrspacecast (i8 addrspace(3)* getelementptr inbounds ([4 x i8], [4 x i8] addrspace(3)* @x1, i32 0, i32 0) to i8) to i32		; NVPTX-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
; CHECK-DISABLED-NEXT: store i32 42, i32* [[X_ON_STACK]], align 4		; NVPTX-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
; CHECK-DISABLED-NEXT: store i32 0, i32* [[I]], align 4		; NVPTX-NEXT: [[X_ON_STACK:%.]] = bitcast i8 addrspacecast (i8 addrspace(3)* getelementptr inbounds ([4 x i8], [4 x i8] addrspace(3)* @x1, i32 0, i32 0) to i8) to i32
; CHECK-DISABLED-NEXT: br label [[FOR_COND:%.*]]		; NVPTX-NEXT: br label [[REGION_CHECK_TID:%.*]]
; CHECK-DISABLED: for.cond:		; NVPTX: region.check.tid:
; CHECK-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[I]], align 4		; NVPTX-NEXT: [[TMP0:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
; CHECK-DISABLED-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP0]], 100		; NVPTX-NEXT: [[TMP1:%.*]] = icmp eq i32 [[TMP0]], 0
; CHECK-DISABLED-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]		; NVPTX-NEXT: br i1 [[TMP1]], label [[REGION_GUARDED:%.]], label [[REGION_BARRIER:%.]]
; CHECK-DISABLED: for.body:		; NVPTX: region.guarded:
; CHECK-DISABLED-NEXT: [[TMP1:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0		; NVPTX-NEXT: store i32 42, i32* [[X_ON_STACK]], align 4
; CHECK-DISABLED-NEXT: store i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([4 x i8], [4 x i8] addrspace(3)* @x1, i32 0, i32 0) to i8), i8* [[TMP1]], align 8		; NVPTX-NEXT: br label [[REGION_GUARDED_END:%.*]]
; CHECK-DISABLED-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4		; NVPTX: region.guarded.end:
; CHECK-DISABLED-NEXT: [[TMP3:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**		; NVPTX-NEXT: br label [[REGION_BARRIER]]
; CHECK-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP2]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32, i32) @__omp_outlined__7 to i8), i8 noundef @__omp_outlined__7_wrapper.ID, i8** noundef [[TMP3]], i64 noundef 1)		; NVPTX: region.barrier:
; CHECK-DISABLED-NEXT: br label [[FOR_INC:%.*]]		; NVPTX-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
; CHECK-DISABLED: for.inc:		; NVPTX-NEXT: br label [[REGION_EXIT:%.*]]
; CHECK-DISABLED-NEXT: [[TMP4:%.]] = load i32, i32 [[I]], align 4		; NVPTX: region.exit:
; CHECK-DISABLED-NEXT: [[INC:%.*]] = add nsw i32 [[TMP4]], 1		; NVPTX-NEXT: store i32 0, i32* [[I]], align 4
; CHECK-DISABLED-NEXT: store i32 [[INC]], i32* [[I]], align 4		; NVPTX-NEXT: br label [[FOR_COND:%.*]]
; CHECK-DISABLED-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP17:![0-9]+]]		; NVPTX: for.cond:
; CHECK-DISABLED: for.end:		; NVPTX-NEXT: [[TMP2:%.]] = load i32, i32 [[I]], align 4
; CHECK-DISABLED-NEXT: call void @spmd_amenable() #[[ATTR5]]		; NVPTX-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP2]], 100
; CHECK-DISABLED-NEXT: ret void		; NVPTX-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]
		; NVPTX: for.body:
		; NVPTX-NEXT: [[TMP3:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
		; NVPTX-NEXT: store i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([4 x i8], [4 x i8] addrspace(3)* @x1, i32 0, i32 0) to i8), i8* [[TMP3]], align 8
		; NVPTX-NEXT: [[TMP4:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
		; NVPTX-NEXT: [[TMP5:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
		; NVPTX-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP4]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32, i32) @__omp_outlined__7 to i8), i8 noundef bitcast (void (i16, i32)* @__omp_outlined__7_wrapper to i8), i8* noundef [[TMP5]], i64 noundef 1)
		; NVPTX-NEXT: br label [[FOR_INC:%.*]]
		; NVPTX: for.inc:
		; NVPTX-NEXT: [[TMP6:%.]] = load i32, i32 [[I]], align 4
		; NVPTX-NEXT: [[INC:%.*]] = add nsw i32 [[TMP6]], 1
		; NVPTX-NEXT: store i32 [[INC]], i32* [[I]], align 4
		; NVPTX-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP17:![0-9]+]]
		; NVPTX: for.end:
		; NVPTX-NEXT: call void @spmd_amenable() #[[ATTR6]]
		; NVPTX-NEXT: ret void
		;
		; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__6
		; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
		; AMDGPU-DISABLED-NEXT: entry:
		; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; AMDGPU-DISABLED-NEXT: [[I:%.*]] = alloca i32, align 4
		; AMDGPU-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
		; AMDGPU-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		; AMDGPU-DISABLED-NEXT: [[X_ON_STACK:%.]] = bitcast i8 addrspacecast (i8 addrspace(3)* getelementptr inbounds ([4 x i8], [4 x i8] addrspace(3)* @x.1, i32 0, i32 0) to i8) to i32
		; AMDGPU-DISABLED-NEXT: store i32 42, i32* [[X_ON_STACK]], align 4
		; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[I]], align 4
		; AMDGPU-DISABLED-NEXT: br label [[FOR_COND:%.*]]
		; AMDGPU-DISABLED: for.cond:
		; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[I]], align 4
		; AMDGPU-DISABLED-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP0]], 100
		; AMDGPU-DISABLED-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]
		; AMDGPU-DISABLED: for.body:
		; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
		; AMDGPU-DISABLED-NEXT: store i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([4 x i8], [4 x i8] addrspace(3)* @x.1, i32 0, i32 0) to i8), i8* [[TMP1]], align 8
		; AMDGPU-DISABLED-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
		; AMDGPU-DISABLED-NEXT: [[TMP3:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP2]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32, i32) @__omp_outlined__7 to i8), i8 noundef @__omp_outlined__7_wrapper.ID, i8** noundef [[TMP3]], i64 noundef 1)
		; AMDGPU-DISABLED-NEXT: br label [[FOR_INC:%.*]]
		; AMDGPU-DISABLED: for.inc:
		; AMDGPU-DISABLED-NEXT: [[TMP4:%.]] = load i32, i32 [[I]], align 4
		; AMDGPU-DISABLED-NEXT: [[INC:%.*]] = add nsw i32 [[TMP4]], 1
		; AMDGPU-DISABLED-NEXT: store i32 [[INC]], i32* [[I]], align 4
		; AMDGPU-DISABLED-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP17:![0-9]+]]
		; AMDGPU-DISABLED: for.end:
		; AMDGPU-DISABLED-NEXT: call void @spmd_amenable() #[[ATTR6]]
		; AMDGPU-DISABLED-NEXT: ret void
		;
		; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__6
		; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree noundef nonnull readonly align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
		; NVPTX-DISABLED-NEXT: entry:
		; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-DISABLED-NEXT: [[I:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
		; NVPTX-DISABLED-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
		; NVPTX-DISABLED-NEXT: [[X_ON_STACK:%.]] = bitcast i8 addrspacecast (i8 addrspace(3)* getelementptr inbounds ([4 x i8], [4 x i8] addrspace(3)* @x1, i32 0, i32 0) to i8) to i32
		; NVPTX-DISABLED-NEXT: store i32 42, i32* [[X_ON_STACK]], align 4
		; NVPTX-DISABLED-NEXT: store i32 0, i32* [[I]], align 4
		; NVPTX-DISABLED-NEXT: br label [[FOR_COND:%.*]]
		; NVPTX-DISABLED: for.cond:
		; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[I]], align 4
		; NVPTX-DISABLED-NEXT: [[CMP:%.*]] = icmp slt i32 [[TMP0]], 100
		; NVPTX-DISABLED-NEXT: br i1 [[CMP]], label [[FOR_BODY:%.]], label [[FOR_END:%.]]
		; NVPTX-DISABLED: for.body:
		; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
		; NVPTX-DISABLED-NEXT: store i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([4 x i8], [4 x i8] addrspace(3)* @x1, i32 0, i32 0) to i8), i8* [[TMP1]], align 8
		; NVPTX-DISABLED-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTGLOBAL_TID_]], align 4
		; NVPTX-DISABLED-NEXT: [[TMP3:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
		; NVPTX-DISABLED-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* noundef @[[GLOB1]], i32 [[TMP2]], i32 noundef 1, i32 noundef -1, i32 noundef -1, i8* noundef bitcast (void (i32, i32, i32) @__omp_outlined__7 to i8), i8 noundef @__omp_outlined__7_wrapper.ID, i8** noundef [[TMP3]], i64 noundef 1)
		; NVPTX-DISABLED-NEXT: br label [[FOR_INC:%.*]]
		; NVPTX-DISABLED: for.inc:
		; NVPTX-DISABLED-NEXT: [[TMP4:%.]] = load i32, i32 [[I]], align 4
		; NVPTX-DISABLED-NEXT: [[INC:%.*]] = add nsw i32 [[TMP4]], 1
		; NVPTX-DISABLED-NEXT: store i32 [[INC]], i32* [[I]], align 4
		; NVPTX-DISABLED-NEXT: br label [[FOR_COND]], !llvm.loop [[LOOP17:![0-9]+]]
		; NVPTX-DISABLED: for.end:
		; NVPTX-DISABLED-NEXT: call void @spmd_amenable() #[[ATTR6]]
		; NVPTX-DISABLED-NEXT: ret void
;		;
entry:		entry:
%.global_tid..addr = alloca i32*, align 8		%.global_tid..addr = alloca i32*, align 8
%.bound_tid..addr = alloca i32*, align 8		%.bound_tid..addr = alloca i32*, align 8
%i = alloca i32, align 4		%i = alloca i32, align 4
%captured_vars_addrs = alloca [1 x i8*], align 8		%captured_vars_addrs = alloca [1 x i8*], align 8
store i32* %.global_tid., i32** %.global_tid..addr, align 8		store i32* %.global_tid., i32** %.global_tid..addr, align 8
store i32* %.bound_tid., i32** %.bound_tid..addr, align 8		store i32* %.bound_tid., i32** %.bound_tid..addr, align 8
Show All 26 Lines

for.end: ; preds = %for.cond		for.end: ; preds = %for.cond
call void @spmd_amenable() #4		call void @spmd_amenable() #4
call void @__kmpc_free_shared(i8* %x, i64 4)		call void @__kmpc_free_shared(i8* %x, i64 4)
ret void		ret void
}		}

define internal void @__omp_outlined__7(i32* noalias %.global_tid., i32* noalias %.bound_tid., i32* nonnull align 4 dereferenceable(4) %x) #0 {		define internal void @__omp_outlined__7(i32* noalias %.global_tid., i32* noalias %.bound_tid., i32* nonnull align 4 dereferenceable(4) %x) #0 {
; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__7		;
; CHECK-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.]], i32 nocapture nofree nonnull align 4 dereferenceable(4) [[X:%.*]]) #[[ATTR0]] {		;
; CHECK-NEXT: entry:		; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__7
; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8		; AMDGPU-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.]], i32 nocapture nofree nonnull align 4 dereferenceable(4) [[X:%.*]]) #[[ATTR0]] {
; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8		; AMDGPU-NEXT: entry:
; CHECK-NEXT: [[X_ADDR:%.]] = alloca i32, align 8		; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-NEXT: store i32* [[X]], i32** [[X_ADDR]], align 8		; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-NEXT: [[TMP0:%.]] = load i32, i32 [[X]], align 4		; AMDGPU-NEXT: [[X_ADDR:%.]] = alloca i32, align 8
; CHECK-NEXT: [[INC:%.*]] = add nsw i32 [[TMP0]], 1		; AMDGPU-NEXT: store i32* [[X]], i32** [[X_ADDR]], align 8
; CHECK-NEXT: store i32 [[INC]], i32* [[X]], align 4		; AMDGPU-NEXT: [[TMP0:%.]] = load i32, i32 [[X]], align 4
; CHECK-NEXT: call void @unknown() #[[ATTR6]]		; AMDGPU-NEXT: [[INC:%.*]] = add nsw i32 [[TMP0]], 1
; CHECK-NEXT: ret void		; AMDGPU-NEXT: store i32 [[INC]], i32* [[X]], align 4
;		; AMDGPU-NEXT: call void @unknown() #[[ATTR7]]
; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__7		; AMDGPU-NEXT: ret void
; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.]], i32 nocapture nofree nonnull align 4 dereferenceable(4) [[X:%.*]]) #[[ATTR0]] {		;
; CHECK-DISABLED-NEXT: entry:		; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__7
; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8		; NVPTX-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.]], i32 nocapture nofree nonnull align 4 dereferenceable(4) [[X:%.*]]) #[[ATTR0]] {
; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8		; NVPTX-NEXT: entry:
; CHECK-DISABLED-NEXT: [[X_ADDR:%.]] = alloca i32, align 8		; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-DISABLED-NEXT: store i32* [[X]], i32** [[X_ADDR]], align 8		; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[X]], align 4		; NVPTX-NEXT: [[X_ADDR:%.]] = alloca i32, align 8
; CHECK-DISABLED-NEXT: [[INC:%.*]] = add nsw i32 [[TMP0]], 1		; NVPTX-NEXT: store i32* [[X]], i32** [[X_ADDR]], align 8
; CHECK-DISABLED-NEXT: store i32 [[INC]], i32* [[X]], align 4		; NVPTX-NEXT: [[TMP0:%.]] = load i32, i32 [[X]], align 4
; CHECK-DISABLED-NEXT: call void @unknown() #[[ATTR6]]		; NVPTX-NEXT: [[INC:%.*]] = add nsw i32 [[TMP0]], 1
; CHECK-DISABLED-NEXT: ret void		; NVPTX-NEXT: store i32 [[INC]], i32* [[X]], align 4
		; NVPTX-NEXT: call void @unknown() #[[ATTR7]]
		; NVPTX-NEXT: ret void
		;
		; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__7
		; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.]], i32 nocapture nofree nonnull align 4 dereferenceable(4) [[X:%.*]]) #[[ATTR0]] {
		; AMDGPU-DISABLED-NEXT: entry:
		; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; AMDGPU-DISABLED-NEXT: [[X_ADDR:%.]] = alloca i32, align 8
		; AMDGPU-DISABLED-NEXT: store i32* [[X]], i32** [[X_ADDR]], align 8
		; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[X]], align 4
		; AMDGPU-DISABLED-NEXT: [[INC:%.*]] = add nsw i32 [[TMP0]], 1
		; AMDGPU-DISABLED-NEXT: store i32 [[INC]], i32* [[X]], align 4
		; AMDGPU-DISABLED-NEXT: call void @unknown() #[[ATTR7]]
		; AMDGPU-DISABLED-NEXT: ret void
		;
		; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__7
		; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree readnone [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree readnone [[DOTBOUND_TID_:%.]], i32 nocapture nofree nonnull align 4 dereferenceable(4) [[X:%.*]]) #[[ATTR0]] {
		; NVPTX-DISABLED-NEXT: entry:
		; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-DISABLED-NEXT: [[X_ADDR:%.]] = alloca i32, align 8
		; NVPTX-DISABLED-NEXT: store i32* [[X]], i32** [[X_ADDR]], align 8
		; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = load i32, i32 [[X]], align 4
		; NVPTX-DISABLED-NEXT: [[INC:%.*]] = add nsw i32 [[TMP0]], 1
		; NVPTX-DISABLED-NEXT: store i32 [[INC]], i32* [[X]], align 4
		; NVPTX-DISABLED-NEXT: call void @unknown() #[[ATTR7]]
		; NVPTX-DISABLED-NEXT: ret void
;		;
entry:		entry:
%.global_tid..addr = alloca i32*, align 8		%.global_tid..addr = alloca i32*, align 8
%.bound_tid..addr = alloca i32*, align 8		%.bound_tid..addr = alloca i32*, align 8
%x.addr = alloca i32*, align 8		%x.addr = alloca i32*, align 8
store i32* %.global_tid., i32** %.global_tid..addr, align 8		store i32* %.global_tid., i32** %.global_tid..addr, align 8
store i32* %.bound_tid., i32** %.bound_tid..addr, align 8		store i32* %.bound_tid., i32** %.bound_tid..addr, align 8
store i32* %x, i32** %x.addr, align 8		store i32* %x, i32** %x.addr, align 8
%0 = load i32, i32* %x.addr, align 8		%0 = load i32, i32* %x.addr, align 8
%1 = load i32, i32* %0, align 4		%1 = load i32, i32* %0, align 4
%inc = add nsw i32 %1, 1		%inc = add nsw i32 %1, 1
store i32 %inc, i32* %0, align 4		store i32 %inc, i32* %0, align 4
call void @unknown() #5		call void @unknown() #5
ret void		ret void
}		}

define internal void @__omp_outlined__7_wrapper(i16 zeroext %0, i32 %1) #0 {		define internal void @__omp_outlined__7_wrapper(i16 zeroext %0, i32 %1) #0 {
; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__7_wrapper		;
; CHECK-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {		;
; CHECK-NEXT: entry:		; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__7_wrapper
; CHECK-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2		; AMDGPU-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
; CHECK-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4		; AMDGPU-NEXT: entry:
; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4		; AMDGPU-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
; CHECK-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8		; AMDGPU-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
; CHECK-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4		; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2		; AMDGPU-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
; CHECK-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4		; AMDGPU-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
; CHECK-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])		; AMDGPU-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
; CHECK-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8		; AMDGPU-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
; CHECK-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0		; AMDGPU-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
; CHECK-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**		; AMDGPU-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8
; CHECK-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 8		; AMDGPU-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0
; CHECK-NEXT: call void @__omp_outlined__7(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR3]]		; AMDGPU-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
; CHECK-NEXT: ret void		; AMDGPU-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 8
;		; AMDGPU-NEXT: call void @__omp_outlined__7(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR4]]
; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__7_wrapper		; AMDGPU-NEXT: ret void
; CHECK-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {		;
; CHECK-DISABLED-NEXT: entry:		; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__7_wrapper
; CHECK-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2		; NVPTX-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
; CHECK-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4		; NVPTX-NEXT: entry:
; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4		; NVPTX-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
; CHECK-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8		; NVPTX-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4		; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2		; NVPTX-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
; CHECK-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4		; NVPTX-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
; CHECK-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])		; NVPTX-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
; CHECK-DISABLED-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8		; NVPTX-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
; CHECK-DISABLED-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0		; NVPTX-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
; CHECK-DISABLED-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**		; NVPTX-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8
; CHECK-DISABLED-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 8		; NVPTX-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0
; CHECK-DISABLED-NEXT: call void @__omp_outlined__7(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR3]]		; NVPTX-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
; CHECK-DISABLED-NEXT: ret void		; NVPTX-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 8
		; NVPTX-NEXT: call void @__omp_outlined__7(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR4]]
		; NVPTX-NEXT: ret void
		;
		; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__7_wrapper
		; AMDGPU-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
		; AMDGPU-DISABLED-NEXT: entry:
		; AMDGPU-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
		; AMDGPU-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
		; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
		; AMDGPU-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
		; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
		; AMDGPU-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
		; AMDGPU-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
		; AMDGPU-DISABLED-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8
		; AMDGPU-DISABLED-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0
		; AMDGPU-DISABLED-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
		; AMDGPU-DISABLED-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 8
		; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__7(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR4]]
		; AMDGPU-DISABLED-NEXT: ret void
		;
		; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__7_wrapper
		; NVPTX-DISABLED-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
		; NVPTX-DISABLED-NEXT: entry:
		; NVPTX-DISABLED-NEXT: [[DOTADDR:%.*]] = alloca i16, align 2
		; NVPTX-DISABLED-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: [[GLOBAL_ARGS:%.]] = alloca i8*, align 8
		; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
		; NVPTX-DISABLED-NEXT: store i16 [[TMP0]], i16* [[DOTADDR]], align 2
		; NVPTX-DISABLED-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
		; NVPTX-DISABLED-NEXT: call void @__kmpc_get_shared_variables(i8*** [[GLOBAL_ARGS]])
		; NVPTX-DISABLED-NEXT: [[TMP2:%.]] = load i8, i8** [[GLOBAL_ARGS]], align 8
		; NVPTX-DISABLED-NEXT: [[TMP3:%.]] = getelementptr inbounds i8, i8** [[TMP2]], i64 0
		; NVPTX-DISABLED-NEXT: [[TMP4:%.]] = bitcast i8* [[TMP3]] to i32**
		; NVPTX-DISABLED-NEXT: [[TMP5:%.]] = load i32, i32** [[TMP4]], align 8
		; NVPTX-DISABLED-NEXT: call void @__omp_outlined__7(i32* [[DOTADDR1]], i32* [[DOTZERO_ADDR]], i32* [[TMP5]]) #[[ATTR4]]
		; NVPTX-DISABLED-NEXT: ret void
;		;
entry:		entry:
%.addr = alloca i16, align 2		%.addr = alloca i16, align 2
%.addr1 = alloca i32, align 4		%.addr1 = alloca i32, align 4
%.zero.addr = alloca i32, align 4		%.zero.addr = alloca i32, align 4
%global_args = alloca i8**, align 8		%global_args = alloca i8**, align 8
store i32 0, i32* %.zero.addr, align 4		store i32 0, i32* %.zero.addr, align 4
store i16 %0, i16* %.addr, align 2		store i16 %0, i16* %.addr, align 2
store i32 %1, i32* %.addr1, align 4		store i32 %1, i32* %.addr1, align 4
call void @__kmpc_get_shared_variables(i8*** %global_args)		call void @__kmpc_get_shared_variables(i8*** %global_args)
%2 = load i8, i8* %global_args, align 8		%2 = load i8, i8* %global_args, align 8
%3 = getelementptr inbounds i8, i8* %2, i64 0		%3 = getelementptr inbounds i8, i8* %2, i64 0
%4 = bitcast i8 %3 to i32		%4 = bitcast i8 %3 to i32
%5 = load i32, i32* %4, align 8		%5 = load i32, i32* %4, align 8
call void @__omp_outlined__7(i32* %.addr1, i32* %.zero.addr, i32* %5) #3		call void @__omp_outlined__7(i32* %.addr1, i32* %.zero.addr, i32* %5) #3
ret void		ret void
}		}

define weak void @__omp_offloading_14_a34ca11_do_not_spmdize_target_l65() #0 {		define weak void @__omp_offloading_14_a34ca11_do_not_spmdize_target_l65() #0 {
; CHECK-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_do_not_spmdize_target_l65		;
; CHECK-SAME: () #[[ATTR0]] {		;
; CHECK-NEXT: entry:		; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_do_not_spmdize_target_l65
; CHECK-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8		; AMDGPU-SAME: () #[[ATTR0]] {
; CHECK-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4		; AMDGPU-NEXT: entry:
; CHECK-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4		; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
; CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)		; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1		; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
; CHECK-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]		; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
; CHECK: worker_state_machine.begin:		; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
; CHECK-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])		; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
; CHECK-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])		; AMDGPU: worker_state_machine.begin:
; CHECK-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8		; AMDGPU-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
; CHECK-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*		; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
; CHECK-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null		; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
; CHECK-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]		; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
; CHECK: worker_state_machine.finished:		; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
; CHECK-NEXT: ret void		; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
; CHECK: worker_state_machine.is_active.check:		; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
; CHECK-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]		; AMDGPU: worker_state_machine.finished:
; CHECK: worker_state_machine.parallel_region.fallback.execute:		; AMDGPU-NEXT: ret void
; CHECK-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])		; AMDGPU: worker_state_machine.is_active.check:
; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]		; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
; CHECK: worker_state_machine.parallel_region.end:		; AMDGPU: worker_state_machine.parallel_region.fallback.execute:
; CHECK-NEXT: call void @__kmpc_kernel_end_parallel()		; AMDGPU-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]		; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
; CHECK: worker_state_machine.done.barrier:		; AMDGPU: worker_state_machine.parallel_region.end:
; CHECK-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])		; AMDGPU-NEXT: call void @__kmpc_kernel_end_parallel()
; CHECK-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]		; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
; CHECK: thread.user_code.check:		; AMDGPU: worker_state_machine.done.barrier:
; CHECK-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1		; AMDGPU-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
; CHECK-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]		; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
; CHECK: user_code.entry:		; AMDGPU: thread.user_code.check:
; CHECK-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]		; AMDGPU-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
; CHECK-NEXT: call void @__omp_outlined__8(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]		; AMDGPU-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
; CHECK-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)		; AMDGPU: user_code.entry:
; CHECK-NEXT: ret void		; AMDGPU-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR4]]
; CHECK: worker.exit:		; AMDGPU-NEXT: call void @__omp_outlined__8(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR4]]
; CHECK-NEXT: ret void		; AMDGPU-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
;		; AMDGPU-NEXT: ret void
; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_do_not_spmdize_target_l65		; AMDGPU: worker.exit:
; CHECK-DISABLED-SAME: () #[[ATTR0]] {		; AMDGPU-NEXT: ret void
; CHECK-DISABLED-NEXT: entry:		;
; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8		; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_do_not_spmdize_target_l65
; CHECK-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4		; NVPTX-SAME: () #[[ATTR0]] {
; CHECK-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4		; NVPTX-NEXT: entry:
; CHECK-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4		; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)		; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1		; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
; CHECK-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]		; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
; CHECK-DISABLED: worker_state_machine.begin:		; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
; CHECK-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])		; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
; CHECK-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])		; NVPTX: worker_state_machine.begin:
; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8		; NVPTX-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*		; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
; CHECK-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null		; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
; CHECK-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]		; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
; CHECK-DISABLED: worker_state_machine.finished:		; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
; CHECK-DISABLED-NEXT: ret void		; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
; CHECK-DISABLED: worker_state_machine.is_active.check:		; NVPTX: worker_state_machine.finished:
; CHECK-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]		; NVPTX-NEXT: ret void
; CHECK-DISABLED: worker_state_machine.parallel_region.fallback.execute:		; NVPTX: worker_state_machine.is_active.check:
; CHECK-DISABLED-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])		; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
; CHECK-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]		; NVPTX: worker_state_machine.parallel_region.fallback.execute:
; CHECK-DISABLED: worker_state_machine.parallel_region.end:		; NVPTX-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
; CHECK-DISABLED-NEXT: call void @__kmpc_kernel_end_parallel()		; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
; CHECK-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]		; NVPTX: worker_state_machine.parallel_region.end:
; CHECK-DISABLED: worker_state_machine.done.barrier:		; NVPTX-NEXT: call void @__kmpc_kernel_end_parallel()
; CHECK-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])		; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
; CHECK-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]		; NVPTX: worker_state_machine.done.barrier:
; CHECK-DISABLED: thread.user_code.check:		; NVPTX-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
; CHECK-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1		; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
; CHECK-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]		; NVPTX: thread.user_code.check:
; CHECK-DISABLED: user_code.entry:		; NVPTX-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
; CHECK-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR3]]		; NVPTX-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
; CHECK-DISABLED-NEXT: call void @__omp_outlined__8(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR3]]		; NVPTX: user_code.entry:
; CHECK-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)		; NVPTX-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR4]]
; CHECK-DISABLED-NEXT: ret void		; NVPTX-NEXT: call void @__omp_outlined__8(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR4]]
; CHECK-DISABLED: worker.exit:		; NVPTX-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
; CHECK-DISABLED-NEXT: ret void		; NVPTX-NEXT: ret void
		; NVPTX: worker.exit:
		; NVPTX-NEXT: ret void
		;
		; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_do_not_spmdize_target_l65
		; AMDGPU-DISABLED-SAME: () #[[ATTR0]] {
		; AMDGPU-DISABLED-NEXT: entry:
		; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
		; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
		; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
		; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
		; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
		; AMDGPU-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
		; AMDGPU-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
		; AMDGPU-DISABLED: worker_state_machine.begin:
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
		; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
		; AMDGPU-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
		; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
		; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
		; AMDGPU-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
		; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
		; AMDGPU-DISABLED: worker_state_machine.finished:
		; AMDGPU-DISABLED-NEXT: ret void
		; AMDGPU-DISABLED: worker_state_machine.is_active.check:
		; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
		; AMDGPU-DISABLED: worker_state_machine.parallel_region.fallback.execute:
		; AMDGPU-DISABLED-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
		; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
		; AMDGPU-DISABLED: worker_state_machine.parallel_region.end:
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_kernel_end_parallel()
		; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
		; AMDGPU-DISABLED: worker_state_machine.done.barrier:
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
		; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
		; AMDGPU-DISABLED: thread.user_code.check:
		; AMDGPU-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
		; AMDGPU-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
		; AMDGPU-DISABLED: user_code.entry:
		; AMDGPU-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR4]]
		; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__8(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR4]]
		; AMDGPU-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
		; AMDGPU-DISABLED-NEXT: ret void
		; AMDGPU-DISABLED: worker.exit:
		; AMDGPU-DISABLED-NEXT: ret void
		;
		; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_do_not_spmdize_target_l65
		; NVPTX-DISABLED-SAME: () #[[ATTR0]] {
		; NVPTX-DISABLED-NEXT: entry:
		; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
		; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
		; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
		; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i1 false, i1 false, i1 true)
		; NVPTX-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
		; NVPTX-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
		; NVPTX-DISABLED: worker_state_machine.begin:
		; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
		; NVPTX-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
		; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
		; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
		; NVPTX-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
		; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]
		; NVPTX-DISABLED: worker_state_machine.finished:
		; NVPTX-DISABLED-NEXT: ret void
		; NVPTX-DISABLED: worker_state_machine.is_active.check:
		; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
		; NVPTX-DISABLED: worker_state_machine.parallel_region.fallback.execute:
		; NVPTX-DISABLED-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
		; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
		; NVPTX-DISABLED: worker_state_machine.parallel_region.end:
		; NVPTX-DISABLED-NEXT: call void @__kmpc_kernel_end_parallel()
		; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_DONE_BARRIER]]
		; NVPTX-DISABLED: worker_state_machine.done.barrier:
		; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
		; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_BEGIN]]
		; NVPTX-DISABLED: thread.user_code.check:
		; NVPTX-DISABLED-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
		; NVPTX-DISABLED-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
		; NVPTX-DISABLED: user_code.entry:
		; NVPTX-DISABLED-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]]) #[[ATTR4]]
		; NVPTX-DISABLED-NEXT: call void @__omp_outlined__8(i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTTHREADID_TEMP_]], i32* noalias nocapture noundef nonnull readnone align 4 dereferenceable(4) [[DOTZERO_ADDR]]) #[[ATTR4]]
		; NVPTX-DISABLED-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i1 false, i1 true)
		; NVPTX-DISABLED-NEXT: ret void
		; NVPTX-DISABLED: worker.exit:
		; NVPTX-DISABLED-NEXT: ret void
;		;
entry:		entry:
%.zero.addr = alloca i32, align 4		%.zero.addr = alloca i32, align 4
%.threadid_temp. = alloca i32, align 4		%.threadid_temp. = alloca i32, align 4
store i32 0, i32* %.zero.addr, align 4		store i32 0, i32* %.zero.addr, align 4
%0 = call i32 @__kmpc_target_init(%struct.ident_t* @1, i1 false, i1 true, i1 true)		%0 = call i32 @__kmpc_target_init(%struct.ident_t* @1, i1 false, i1 true, i1 true)
%exec_user_code = icmp eq i32 %0, -1		%exec_user_code = icmp eq i32 %0, -1
br i1 %exec_user_code, label %user_code.entry, label %worker.exit		br i1 %exec_user_code, label %user_code.entry, label %worker.exit

user_code.entry: ; preds = %entry		user_code.entry: ; preds = %entry
%1 = call i32 @__kmpc_global_thread_num(%struct.ident_t* @1)		%1 = call i32 @__kmpc_global_thread_num(%struct.ident_t* @1)
store i32 %1, i32* %.threadid_temp., align 4		store i32 %1, i32* %.threadid_temp., align 4
call void @__omp_outlined__8(i32* %.threadid_temp., i32* %.zero.addr) #3		call void @__omp_outlined__8(i32* %.threadid_temp., i32* %.zero.addr) #3
call void @__kmpc_target_deinit(%struct.ident_t* @1, i1 false, i1 true)		call void @__kmpc_target_deinit(%struct.ident_t* @1, i1 false, i1 true)
ret void		ret void

worker.exit: ; preds = %entry		worker.exit: ; preds = %entry
ret void		ret void
}		}

define internal void @__omp_outlined__8(i32* noalias %.global_tid., i32* noalias %.bound_tid.) #0 {		define internal void @__omp_outlined__8(i32* noalias %.global_tid., i32* noalias %.bound_tid.) #0 {
; CHECK-LABEL: define {{[^@]+}}@__omp_outlined__8		;
; CHECK-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {		;
; CHECK-NEXT: entry:		; AMDGPU-LABEL: define {{[^@]+}}@__omp_outlined__8
; CHECK-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8		; AMDGPU-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
; CHECK-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8		; AMDGPU-NEXT: entry:
; CHECK-NEXT: call void @unknown() #[[ATTR6]]		; AMDGPU-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-NEXT: ret void		; AMDGPU-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
;		; AMDGPU-NEXT: call void @unknown() #[[ATTR7]]
; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__8		; AMDGPU-NEXT: ret void
; CHECK-DISABLED-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {		;
; CHECK-DISABLED-NEXT: entry:		; NVPTX-LABEL: define {{[^@]+}}@__omp_outlined__8
; CHECK-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8		; NVPTX-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
; CHECK-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8		; NVPTX-NEXT: entry:
; CHECK-DISABLED-NEXT: call void @unknown() #[[ATTR6]]		; NVPTX-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
; CHECK-DISABLED-NEXT: ret void		; NVPTX-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-NEXT: call void @unknown() #[[ATTR7]]
		; NVPTX-NEXT: ret void
		;
		; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__8
		; AMDGPU-DISABLED-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
		; AMDGPU-DISABLED-NEXT: entry:
		; AMDGPU-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		; AMDGPU-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; AMDGPU-DISABLED-NEXT: call void @unknown() #[[ATTR7]]
		; AMDGPU-DISABLED-NEXT: ret void
		;
		; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_outlined__8
		; NVPTX-DISABLED-SAME: (i32* noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTGLOBAL_TID_:%.]], i32 noalias nocapture nofree nonnull readnone align 4 dereferenceable(4) [[DOTBOUND_TID_:%.*]]) #[[ATTR0]] {
		; NVPTX-DISABLED-NEXT: entry:
		; NVPTX-DISABLED-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-DISABLED-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
		; NVPTX-DISABLED-NEXT: call void @unknown() #[[ATTR7]]
		; NVPTX-DISABLED-NEXT: ret void
;		;
entry:		entry:
%.global_tid..addr = alloca i32*, align 8		%.global_tid..addr = alloca i32*, align 8
%.bound_tid..addr = alloca i32*, align 8		%.bound_tid..addr = alloca i32*, align 8
store i32* %.global_tid., i32** %.global_tid..addr, align 8		store i32* %.global_tid., i32** %.global_tid..addr, align 8
store i32* %.bound_tid., i32** %.bound_tid..addr, align 8		store i32* %.bound_tid., i32** %.bound_tid..addr, align 8
call void @unknown() #5		call void @unknown() #5
ret void		ret void
Show All 24 Lines
!11 = !{i32 7, !"openmp", i32 50}		!11 = !{i32 7, !"openmp", i32 50}
!12 = !{i32 7, !"openmp-device", i32 50}		!12 = !{i32 7, !"openmp-device", i32 50}
!13 = distinct !{!13, !14}		!13 = distinct !{!13, !14}
!14 = !{!"llvm.loop.mustprogress"}		!14 = !{!"llvm.loop.mustprogress"}
!15 = distinct !{!15, !14}		!15 = distinct !{!15, !14}
!16 = distinct !{!16, !14}		!16 = distinct !{!16, !14}
!17 = distinct !{!17, !14}		!17 = distinct !{!17, !14}
;.		;.
; CHECK: attributes #[[ATTR0]] = { convergent noinline norecurse nounwind "frame-pointer"="none" "min-legal-vector-width"="0" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+ptx32,+sm_20" }		; AMDGPU: attributes #[[ATTR0]] = { convergent noinline norecurse nounwind "frame-pointer"="none" "min-legal-vector-width"="0" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+ptx32,+sm_20" }
; CHECK: attributes #[[ATTR1:[0-9]+]] = { convergent "frame-pointer"="none" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+ptx32,+sm_20" }		; AMDGPU: attributes #[[ATTR1:[0-9]+]] = { convergent "frame-pointer"="none" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+ptx32,+sm_20" }
; CHECK: attributes #[[ATTR2:[0-9]+]] = { convergent "frame-pointer"="none" "llvm.assume"="ompx_spmd_amenable" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+ptx32,+sm_20" }		; AMDGPU: attributes #[[ATTR2:[0-9]+]] = { alwaysinline }
; CHECK: attributes #[[ATTR3]] = { nounwind }		; AMDGPU: attributes #[[ATTR3:[0-9]+]] = { convergent "frame-pointer"="none" "llvm.assume"="ompx_spmd_amenable" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+ptx32,+sm_20" }
; CHECK: attributes #[[ATTR4:[0-9]+]] = { convergent nounwind }		; AMDGPU: attributes #[[ATTR4]] = { nounwind }
; CHECK: attributes #[[ATTR5]] = { convergent "llvm.assume"="ompx_spmd_amenable" }		; AMDGPU: attributes #[[ATTR5:[0-9]+]] = { convergent nounwind }
; CHECK: attributes #[[ATTR6]] = { convergent }		; AMDGPU: attributes #[[ATTR6]] = { convergent "llvm.assume"="ompx_spmd_amenable" }
		; AMDGPU: attributes #[[ATTR7]] = { convergent }
		;.
		; NVPTX: attributes #[[ATTR0]] = { convergent noinline norecurse nounwind "frame-pointer"="none" "min-legal-vector-width"="0" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+ptx32,+sm_20" }
		; NVPTX: attributes #[[ATTR1:[0-9]+]] = { convergent "frame-pointer"="none" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+ptx32,+sm_20" }
		; NVPTX: attributes #[[ATTR2:[0-9]+]] = { alwaysinline }
		; NVPTX: attributes #[[ATTR3:[0-9]+]] = { convergent "frame-pointer"="none" "llvm.assume"="ompx_spmd_amenable" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+ptx32,+sm_20" }
		; NVPTX: attributes #[[ATTR4]] = { nounwind }
		; NVPTX: attributes #[[ATTR5:[0-9]+]] = { convergent nounwind }
		; NVPTX: attributes #[[ATTR6]] = { convergent "llvm.assume"="ompx_spmd_amenable" }
		; NVPTX: attributes #[[ATTR7]] = { convergent }
		;.
		; AMDGPU-DISABLED: attributes #[[ATTR0]] = { convergent noinline norecurse nounwind "frame-pointer"="none" "min-legal-vector-width"="0" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+ptx32,+sm_20" }
		; AMDGPU-DISABLED: attributes #[[ATTR1:[0-9]+]] = { convergent "frame-pointer"="none" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+ptx32,+sm_20" }
		; AMDGPU-DISABLED: attributes #[[ATTR2:[0-9]+]] = { alwaysinline }
		; AMDGPU-DISABLED: attributes #[[ATTR3:[0-9]+]] = { convergent "frame-pointer"="none" "llvm.assume"="ompx_spmd_amenable" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+ptx32,+sm_20" }
		; AMDGPU-DISABLED: attributes #[[ATTR4]] = { nounwind }
		; AMDGPU-DISABLED: attributes #[[ATTR5:[0-9]+]] = { convergent nounwind }
		; AMDGPU-DISABLED: attributes #[[ATTR6]] = { convergent "llvm.assume"="ompx_spmd_amenable" }
		; AMDGPU-DISABLED: attributes #[[ATTR7]] = { convergent }
		;.
		; NVPTX-DISABLED: attributes #[[ATTR0]] = { convergent noinline norecurse nounwind "frame-pointer"="none" "min-legal-vector-width"="0" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+ptx32,+sm_20" }
		; NVPTX-DISABLED: attributes #[[ATTR1:[0-9]+]] = { convergent "frame-pointer"="none" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+ptx32,+sm_20" }
		; NVPTX-DISABLED: attributes #[[ATTR2:[0-9]+]] = { alwaysinline }
		; NVPTX-DISABLED: attributes #[[ATTR3:[0-9]+]] = { convergent "frame-pointer"="none" "llvm.assume"="ompx_spmd_amenable" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+ptx32,+sm_20" }
		; NVPTX-DISABLED: attributes #[[ATTR4]] = { nounwind }
		; NVPTX-DISABLED: attributes #[[ATTR5:[0-9]+]] = { convergent nounwind }
		; NVPTX-DISABLED: attributes #[[ATTR6]] = { convergent "llvm.assume"="ompx_spmd_amenable" }
		; NVPTX-DISABLED: attributes #[[ATTR7]] = { convergent }
		;.
		; AMDGPU: [[META0:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop_to_stack_var", i32 20, i32 1}
		; AMDGPU: [[META1:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop", i32 5, i32 0}
		; AMDGPU: [[META2:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop_to_shared_var", i32 35, i32 2}
		; AMDGPU: [[META3:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"do_not_spmdize_target", i32 65, i32 4}
		; AMDGPU: [[META4:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop_to_shared_var_guarded", i32 50, i32 3}
		; AMDGPU: [[META5:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_l5, !"kernel", i32 1}
		; AMDGPU: [[META6:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20, !"kernel", i32 1}
		; AMDGPU: [[META7:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35, !"kernel", i32 1}
		; AMDGPU: [[META8:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50, !"kernel", i32 1}
		; AMDGPU: [[META9:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_do_not_spmdize_target_l65, !"kernel", i32 1}
		; AMDGPU: [[META10:![0-9]+]] = !{i32 1, !"wchar_size", i32 4}
		; AMDGPU: [[META11:![0-9]+]] = !{i32 7, !"openmp", i32 50}
		; AMDGPU: [[META12:![0-9]+]] = !{i32 7, !"openmp-device", i32 50}
		; AMDGPU: [[LOOP13]] = distinct !{!13, !14}
		; AMDGPU: [[META14:![0-9]+]] = !{!"llvm.loop.mustprogress"}
		; AMDGPU: [[LOOP15]] = distinct !{!15, !14}
		; AMDGPU: [[LOOP16]] = distinct !{!16, !14}
		; AMDGPU: [[LOOP17]] = distinct !{!17, !14}
;.		;.
; CHECK-DISABLED: attributes #[[ATTR0]] = { convergent noinline norecurse nounwind "frame-pointer"="none" "min-legal-vector-width"="0" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+ptx32,+sm_20" }		; NVPTX: [[META0:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop_to_stack_var", i32 20, i32 1}
; CHECK-DISABLED: attributes #[[ATTR1:[0-9]+]] = { convergent "frame-pointer"="none" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+ptx32,+sm_20" }		; NVPTX: [[META1:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop", i32 5, i32 0}
; CHECK-DISABLED: attributes #[[ATTR2:[0-9]+]] = { convergent "frame-pointer"="none" "llvm.assume"="ompx_spmd_amenable" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+ptx32,+sm_20" }		; NVPTX: [[META2:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop_to_shared_var", i32 35, i32 2}
; CHECK-DISABLED: attributes #[[ATTR3]] = { nounwind }		; NVPTX: [[META3:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"do_not_spmdize_target", i32 65, i32 4}
; CHECK-DISABLED: attributes #[[ATTR4:[0-9]+]] = { convergent nounwind }		; NVPTX: [[META4:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop_to_shared_var_guarded", i32 50, i32 3}
; CHECK-DISABLED: attributes #[[ATTR5]] = { convergent "llvm.assume"="ompx_spmd_amenable" }		; NVPTX: [[META5:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_l5, !"kernel", i32 1}
; CHECK-DISABLED: attributes #[[ATTR6]] = { convergent }		; NVPTX: [[META6:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20, !"kernel", i32 1}
		; NVPTX: [[META7:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35, !"kernel", i32 1}
		; NVPTX: [[META8:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50, !"kernel", i32 1}
		; NVPTX: [[META9:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_do_not_spmdize_target_l65, !"kernel", i32 1}
		; NVPTX: [[META10:![0-9]+]] = !{i32 1, !"wchar_size", i32 4}
		; NVPTX: [[META11:![0-9]+]] = !{i32 7, !"openmp", i32 50}
		; NVPTX: [[META12:![0-9]+]] = !{i32 7, !"openmp-device", i32 50}
		; NVPTX: [[LOOP13]] = distinct !{!13, !14}
		; NVPTX: [[META14:![0-9]+]] = !{!"llvm.loop.mustprogress"}
		; NVPTX: [[LOOP15]] = distinct !{!15, !14}
		; NVPTX: [[LOOP16]] = distinct !{!16, !14}
		; NVPTX: [[LOOP17]] = distinct !{!17, !14}
;.		;.
; CHECK: [[META0:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop_to_stack_var", i32 20, i32 1}		; AMDGPU-DISABLED: [[META0:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop_to_stack_var", i32 20, i32 1}
; CHECK: [[META1:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop", i32 5, i32 0}		; AMDGPU-DISABLED: [[META1:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop", i32 5, i32 0}
; CHECK: [[META2:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop_to_shared_var", i32 35, i32 2}		; AMDGPU-DISABLED: [[META2:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop_to_shared_var", i32 35, i32 2}
; CHECK: [[META3:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"do_not_spmdize_target", i32 65, i32 4}		; AMDGPU-DISABLED: [[META3:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"do_not_spmdize_target", i32 65, i32 4}
; CHECK: [[META4:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop_to_shared_var_guarded", i32 50, i32 3}		; AMDGPU-DISABLED: [[META4:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop_to_shared_var_guarded", i32 50, i32 3}
; CHECK: [[META5:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_l5, !"kernel", i32 1}		; AMDGPU-DISABLED: [[META5:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_l5, !"kernel", i32 1}
; CHECK: [[META6:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20, !"kernel", i32 1}		; AMDGPU-DISABLED: [[META6:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20, !"kernel", i32 1}
; CHECK: [[META7:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35, !"kernel", i32 1}		; AMDGPU-DISABLED: [[META7:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35, !"kernel", i32 1}
; CHECK: [[META8:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50, !"kernel", i32 1}		; AMDGPU-DISABLED: [[META8:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50, !"kernel", i32 1}
; CHECK: [[META9:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_do_not_spmdize_target_l65, !"kernel", i32 1}		; AMDGPU-DISABLED: [[META9:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_do_not_spmdize_target_l65, !"kernel", i32 1}
; CHECK: [[META10:![0-9]+]] = !{i32 1, !"wchar_size", i32 4}		; AMDGPU-DISABLED: [[META10:![0-9]+]] = !{i32 1, !"wchar_size", i32 4}
; CHECK: [[META11:![0-9]+]] = !{i32 7, !"openmp", i32 50}		; AMDGPU-DISABLED: [[META11:![0-9]+]] = !{i32 7, !"openmp", i32 50}
; CHECK: [[META12:![0-9]+]] = !{i32 7, !"openmp-device", i32 50}		; AMDGPU-DISABLED: [[META12:![0-9]+]] = !{i32 7, !"openmp-device", i32 50}
; CHECK: [[LOOP13]] = distinct !{!13, !14}		; AMDGPU-DISABLED: [[LOOP13]] = distinct !{!13, !14}
; CHECK: [[META14:![0-9]+]] = !{!"llvm.loop.mustprogress"}		; AMDGPU-DISABLED: [[META14:![0-9]+]] = !{!"llvm.loop.mustprogress"}
; CHECK: [[LOOP15]] = distinct !{!15, !14}		; AMDGPU-DISABLED: [[LOOP15]] = distinct !{!15, !14}
; CHECK: [[LOOP16]] = distinct !{!16, !14}		; AMDGPU-DISABLED: [[LOOP16]] = distinct !{!16, !14}
; CHECK: [[LOOP17]] = distinct !{!17, !14}		; AMDGPU-DISABLED: [[LOOP17]] = distinct !{!17, !14}
;.		;.
; CHECK-DISABLED: [[META0:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop_to_stack_var", i32 20, i32 1}		; NVPTX-DISABLED: [[META0:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop_to_stack_var", i32 20, i32 1}
; CHECK-DISABLED: [[META1:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop", i32 5, i32 0}		; NVPTX-DISABLED: [[META1:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop", i32 5, i32 0}
; CHECK-DISABLED: [[META2:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop_to_shared_var", i32 35, i32 2}		; NVPTX-DISABLED: [[META2:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop_to_shared_var", i32 35, i32 2}
; CHECK-DISABLED: [[META3:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"do_not_spmdize_target", i32 65, i32 4}		; NVPTX-DISABLED: [[META3:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"do_not_spmdize_target", i32 65, i32 4}
; CHECK-DISABLED: [[META4:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop_to_shared_var_guarded", i32 50, i32 3}		; NVPTX-DISABLED: [[META4:![0-9]+]] = !{i32 0, i32 20, i32 171231761, !"sequential_loop_to_shared_var_guarded", i32 50, i32 3}
; CHECK-DISABLED: [[META5:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_l5, !"kernel", i32 1}		; NVPTX-DISABLED: [[META5:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_l5, !"kernel", i32 1}
; CHECK-DISABLED: [[META6:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20, !"kernel", i32 1}		; NVPTX-DISABLED: [[META6:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20, !"kernel", i32 1}
; CHECK-DISABLED: [[META7:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35, !"kernel", i32 1}		; NVPTX-DISABLED: [[META7:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35, !"kernel", i32 1}
; CHECK-DISABLED: [[META8:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50, !"kernel", i32 1}		; NVPTX-DISABLED: [[META8:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50, !"kernel", i32 1}
; CHECK-DISABLED: [[META9:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_do_not_spmdize_target_l65, !"kernel", i32 1}		; NVPTX-DISABLED: [[META9:![0-9]+]] = !{void ()* @__omp_offloading_14_a34ca11_do_not_spmdize_target_l65, !"kernel", i32 1}
; CHECK-DISABLED: [[META10:![0-9]+]] = !{i32 1, !"wchar_size", i32 4}		; NVPTX-DISABLED: [[META10:![0-9]+]] = !{i32 1, !"wchar_size", i32 4}
; CHECK-DISABLED: [[META11:![0-9]+]] = !{i32 7, !"openmp", i32 50}		; NVPTX-DISABLED: [[META11:![0-9]+]] = !{i32 7, !"openmp", i32 50}
; CHECK-DISABLED: [[META12:![0-9]+]] = !{i32 7, !"openmp-device", i32 50}		; NVPTX-DISABLED: [[META12:![0-9]+]] = !{i32 7, !"openmp-device", i32 50}
; CHECK-DISABLED: [[LOOP13]] = distinct !{!13, !14}		; NVPTX-DISABLED: [[LOOP13]] = distinct !{!13, !14}
; CHECK-DISABLED: [[META14:![0-9]+]] = !{!"llvm.loop.mustprogress"}		; NVPTX-DISABLED: [[META14:![0-9]+]] = !{!"llvm.loop.mustprogress"}
; CHECK-DISABLED: [[LOOP15]] = distinct !{!15, !14}		; NVPTX-DISABLED: [[LOOP15]] = distinct !{!15, !14}
; CHECK-DISABLED: [[LOOP16]] = distinct !{!16, !14}		; NVPTX-DISABLED: [[LOOP16]] = distinct !{!16, !14}
; CHECK-DISABLED: [[LOOP17]] = distinct !{!17, !14}		; NVPTX-DISABLED: [[LOOP17]] = distinct !{!17, !14}
;.		;.