This is an archive of the discontinued LLVM Phabricator instance.

Applied the same fix to the custom state machine, as suggested by @jdoerfert privately, and extended the new test to cover it. For that test on the NVIDIA Pascals I tried, fixing the custom state machine didn't appear to be needed. Perhaps in that version, the master thread manages to be selected for execution before other threads in its warp. However, fixing the custom state machine did prove important for that test on an AMD GPU I tried. Maybe another test would prove it's important for Pascals too, but I haven't looked for one.
Moved fix to callers of generic state machine functions, as suggested by @tianshilei1992.
Pointed out this fix is also relevant to AMD GPUs, as suggested by @JonChesterfield.

Herald added a project: Restricted Project. · View Herald TranscriptNov 11 2021, 4:51 PM

Herald added subscribers: llvm-commits, ormris, hiraditya and 5 others. · View Herald Transcript

I just noticed that a few LLVM :: Transforms/OpenMP test need to be updated. I'll do that soon.

jdoerfert added inline comments.Nov 11 2021, 5:40 PM

llvm/lib/Transforms/IPO/OpenMPOpt.cpp
3463	This doesn't quite work because now every thread in the last warp will execute the user code. I think the minimal addition is if (InitCB <u BlockSize) return; and then whatever we had before.
3579	-master +main
openmp/libomptarget/DeviceRTL/src/Kernel.cpp
103	-master +main

Harbormaster completed remote builds in B133840: Diff 386680.Nov 11 2021, 5:51 PM

Addressed @jdoerfert's comments.
Updated LLVM :: Transforms/OpenMP tests.

jdenny marked an inline comment as done.Nov 11 2021, 8:07 PM

jdenny added inline comments.

llvm/lib/Transforms/IPO/OpenMPOpt.cpp
3463	Ah, you're right that's not what I meant to do. It managed to work for my test because it eliminated the divergence in the last warp.

jdenny marked an inline comment as done.Nov 11 2021, 8:07 PM

Harbormaster completed remote builds in B133861: Diff 386722.Nov 11 2021, 8:31 PM

This revision is now accepted and ready to land.Nov 11 2021, 8:48 PM

jdenny retitled this revision from [OpenMP] Fix master thread barrier for Pascal and amdgpu to [OpenMP] Fix main thread barrier for Pascal and amdgpu.Nov 12 2021, 7:32 AM

This revision was landed with ongoing or failed builds.Nov 12 2021, 8:19 AM

Closed by commit rGc9dfe322eefc: [OpenMP] Fix main thread barrier for Pascal and amdgpu (authored by jdenny). · Explain Why

This revision was automatically updated to reflect the committed changes.

jdenny added a commit: rGc9dfe322eefc: [OpenMP] Fix main thread barrier for Pascal and amdgpu.

JonChesterfield added a subscriber: ronlieb.Nov 12 2021, 9:16 AM

jdenny mentioned this in D113824: [OpenMP] Add test for custom state machine if have reduction.Nov 12 2021, 9:43 PM

jdoerfert mentioned this in D114802: [OpenMP] Add RTL function to externalization RAII.Nov 30 2021, 7:18 AM

jdenny mentioned this in rG51168ce8d574: [OpenMP] Add test for custom state machine if have reduction.Dec 10 2021, 9:56 AM

Meinersbur added a subscriber: Meinersbur.Feb 17 2022, 7:56 AM

This comment was removed by Meinersbur.

Sorry, I was too quick to associate the build failure with this patch, which introduced the test, but is not the cause of the recent failure.

In D113602#3329787, @Meinersbur wrote:

Sorry, I was too quick to associate the build failure with this patch, which introduced the test, but is not the cause of the recent failure.

This patch introduced 2 problems and we only fixed one with D114802. @jhuber6 will fix the other one, same idea but different function, today.

Revision Contents

Path

Size

llvm/

lib/

Transforms/

IPO/

OpenMPOpt.cpp

43 lines

test/

Transforms/

OpenMP/

custom_state_machines.ll

112 lines

spmdization.ll

96 lines

spmdization_guarding.ll

8 lines

openmp/

libomptarget/

DeviceRTL/

src/

Kernel.cpp

16 lines

deviceRTLs/

common/

src/

omptarget.cu

17 lines

support.cu

1 line

target_interface.h

1 line

test/

offloading/

bug51781.c

38 lines

Diff 386862

llvm/lib/Transforms/IPO/OpenMPOpt.cpp

Show First 20 Lines • Show All 3,450 Lines • ▼ Show 20 Lines	if (ReachedUnknownParallelRegions.empty()) {
A.emitRemark<OptimizationRemarkAnalysis>(UnknownParallelRegionCB,		A.emitRemark<OptimizationRemarkAnalysis>(UnknownParallelRegionCB,
"OMP133", Remark);		"OMP133", Remark);
}		}
}		}

// Create all the blocks:		// Create all the blocks:
//		//
// InitCB = __kmpc_target_init(...)		// InitCB = __kmpc_target_init(...)
// bool IsWorker = InitCB >= 0;		// BlockHwSize =
		// __kmpc_get_hardware_num_threads_in_block();
		// WarpSize = __kmpc_get_warp_size();
		// BlockSize = BlockHwSize - WarpSize;
		// if (InitCB >= BlockSize) return;
		jdoerfertUnsubmitted Done Reply Inline Actions This doesn't quite work because now every thread in the last warp will execute the user code. I think the minimal addition is if (InitCB <u BlockSize) return; and then whatever we had before. jdoerfert: This doesn't quite work because now every thread in the last warp will execute the user code. I…
		jdennyAuthorUnsubmitted Done Reply Inline Actions Ah, you're right that's not what I meant to do. It managed to work for my test because it eliminated the divergence in the last warp. jdenny: Ah, you're right that's not what I meant to do. It managed to work for my test because it…
		// IsWorkerCheckBB: bool IsWorker = InitCB >= 0;
// if (IsWorker) {		// if (IsWorker) {
// SMBeginBB: __kmpc_barrier_simple_generic(...);		// SMBeginBB: __kmpc_barrier_simple_generic(...);
// void *WorkFn;		// void *WorkFn;
// bool Active = __kmpc_kernel_parallel(&WorkFn);		// bool Active = __kmpc_kernel_parallel(&WorkFn);
// if (!WorkFn) return;		// if (!WorkFn) return;
// SMIsActiveCheckBB: if (Active) {		// SMIsActiveCheckBB: if (Active) {
// SMIfCascadeCurrentBB: if (WorkFn == <ParFn0>)		// SMIfCascadeCurrentBB: if (WorkFn == <ParFn0>)
// ParFn0(...);		// ParFn0(...);
Show All 11 Lines	ChangeStatus buildCustomStateMachine(Attributor &A) {
// __kmpc_target_deinit(...)		// __kmpc_target_deinit(...)
//		//
Function *Kernel = getAssociatedFunction();		Function *Kernel = getAssociatedFunction();
assert(Kernel && "Expected an associated function!");		assert(Kernel && "Expected an associated function!");

BasicBlock *InitBB = KernelInitCB->getParent();		BasicBlock *InitBB = KernelInitCB->getParent();
BasicBlock *UserCodeEntryBB = InitBB->splitBasicBlock(		BasicBlock *UserCodeEntryBB = InitBB->splitBasicBlock(
KernelInitCB->getNextNode(), "thread.user_code.check");		KernelInitCB->getNextNode(), "thread.user_code.check");
		BasicBlock *IsWorkerCheckBB =
		BasicBlock::Create(Ctx, "is_worker_check", Kernel, UserCodeEntryBB);
BasicBlock *StateMachineBeginBB = BasicBlock::Create(		BasicBlock *StateMachineBeginBB = BasicBlock::Create(
Ctx, "worker_state_machine.begin", Kernel, UserCodeEntryBB);		Ctx, "worker_state_machine.begin", Kernel, UserCodeEntryBB);
BasicBlock *StateMachineFinishedBB = BasicBlock::Create(		BasicBlock *StateMachineFinishedBB = BasicBlock::Create(
Ctx, "worker_state_machine.finished", Kernel, UserCodeEntryBB);		Ctx, "worker_state_machine.finished", Kernel, UserCodeEntryBB);
BasicBlock *StateMachineIsActiveCheckBB = BasicBlock::Create(		BasicBlock *StateMachineIsActiveCheckBB = BasicBlock::Create(
Ctx, "worker_state_machine.is_active.check", Kernel, UserCodeEntryBB);		Ctx, "worker_state_machine.is_active.check", Kernel, UserCodeEntryBB);
BasicBlock *StateMachineIfCascadeCurrentBB =		BasicBlock *StateMachineIfCascadeCurrentBB =
BasicBlock::Create(Ctx, "worker_state_machine.parallel_region.check",		BasicBlock::Create(Ctx, "worker_state_machine.parallel_region.check",
Kernel, UserCodeEntryBB);		Kernel, UserCodeEntryBB);
BasicBlock *StateMachineEndParallelBB =		BasicBlock *StateMachineEndParallelBB =
BasicBlock::Create(Ctx, "worker_state_machine.parallel_region.end",		BasicBlock::Create(Ctx, "worker_state_machine.parallel_region.end",
Kernel, UserCodeEntryBB);		Kernel, UserCodeEntryBB);
BasicBlock *StateMachineDoneBarrierBB = BasicBlock::Create(		BasicBlock *StateMachineDoneBarrierBB = BasicBlock::Create(
Ctx, "worker_state_machine.done.barrier", Kernel, UserCodeEntryBB);		Ctx, "worker_state_machine.done.barrier", Kernel, UserCodeEntryBB);
A.registerManifestAddedBasicBlock(*InitBB);		A.registerManifestAddedBasicBlock(*InitBB);
A.registerManifestAddedBasicBlock(*UserCodeEntryBB);		A.registerManifestAddedBasicBlock(*UserCodeEntryBB);
		A.registerManifestAddedBasicBlock(*IsWorkerCheckBB);
A.registerManifestAddedBasicBlock(*StateMachineBeginBB);		A.registerManifestAddedBasicBlock(*StateMachineBeginBB);
A.registerManifestAddedBasicBlock(*StateMachineFinishedBB);		A.registerManifestAddedBasicBlock(*StateMachineFinishedBB);
A.registerManifestAddedBasicBlock(*StateMachineIsActiveCheckBB);		A.registerManifestAddedBasicBlock(*StateMachineIsActiveCheckBB);
A.registerManifestAddedBasicBlock(*StateMachineIfCascadeCurrentBB);		A.registerManifestAddedBasicBlock(*StateMachineIfCascadeCurrentBB);
A.registerManifestAddedBasicBlock(*StateMachineEndParallelBB);		A.registerManifestAddedBasicBlock(*StateMachineEndParallelBB);
A.registerManifestAddedBasicBlock(*StateMachineDoneBarrierBB);		A.registerManifestAddedBasicBlock(*StateMachineDoneBarrierBB);

const DebugLoc &DLoc = KernelInitCB->getDebugLoc();		const DebugLoc &DLoc = KernelInitCB->getDebugLoc();
ReturnInst::Create(Ctx, StateMachineFinishedBB)->setDebugLoc(DLoc);		ReturnInst::Create(Ctx, StateMachineFinishedBB)->setDebugLoc(DLoc);

InitBB->getTerminator()->eraseFromParent();		InitBB->getTerminator()->eraseFromParent();

		Module &M = *Kernel->getParent();
		auto &OMPInfoCache = static_cast<OMPInformationCache &>(A.getInfoCache());
		FunctionCallee BlockHwSizeFn =
		OMPInfoCache.OMPBuilder.getOrCreateRuntimeFunction(
		M, OMPRTL___kmpc_get_hardware_num_threads_in_block);
		FunctionCallee WarpSizeFn =
		OMPInfoCache.OMPBuilder.getOrCreateRuntimeFunction(
		M, OMPRTL___kmpc_get_warp_size);
		Instruction *BlockHwSize =
		CallInst::Create(BlockHwSizeFn, "block.hw_size", InitBB);
		BlockHwSize->setDebugLoc(DLoc);
		Instruction *WarpSize = CallInst::Create(WarpSizeFn, "warp.size", InitBB);
		WarpSize->setDebugLoc(DLoc);
		Instruction *BlockSize =
		BinaryOperator::CreateSub(BlockHwSize, WarpSize, "block.size", InitBB);
		BlockSize->setDebugLoc(DLoc);
		Instruction *IsMainOrWorker =
		ICmpInst::Create(ICmpInst::ICmp, llvm::CmpInst::ICMP_SLT, KernelInitCB,
		BlockSize, "thread.is_main_or_worker", InitBB);
		IsMainOrWorker->setDebugLoc(DLoc);
		BranchInst::Create(IsWorkerCheckBB, StateMachineFinishedBB, IsMainOrWorker,
		InitBB);

Instruction *IsWorker =		Instruction *IsWorker =
ICmpInst::Create(ICmpInst::ICmp, llvm::CmpInst::ICMP_NE, KernelInitCB,		ICmpInst::Create(ICmpInst::ICmp, llvm::CmpInst::ICMP_NE, KernelInitCB,
ConstantInt::get(KernelInitCB->getType(), -1),		ConstantInt::get(KernelInitCB->getType(), -1),
"thread.is_worker", InitBB);		"thread.is_worker", IsWorkerCheckBB);
IsWorker->setDebugLoc(DLoc);		IsWorker->setDebugLoc(DLoc);
BranchInst::Create(StateMachineBeginBB, UserCodeEntryBB, IsWorker, InitBB);		BranchInst::Create(StateMachineBeginBB, UserCodeEntryBB, IsWorker,
		IsWorkerCheckBB);
Module &M = *Kernel->getParent();

// Create local storage for the work function pointer.		// Create local storage for the work function pointer.
const DataLayout &DL = M.getDataLayout();		const DataLayout &DL = M.getDataLayout();
Type *VoidPtrTy = Type::getInt8PtrTy(Ctx);		Type *VoidPtrTy = Type::getInt8PtrTy(Ctx);
Instruction *WorkFnAI =		Instruction *WorkFnAI =
new AllocaInst(VoidPtrTy, DL.getAllocaAddrSpace(), nullptr,		new AllocaInst(VoidPtrTy, DL.getAllocaAddrSpace(), nullptr,
"worker.work_fn.addr", &Kernel->getEntryBlock().front());		"worker.work_fn.addr", &Kernel->getEntryBlock().front());
WorkFnAI->setDebugLoc(DLoc);		WorkFnAI->setDebugLoc(DLoc);

auto &OMPInfoCache = static_cast<OMPInformationCache &>(A.getInfoCache());
OMPInfoCache.OMPBuilder.updateToLocation(		OMPInfoCache.OMPBuilder.updateToLocation(
OpenMPIRBuilder::LocationDescription(		OpenMPIRBuilder::LocationDescription(
IRBuilder<>::InsertPoint(StateMachineBeginBB,		IRBuilder<>::InsertPoint(StateMachineBeginBB,
StateMachineBeginBB->end()),		StateMachineBeginBB->end()),
DLoc));		DLoc));

Value *Ident = KernelInitCB->getArgOperand(0);		Value *Ident = KernelInitCB->getArgOperand(0);
Value *GTid = KernelInitCB;		Value *GTid = KernelInitCB;

FunctionCallee BarrierFn =		FunctionCallee BarrierFn =
OMPInfoCache.OMPBuilder.getOrCreateRuntimeFunction(		OMPInfoCache.OMPBuilder.getOrCreateRuntimeFunction(
M, OMPRTL___kmpc_barrier_simple_generic);		M, OMPRTL___kmpc_barrier_simple_generic);
CallInst::Create(BarrierFn, {Ident, GTid}, "", StateMachineBeginBB)		CallInst::Create(BarrierFn, {Ident, GTid}, "", StateMachineBeginBB)
->setDebugLoc(DLoc);		->setDebugLoc(DLoc);

if (WorkFnAI->getType()->getPointerAddressSpace() !=		if (WorkFnAI->getType()->getPointerAddressSpace() !=
(unsigned int)AddressSpace::Generic) {		(unsigned int)AddressSpace::Generic) {
WorkFnAI = new AddrSpaceCastInst(		WorkFnAI = new AddrSpaceCastInst(
WorkFnAI,		WorkFnAI,
		jdoerfertUnsubmitted Done Reply Inline Actions -master +main jdoerfert: -master +main
PointerType::getWithSamePointeeType(		PointerType::getWithSamePointeeType(
cast<PointerType>(WorkFnAI->getType()),		cast<PointerType>(WorkFnAI->getType()),
(unsigned int)AddressSpace::Generic),		(unsigned int)AddressSpace::Generic),
WorkFnAI->getName() + ".generic", StateMachineBeginBB);		WorkFnAI->getName() + ".generic", StateMachineBeginBB);
WorkFnAI->setDebugLoc(DLoc);		WorkFnAI->setDebugLoc(DLoc);
}		}

FunctionCallee KernelParallelFn =		FunctionCallee KernelParallelFn =
▲ Show 20 Lines • Show All 1,287 Lines • Show Last 20 Lines

llvm/test/Transforms/OpenMP/custom_state_machines.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 906 Lines • ▼ Show 20 Lines
	; AMDGPU: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_l22			; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_l22
	; AMDGPU-SAME: () #[[ATTR0]] {			; AMDGPU-SAME: () #[[ATTR0]] {
	; AMDGPU-NEXT: entry:			; AMDGPU-NEXT: entry:
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
	; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; AMDGPU-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; AMDGPU-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; AMDGPU-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; AMDGPU-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; AMDGPU-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; AMDGPU: is_worker_check:
	; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; AMDGPU: worker_state_machine.begin:			; AMDGPU: worker_state_machine.begin:
	; AMDGPU-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
	; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])			; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
	; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8			; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; AMDGPU: worker_state_machine.finished:			; AMDGPU: worker_state_machine.finished:
	; AMDGPU-NEXT: ret void			; AMDGPU-NEXT: ret void
	; AMDGPU: worker_state_machine.is_active.check:			; AMDGPU: worker_state_machine.is_active.check:
	; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; AMDGPU: worker_state_machine.parallel_region.check:			; AMDGPU: worker_state_machine.parallel_region.check:
	; AMDGPU-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__2_wrapper.ID to void (i16, i32)*)			; AMDGPU-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__2_wrapper.ID to void (i16, i32)*)
	; AMDGPU-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; AMDGPU: worker_state_machine.parallel_region.execute:			; AMDGPU: worker_state_machine.parallel_region.execute:
	▲ Show 20 Lines • Show All 99 Lines • ▼ Show 20 Lines
	; AMDGPU: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_l39			; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_l39
	; AMDGPU-SAME: () #[[ATTR0]] {			; AMDGPU-SAME: () #[[ATTR0]] {
	; AMDGPU-NEXT: entry:			; AMDGPU-NEXT: entry:
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
	; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; AMDGPU-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; AMDGPU-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; AMDGPU-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; AMDGPU-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; AMDGPU-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; AMDGPU: is_worker_check:
	; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; AMDGPU: worker_state_machine.begin:			; AMDGPU: worker_state_machine.begin:
	; AMDGPU-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
	; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])			; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
	; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8			; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; AMDGPU: worker_state_machine.finished:			; AMDGPU: worker_state_machine.finished:
	; AMDGPU-NEXT: ret void			; AMDGPU-NEXT: ret void
	; AMDGPU: worker_state_machine.is_active.check:			; AMDGPU: worker_state_machine.is_active.check:
	; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; AMDGPU: worker_state_machine.parallel_region.check:			; AMDGPU: worker_state_machine.parallel_region.check:
	; AMDGPU-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], @__omp_outlined__17_wrapper			; AMDGPU-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], @__omp_outlined__17_wrapper
	; AMDGPU-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; AMDGPU: worker_state_machine.parallel_region.execute:			; AMDGPU: worker_state_machine.parallel_region.execute:
	▲ Show 20 Lines • Show All 122 Lines • ▼ Show 20 Lines
	; AMDGPU: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_with_fallback_l55			; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_with_fallback_l55
	; AMDGPU-SAME: () #[[ATTR0]] {			; AMDGPU-SAME: () #[[ATTR0]] {
	; AMDGPU-NEXT: entry:			; AMDGPU-NEXT: entry:
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
	; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; AMDGPU-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; AMDGPU-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; AMDGPU-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; AMDGPU-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; AMDGPU-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; AMDGPU: is_worker_check:
	; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; AMDGPU: worker_state_machine.begin:			; AMDGPU: worker_state_machine.begin:
	; AMDGPU-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
	; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])			; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
	; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8			; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; AMDGPU: worker_state_machine.finished:			; AMDGPU: worker_state_machine.finished:
	; AMDGPU-NEXT: ret void			; AMDGPU-NEXT: ret void
	; AMDGPU: worker_state_machine.is_active.check:			; AMDGPU: worker_state_machine.is_active.check:
	; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; AMDGPU: worker_state_machine.parallel_region.check:			; AMDGPU: worker_state_machine.parallel_region.check:
	; AMDGPU-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__7_wrapper.ID to void (i16, i32)*)			; AMDGPU-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__7_wrapper.ID to void (i16, i32)*)
	; AMDGPU-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; AMDGPU: worker_state_machine.parallel_region.execute:			; AMDGPU: worker_state_machine.parallel_region.execute:
	▲ Show 20 Lines • Show All 100 Lines • ▼ Show 20 Lines
	; AMDGPU: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_no_openmp_attr_l66			; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_no_openmp_attr_l66
	; AMDGPU-SAME: () #[[ATTR0]] {			; AMDGPU-SAME: () #[[ATTR0]] {
	; AMDGPU-NEXT: entry:			; AMDGPU-NEXT: entry:
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
	; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; AMDGPU-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; AMDGPU-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; AMDGPU-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; AMDGPU-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; AMDGPU-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; AMDGPU: is_worker_check:
	; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; AMDGPU: worker_state_machine.begin:			; AMDGPU: worker_state_machine.begin:
	; AMDGPU-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
	; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])			; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
	; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8			; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; AMDGPU: worker_state_machine.finished:			; AMDGPU: worker_state_machine.finished:
	; AMDGPU-NEXT: ret void			; AMDGPU-NEXT: ret void
	; AMDGPU: worker_state_machine.is_active.check:			; AMDGPU: worker_state_machine.is_active.check:
	; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; AMDGPU: worker_state_machine.parallel_region.check:			; AMDGPU: worker_state_machine.parallel_region.check:
	; AMDGPU-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__10_wrapper.ID to void (i16, i32)*)			; AMDGPU-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__10_wrapper.ID to void (i16, i32)*)
	; AMDGPU-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; AMDGPU: worker_state_machine.parallel_region.execute:			; AMDGPU: worker_state_machine.parallel_region.execute:
	▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines
	; AMDGPU: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_pure_l77			; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_pure_l77
	; AMDGPU-SAME: () #[[ATTR0]] {			; AMDGPU-SAME: () #[[ATTR0]] {
	; AMDGPU-NEXT: entry:			; AMDGPU-NEXT: entry:
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
	; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; AMDGPU-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; AMDGPU-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; AMDGPU-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; AMDGPU-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; AMDGPU-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; AMDGPU: is_worker_check:
	; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; AMDGPU: worker_state_machine.begin:			; AMDGPU: worker_state_machine.begin:
	; AMDGPU-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
	; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])			; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
	; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8			; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; AMDGPU: worker_state_machine.finished:			; AMDGPU: worker_state_machine.finished:
	; AMDGPU-NEXT: ret void			; AMDGPU-NEXT: ret void
	; AMDGPU: worker_state_machine.is_active.check:			; AMDGPU: worker_state_machine.is_active.check:
	; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; AMDGPU: worker_state_machine.parallel_region.check:			; AMDGPU: worker_state_machine.parallel_region.check:
	; AMDGPU-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__13_wrapper.ID to void (i16, i32)*)			; AMDGPU-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__13_wrapper.ID to void (i16, i32)*)
	; AMDGPU-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; AMDGPU: worker_state_machine.parallel_region.execute:			; AMDGPU: worker_state_machine.parallel_region.execute:
	▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines
	; AMDGPU: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_nested_recursive_l92			; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_nested_recursive_l92
	; AMDGPU-SAME: () #[[ATTR0]] {			; AMDGPU-SAME: () #[[ATTR0]] {
	; AMDGPU-NEXT: entry:			; AMDGPU-NEXT: entry:
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
	; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; AMDGPU-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; AMDGPU-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; AMDGPU-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; AMDGPU-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; AMDGPU-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; AMDGPU: is_worker_check:
	; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; AMDGPU: worker_state_machine.begin:			; AMDGPU: worker_state_machine.begin:
	; AMDGPU-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
	; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])			; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
	; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8			; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; AMDGPU: worker_state_machine.finished:			; AMDGPU: worker_state_machine.finished:
	; AMDGPU-NEXT: ret void			; AMDGPU-NEXT: ret void
	; AMDGPU: worker_state_machine.is_active.check:			; AMDGPU: worker_state_machine.is_active.check:
	; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; AMDGPU: worker_state_machine.parallel_region.check:			; AMDGPU: worker_state_machine.parallel_region.check:
	; AMDGPU-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], @__omp_outlined__19_wrapper			; AMDGPU-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], @__omp_outlined__19_wrapper
	; AMDGPU-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]
	; AMDGPU: worker_state_machine.parallel_region.execute:			; AMDGPU: worker_state_machine.parallel_region.execute:
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; AMDGPU: Function Attrs: convergent noinline norecurse nounwind			; AMDGPU: Function Attrs: convergent noinline norecurse nounwind
	; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_no_state_machine_weak_callee_l112			; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_no_state_machine_weak_callee_l112
	; AMDGPU-SAME: () #[[ATTR0]] {			; AMDGPU-SAME: () #[[ATTR0]] {
	; AMDGPU-NEXT: entry:			; AMDGPU-NEXT: entry:
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
	; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; AMDGPU-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; AMDGPU-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; AMDGPU-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; AMDGPU-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; AMDGPU-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; AMDGPU: is_worker_check:
	; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; AMDGPU: worker_state_machine.begin:			; AMDGPU: worker_state_machine.begin:
	; AMDGPU-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
	; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])			; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
	; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8			; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; AMDGPU: worker_state_machine.finished:			; AMDGPU: worker_state_machine.finished:
	; AMDGPU-NEXT: ret void			; AMDGPU-NEXT: ret void
	; AMDGPU: worker_state_machine.is_active.check:			; AMDGPU: worker_state_machine.is_active.check:
	; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; AMDGPU: worker_state_machine.parallel_region.fallback.execute:			; AMDGPU: worker_state_machine.parallel_region.fallback.execute:
	; AMDGPU-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])			; AMDGPU-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
	; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
	; AMDGPU: worker_state_machine.parallel_region.end:			; AMDGPU: worker_state_machine.parallel_region.end:
	▲ Show 20 Lines • Show All 197 Lines • ▼ Show 20 Lines
	; NVPTX: Function Attrs: convergent noinline norecurse nounwind			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_l22			; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_l22
	; NVPTX-SAME: () #[[ATTR0]] {			; NVPTX-SAME: () #[[ATTR0]] {
	; NVPTX-NEXT: entry:			; NVPTX-NEXT: entry:
	; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
	; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; NVPTX-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; NVPTX-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; NVPTX-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; NVPTX-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; NVPTX-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; NVPTX: is_worker_check:
	; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; NVPTX: worker_state_machine.begin:			; NVPTX: worker_state_machine.begin:
	; NVPTX-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; NVPTX-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
	; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
	; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; NVPTX: worker_state_machine.finished:			; NVPTX: worker_state_machine.finished:
	; NVPTX-NEXT: ret void			; NVPTX-NEXT: ret void
	; NVPTX: worker_state_machine.is_active.check:			; NVPTX: worker_state_machine.is_active.check:
	; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; NVPTX: worker_state_machine.parallel_region.check:			; NVPTX: worker_state_machine.parallel_region.check:
	; NVPTX-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__2_wrapper.ID to void (i16, i32)*)			; NVPTX-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__2_wrapper.ID to void (i16, i32)*)
	; NVPTX-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]			; NVPTX-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; NVPTX: worker_state_machine.parallel_region.execute:			; NVPTX: worker_state_machine.parallel_region.execute:
	▲ Show 20 Lines • Show All 99 Lines • ▼ Show 20 Lines
	; NVPTX: Function Attrs: convergent noinline norecurse nounwind			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_l39			; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_l39
	; NVPTX-SAME: () #[[ATTR0]] {			; NVPTX-SAME: () #[[ATTR0]] {
	; NVPTX-NEXT: entry:			; NVPTX-NEXT: entry:
	; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
	; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; NVPTX-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; NVPTX-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; NVPTX-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; NVPTX-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; NVPTX-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; NVPTX: is_worker_check:
	; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; NVPTX: worker_state_machine.begin:			; NVPTX: worker_state_machine.begin:
	; NVPTX-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; NVPTX-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
	; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
	; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; NVPTX: worker_state_machine.finished:			; NVPTX: worker_state_machine.finished:
	; NVPTX-NEXT: ret void			; NVPTX-NEXT: ret void
	; NVPTX: worker_state_machine.is_active.check:			; NVPTX: worker_state_machine.is_active.check:
	; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; NVPTX: worker_state_machine.parallel_region.check:			; NVPTX: worker_state_machine.parallel_region.check:
	; NVPTX-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], @__omp_outlined__17_wrapper			; NVPTX-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], @__omp_outlined__17_wrapper
	; NVPTX-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]			; NVPTX-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; NVPTX: worker_state_machine.parallel_region.execute:			; NVPTX: worker_state_machine.parallel_region.execute:
	▲ Show 20 Lines • Show All 122 Lines • ▼ Show 20 Lines
	; NVPTX: Function Attrs: convergent noinline norecurse nounwind			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_with_fallback_l55			; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_with_fallback_l55
	; NVPTX-SAME: () #[[ATTR0]] {			; NVPTX-SAME: () #[[ATTR0]] {
	; NVPTX-NEXT: entry:			; NVPTX-NEXT: entry:
	; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
	; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; NVPTX-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; NVPTX-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; NVPTX-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; NVPTX-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; NVPTX-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; NVPTX: is_worker_check:
	; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; NVPTX: worker_state_machine.begin:			; NVPTX: worker_state_machine.begin:
	; NVPTX-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; NVPTX-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
	; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
	; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; NVPTX: worker_state_machine.finished:			; NVPTX: worker_state_machine.finished:
	; NVPTX-NEXT: ret void			; NVPTX-NEXT: ret void
	; NVPTX: worker_state_machine.is_active.check:			; NVPTX: worker_state_machine.is_active.check:
	; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; NVPTX: worker_state_machine.parallel_region.check:			; NVPTX: worker_state_machine.parallel_region.check:
	; NVPTX-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__7_wrapper.ID to void (i16, i32)*)			; NVPTX-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__7_wrapper.ID to void (i16, i32)*)
	; NVPTX-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]			; NVPTX-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; NVPTX: worker_state_machine.parallel_region.execute:			; NVPTX: worker_state_machine.parallel_region.execute:
	▲ Show 20 Lines • Show All 100 Lines • ▼ Show 20 Lines
	; NVPTX: Function Attrs: convergent noinline norecurse nounwind			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_no_openmp_attr_l66			; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_no_openmp_attr_l66
	; NVPTX-SAME: () #[[ATTR0]] {			; NVPTX-SAME: () #[[ATTR0]] {
	; NVPTX-NEXT: entry:			; NVPTX-NEXT: entry:
	; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
	; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; NVPTX-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; NVPTX-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; NVPTX-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; NVPTX-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; NVPTX-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; NVPTX: is_worker_check:
	; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; NVPTX: worker_state_machine.begin:			; NVPTX: worker_state_machine.begin:
	; NVPTX-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; NVPTX-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
	; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
	; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; NVPTX: worker_state_machine.finished:			; NVPTX: worker_state_machine.finished:
	; NVPTX-NEXT: ret void			; NVPTX-NEXT: ret void
	; NVPTX: worker_state_machine.is_active.check:			; NVPTX: worker_state_machine.is_active.check:
	; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; NVPTX: worker_state_machine.parallel_region.check:			; NVPTX: worker_state_machine.parallel_region.check:
	; NVPTX-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__10_wrapper.ID to void (i16, i32)*)			; NVPTX-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__10_wrapper.ID to void (i16, i32)*)
	; NVPTX-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]			; NVPTX-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; NVPTX: worker_state_machine.parallel_region.execute:			; NVPTX: worker_state_machine.parallel_region.execute:
	▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines
	; NVPTX: Function Attrs: convergent noinline norecurse nounwind			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_pure_l77			; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_pure_l77
	; NVPTX-SAME: () #[[ATTR0]] {			; NVPTX-SAME: () #[[ATTR0]] {
	; NVPTX-NEXT: entry:			; NVPTX-NEXT: entry:
	; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
	; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; NVPTX-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; NVPTX-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; NVPTX-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; NVPTX-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; NVPTX-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; NVPTX: is_worker_check:
	; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; NVPTX: worker_state_machine.begin:			; NVPTX: worker_state_machine.begin:
	; NVPTX-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; NVPTX-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
	; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
	; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; NVPTX: worker_state_machine.finished:			; NVPTX: worker_state_machine.finished:
	; NVPTX-NEXT: ret void			; NVPTX-NEXT: ret void
	; NVPTX: worker_state_machine.is_active.check:			; NVPTX: worker_state_machine.is_active.check:
	; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; NVPTX: worker_state_machine.parallel_region.check:			; NVPTX: worker_state_machine.parallel_region.check:
	; NVPTX-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__13_wrapper.ID to void (i16, i32)*)			; NVPTX-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__13_wrapper.ID to void (i16, i32)*)
	; NVPTX-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]			; NVPTX-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; NVPTX: worker_state_machine.parallel_region.execute:			; NVPTX: worker_state_machine.parallel_region.execute:
	▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines
	; NVPTX: Function Attrs: convergent noinline norecurse nounwind			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_nested_recursive_l92			; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_simple_state_machine_interprocedural_nested_recursive_l92
	; NVPTX-SAME: () #[[ATTR0]] {			; NVPTX-SAME: () #[[ATTR0]] {
	; NVPTX-NEXT: entry:			; NVPTX-NEXT: entry:
	; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
	; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; NVPTX-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; NVPTX-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; NVPTX-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; NVPTX-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; NVPTX-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; NVPTX: is_worker_check:
	; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; NVPTX: worker_state_machine.begin:			; NVPTX: worker_state_machine.begin:
	; NVPTX-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; NVPTX-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
	; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
	; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; NVPTX: worker_state_machine.finished:			; NVPTX: worker_state_machine.finished:
	; NVPTX-NEXT: ret void			; NVPTX-NEXT: ret void
	; NVPTX: worker_state_machine.is_active.check:			; NVPTX: worker_state_machine.is_active.check:
	; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; NVPTX: worker_state_machine.parallel_region.check:			; NVPTX: worker_state_machine.parallel_region.check:
	; NVPTX-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], @__omp_outlined__19_wrapper			; NVPTX-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], @__omp_outlined__19_wrapper
	; NVPTX-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]			; NVPTX-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]
	; NVPTX: worker_state_machine.parallel_region.execute:			; NVPTX: worker_state_machine.parallel_region.execute:
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; NVPTX: Function Attrs: convergent noinline norecurse nounwind			; NVPTX: Function Attrs: convergent noinline norecurse nounwind
	; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_no_state_machine_weak_callee_l112			; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a36502b_no_state_machine_weak_callee_l112
	; NVPTX-SAME: () #[[ATTR0]] {			; NVPTX-SAME: () #[[ATTR0]] {
	; NVPTX-NEXT: entry:			; NVPTX-NEXT: entry:
	; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
	; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; NVPTX-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; NVPTX-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; NVPTX-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; NVPTX-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; NVPTX-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; NVPTX: is_worker_check:
	; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; NVPTX: worker_state_machine.begin:			; NVPTX: worker_state_machine.begin:
	; NVPTX-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; NVPTX-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
	; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
	; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; NVPTX: worker_state_machine.finished:			; NVPTX: worker_state_machine.finished:
	; NVPTX-NEXT: ret void			; NVPTX-NEXT: ret void
	; NVPTX: worker_state_machine.is_active.check:			; NVPTX: worker_state_machine.is_active.check:
	; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; NVPTX: worker_state_machine.parallel_region.fallback.execute:			; NVPTX: worker_state_machine.parallel_region.fallback.execute:
	; NVPTX-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])			; NVPTX-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
	; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
	; NVPTX: worker_state_machine.parallel_region.end:			; NVPTX: worker_state_machine.parallel_region.end:
	▲ Show 20 Lines • Show All 1,595 Lines • Show Last 20 Lines

llvm/test/Transforms/OpenMP/spmdization.ll

	Show First 20 Lines • Show All 178 Lines • ▼ Show 20 Lines
	; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_l5			; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_l5
	; AMDGPU-DISABLED-SAME: () #[[ATTR0:[0-9]+]] {			; AMDGPU-DISABLED-SAME: () #[[ATTR0:[0-9]+]] {
	; AMDGPU-DISABLED-NEXT: entry:			; AMDGPU-DISABLED-NEXT: entry:
	; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)			; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
	; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; AMDGPU-DISABLED-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; AMDGPU-DISABLED-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; AMDGPU-DISABLED-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; AMDGPU-DISABLED-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; AMDGPU-DISABLED-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; AMDGPU-DISABLED: is_worker_check:
	; AMDGPU-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; AMDGPU-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; AMDGPU-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; AMDGPU-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; AMDGPU-DISABLED: worker_state_machine.begin:			; AMDGPU-DISABLED: worker_state_machine.begin:
	; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**			; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
	; AMDGPU-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])			; AMDGPU-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
	; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8			; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
	; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; AMDGPU-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; AMDGPU-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; AMDGPU-DISABLED: worker_state_machine.finished:			; AMDGPU-DISABLED: worker_state_machine.finished:
	; AMDGPU-DISABLED-NEXT: ret void			; AMDGPU-DISABLED-NEXT: ret void
	; AMDGPU-DISABLED: worker_state_machine.is_active.check:			; AMDGPU-DISABLED: worker_state_machine.is_active.check:
	; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; AMDGPU-DISABLED: worker_state_machine.parallel_region.check:			; AMDGPU-DISABLED: worker_state_machine.parallel_region.check:
	; AMDGPU-DISABLED-NEXT: br i1 true, label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]			; AMDGPU-DISABLED-NEXT: br i1 true, label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; AMDGPU-DISABLED: worker_state_machine.parallel_region.execute:			; AMDGPU-DISABLED: worker_state_machine.parallel_region.execute:
	; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__1_wrapper(i16 0, i32 [[TMP0]])			; AMDGPU-DISABLED-NEXT: call void @__omp_outlined__1_wrapper(i16 0, i32 [[TMP0]])
	Show All 21 Lines
	; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_l5			; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_l5
	; NVPTX-DISABLED-SAME: () #[[ATTR0:[0-9]+]] {			; NVPTX-DISABLED-SAME: () #[[ATTR0:[0-9]+]] {
	; NVPTX-DISABLED-NEXT: entry:			; NVPTX-DISABLED-NEXT: entry:
	; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
	; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; NVPTX-DISABLED-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; NVPTX-DISABLED-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; NVPTX-DISABLED-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; NVPTX-DISABLED-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; NVPTX-DISABLED-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; NVPTX-DISABLED: is_worker_check:
	; NVPTX-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; NVPTX-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; NVPTX-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; NVPTX-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; NVPTX-DISABLED: worker_state_machine.begin:			; NVPTX-DISABLED: worker_state_machine.begin:
	; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; NVPTX-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; NVPTX-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
	; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
	; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; NVPTX-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; NVPTX-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; NVPTX-DISABLED: worker_state_machine.finished:			; NVPTX-DISABLED: worker_state_machine.finished:
	; NVPTX-DISABLED-NEXT: ret void			; NVPTX-DISABLED-NEXT: ret void
	; NVPTX-DISABLED: worker_state_machine.is_active.check:			; NVPTX-DISABLED: worker_state_machine.is_active.check:
	; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; NVPTX-DISABLED: worker_state_machine.parallel_region.check:			; NVPTX-DISABLED: worker_state_machine.parallel_region.check:
	; NVPTX-DISABLED-NEXT: br i1 true, label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]			; NVPTX-DISABLED-NEXT: br i1 true, label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; NVPTX-DISABLED: worker_state_machine.parallel_region.execute:			; NVPTX-DISABLED: worker_state_machine.parallel_region.execute:
	; NVPTX-DISABLED-NEXT: call void @__omp_outlined__1_wrapper(i16 0, i32 [[TMP0]])			; NVPTX-DISABLED-NEXT: call void @__omp_outlined__1_wrapper(i16 0, i32 [[TMP0]])
	▲ Show 20 Lines • Show All 380 Lines • ▼ Show 20 Lines
	; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20			; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20
	; AMDGPU-DISABLED-SAME: () #[[ATTR0]] {			; AMDGPU-DISABLED-SAME: () #[[ATTR0]] {
	; AMDGPU-DISABLED-NEXT: entry:			; AMDGPU-DISABLED-NEXT: entry:
	; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)			; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
	; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; AMDGPU-DISABLED-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; AMDGPU-DISABLED-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; AMDGPU-DISABLED-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; AMDGPU-DISABLED-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; AMDGPU-DISABLED-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; AMDGPU-DISABLED: is_worker_check:
	; AMDGPU-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; AMDGPU-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; AMDGPU-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; AMDGPU-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; AMDGPU-DISABLED: worker_state_machine.begin:			; AMDGPU-DISABLED: worker_state_machine.begin:
	; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**			; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
	; AMDGPU-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])			; AMDGPU-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
	; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8			; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
	; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; AMDGPU-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; AMDGPU-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; AMDGPU-DISABLED: worker_state_machine.finished:			; AMDGPU-DISABLED: worker_state_machine.finished:
	; AMDGPU-DISABLED-NEXT: ret void			; AMDGPU-DISABLED-NEXT: ret void
	; AMDGPU-DISABLED: worker_state_machine.is_active.check:			; AMDGPU-DISABLED: worker_state_machine.is_active.check:
	; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; AMDGPU-DISABLED: worker_state_machine.parallel_region.check:			; AMDGPU-DISABLED: worker_state_machine.parallel_region.check:
	; AMDGPU-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__3_wrapper.ID to void (i16, i32)*)			; AMDGPU-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__3_wrapper.ID to void (i16, i32)*)
	; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]			; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]
	; AMDGPU-DISABLED: worker_state_machine.parallel_region.execute:			; AMDGPU-DISABLED: worker_state_machine.parallel_region.execute:
	Show All 23 Lines
	; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20			; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_stack_var_l20
	; NVPTX-DISABLED-SAME: () #[[ATTR0]] {			; NVPTX-DISABLED-SAME: () #[[ATTR0]] {
	; NVPTX-DISABLED-NEXT: entry:			; NVPTX-DISABLED-NEXT: entry:
	; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
	; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; NVPTX-DISABLED-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; NVPTX-DISABLED-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; NVPTX-DISABLED-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; NVPTX-DISABLED-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; NVPTX-DISABLED-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; NVPTX-DISABLED: is_worker_check:
	; NVPTX-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; NVPTX-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; NVPTX-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; NVPTX-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; NVPTX-DISABLED: worker_state_machine.begin:			; NVPTX-DISABLED: worker_state_machine.begin:
	; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; NVPTX-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; NVPTX-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
	; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
	; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; NVPTX-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; NVPTX-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; NVPTX-DISABLED: worker_state_machine.finished:			; NVPTX-DISABLED: worker_state_machine.finished:
	; NVPTX-DISABLED-NEXT: ret void			; NVPTX-DISABLED-NEXT: ret void
	; NVPTX-DISABLED: worker_state_machine.is_active.check:			; NVPTX-DISABLED: worker_state_machine.is_active.check:
	; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; NVPTX-DISABLED: worker_state_machine.parallel_region.check:			; NVPTX-DISABLED: worker_state_machine.parallel_region.check:
	; NVPTX-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__3_wrapper.ID to void (i16, i32)*)			; NVPTX-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__3_wrapper.ID to void (i16, i32)*)
	; NVPTX-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]			; NVPTX-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]
	; NVPTX-DISABLED: worker_state_machine.parallel_region.execute:			; NVPTX-DISABLED: worker_state_machine.parallel_region.execute:
	▲ Show 20 Lines • Show All 363 Lines • ▼ Show 20 Lines
	; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35			; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35
	; AMDGPU-DISABLED-SAME: () #[[ATTR0]] {			; AMDGPU-DISABLED-SAME: () #[[ATTR0]] {
	; AMDGPU-DISABLED-NEXT: entry:			; AMDGPU-DISABLED-NEXT: entry:
	; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)			; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
	; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; AMDGPU-DISABLED-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; AMDGPU-DISABLED-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; AMDGPU-DISABLED-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; AMDGPU-DISABLED-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; AMDGPU-DISABLED-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; AMDGPU-DISABLED: is_worker_check:
	; AMDGPU-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; AMDGPU-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; AMDGPU-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; AMDGPU-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; AMDGPU-DISABLED: worker_state_machine.begin:			; AMDGPU-DISABLED: worker_state_machine.begin:
	; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**			; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
	; AMDGPU-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])			; AMDGPU-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
	; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8			; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
	; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; AMDGPU-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; AMDGPU-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; AMDGPU-DISABLED: worker_state_machine.finished:			; AMDGPU-DISABLED: worker_state_machine.finished:
	; AMDGPU-DISABLED-NEXT: ret void			; AMDGPU-DISABLED-NEXT: ret void
	; AMDGPU-DISABLED: worker_state_machine.is_active.check:			; AMDGPU-DISABLED: worker_state_machine.is_active.check:
	; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; AMDGPU-DISABLED: worker_state_machine.parallel_region.check:			; AMDGPU-DISABLED: worker_state_machine.parallel_region.check:
	; AMDGPU-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__5_wrapper.ID to void (i16, i32)*)			; AMDGPU-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__5_wrapper.ID to void (i16, i32)*)
	; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]			; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]
	; AMDGPU-DISABLED: worker_state_machine.parallel_region.execute:			; AMDGPU-DISABLED: worker_state_machine.parallel_region.execute:
	Show All 23 Lines
	; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35			; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_l35
	; NVPTX-DISABLED-SAME: () #[[ATTR0]] {			; NVPTX-DISABLED-SAME: () #[[ATTR0]] {
	; NVPTX-DISABLED-NEXT: entry:			; NVPTX-DISABLED-NEXT: entry:
	; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
	; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; NVPTX-DISABLED-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; NVPTX-DISABLED-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; NVPTX-DISABLED-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; NVPTX-DISABLED-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; NVPTX-DISABLED-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; NVPTX-DISABLED: is_worker_check:
	; NVPTX-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; NVPTX-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; NVPTX-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; NVPTX-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; NVPTX-DISABLED: worker_state_machine.begin:			; NVPTX-DISABLED: worker_state_machine.begin:
	; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; NVPTX-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; NVPTX-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
	; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
	; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; NVPTX-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; NVPTX-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; NVPTX-DISABLED: worker_state_machine.finished:			; NVPTX-DISABLED: worker_state_machine.finished:
	; NVPTX-DISABLED-NEXT: ret void			; NVPTX-DISABLED-NEXT: ret void
	; NVPTX-DISABLED: worker_state_machine.is_active.check:			; NVPTX-DISABLED: worker_state_machine.is_active.check:
	; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; NVPTX-DISABLED: worker_state_machine.parallel_region.check:			; NVPTX-DISABLED: worker_state_machine.parallel_region.check:
	; NVPTX-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__5_wrapper.ID to void (i16, i32)*)			; NVPTX-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__5_wrapper.ID to void (i16, i32)*)
	; NVPTX-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]			; NVPTX-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]
	; NVPTX-DISABLED: worker_state_machine.parallel_region.execute:			; NVPTX-DISABLED: worker_state_machine.parallel_region.execute:
	▲ Show 20 Lines • Show All 403 Lines • ▼ Show 20 Lines
	; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50			; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50
	; AMDGPU-DISABLED-SAME: () #[[ATTR0]] {			; AMDGPU-DISABLED-SAME: () #[[ATTR0]] {
	; AMDGPU-DISABLED-NEXT: entry:			; AMDGPU-DISABLED-NEXT: entry:
	; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)			; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
	; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; AMDGPU-DISABLED-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; AMDGPU-DISABLED-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; AMDGPU-DISABLED-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; AMDGPU-DISABLED-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; AMDGPU-DISABLED-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; AMDGPU-DISABLED: is_worker_check:
	; AMDGPU-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; AMDGPU-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; AMDGPU-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; AMDGPU-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; AMDGPU-DISABLED: worker_state_machine.begin:			; AMDGPU-DISABLED: worker_state_machine.begin:
	; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**			; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
	; AMDGPU-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])			; AMDGPU-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
	; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8			; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
	; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; AMDGPU-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; AMDGPU-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; AMDGPU-DISABLED: worker_state_machine.finished:			; AMDGPU-DISABLED: worker_state_machine.finished:
	; AMDGPU-DISABLED-NEXT: ret void			; AMDGPU-DISABLED-NEXT: ret void
	; AMDGPU-DISABLED: worker_state_machine.is_active.check:			; AMDGPU-DISABLED: worker_state_machine.is_active.check:
	; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; AMDGPU-DISABLED: worker_state_machine.parallel_region.check:			; AMDGPU-DISABLED: worker_state_machine.parallel_region.check:
	; AMDGPU-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__7_wrapper.ID to void (i16, i32)*)			; AMDGPU-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__7_wrapper.ID to void (i16, i32)*)
	; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]			; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]
	; AMDGPU-DISABLED: worker_state_machine.parallel_region.execute:			; AMDGPU-DISABLED: worker_state_machine.parallel_region.execute:
	Show All 23 Lines
	; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50			; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_sequential_loop_to_shared_var_guarded_l50
	; NVPTX-DISABLED-SAME: () #[[ATTR0]] {			; NVPTX-DISABLED-SAME: () #[[ATTR0]] {
	; NVPTX-DISABLED-NEXT: entry:			; NVPTX-DISABLED-NEXT: entry:
	; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
	; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; NVPTX-DISABLED-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; NVPTX-DISABLED-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; NVPTX-DISABLED-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; NVPTX-DISABLED-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; NVPTX-DISABLED-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; NVPTX-DISABLED: is_worker_check:
	; NVPTX-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; NVPTX-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; NVPTX-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; NVPTX-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; NVPTX-DISABLED: worker_state_machine.begin:			; NVPTX-DISABLED: worker_state_machine.begin:
	; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; NVPTX-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; NVPTX-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
	; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
	; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; NVPTX-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; NVPTX-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; NVPTX-DISABLED: worker_state_machine.finished:			; NVPTX-DISABLED: worker_state_machine.finished:
	; NVPTX-DISABLED-NEXT: ret void			; NVPTX-DISABLED-NEXT: ret void
	; NVPTX-DISABLED: worker_state_machine.is_active.check:			; NVPTX-DISABLED: worker_state_machine.is_active.check:
	; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; NVPTX-DISABLED: worker_state_machine.parallel_region.check:			; NVPTX-DISABLED: worker_state_machine.parallel_region.check:
	; NVPTX-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__7_wrapper.ID to void (i16, i32)*)			; NVPTX-DISABLED-NEXT: [[WORKER_CHECK_PARALLEL_REGION:%.]] = icmp eq void (i16, i32) [[WORKER_WORK_FN_ADDR_CAST]], bitcast (i8* @__omp_outlined__7_wrapper.ID to void (i16, i32)*)
	; NVPTX-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]			; NVPTX-DISABLED-NEXT: br i1 [[WORKER_CHECK_PARALLEL_REGION]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]]
	; NVPTX-DISABLED: worker_state_machine.parallel_region.execute:			; NVPTX-DISABLED: worker_state_machine.parallel_region.execute:
	▲ Show 20 Lines • Show All 403 Lines • ▼ Show 20 Lines
	;			;
	; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_do_not_spmdize_target_l65			; AMDGPU-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_do_not_spmdize_target_l65
	; AMDGPU-SAME: () #[[ATTR0]] {			; AMDGPU-SAME: () #[[ATTR0]] {
	; AMDGPU-NEXT: entry:			; AMDGPU-NEXT: entry:
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
	; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; AMDGPU-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; AMDGPU-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; AMDGPU-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; AMDGPU-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; AMDGPU-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; AMDGPU-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; AMDGPU: is_worker_check:
	; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; AMDGPU-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; AMDGPU-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; AMDGPU: worker_state_machine.begin:			; AMDGPU: worker_state_machine.begin:
	; AMDGPU-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
	; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])			; AMDGPU-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
	; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8			; AMDGPU-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
	; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; AMDGPU-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; AMDGPU-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; AMDGPU: worker_state_machine.finished:			; AMDGPU: worker_state_machine.finished:
	; AMDGPU-NEXT: ret void			; AMDGPU-NEXT: ret void
	; AMDGPU: worker_state_machine.is_active.check:			; AMDGPU: worker_state_machine.is_active.check:
	; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; AMDGPU-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; AMDGPU: worker_state_machine.parallel_region.fallback.execute:			; AMDGPU: worker_state_machine.parallel_region.fallback.execute:
	; AMDGPU-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])			; AMDGPU-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
	; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]			; AMDGPU-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
	; AMDGPU: worker_state_machine.parallel_region.end:			; AMDGPU: worker_state_machine.parallel_region.end:
	Show All 15 Lines
	;			;
	; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_do_not_spmdize_target_l65			; NVPTX-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_do_not_spmdize_target_l65
	; NVPTX-SAME: () #[[ATTR0]] {			; NVPTX-SAME: () #[[ATTR0]] {
	; NVPTX-NEXT: entry:			; NVPTX-NEXT: entry:
	; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
	; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; NVPTX-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; NVPTX-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; NVPTX-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; NVPTX-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; NVPTX-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; NVPTX-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; NVPTX-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; NVPTX: is_worker_check:
	; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; NVPTX-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; NVPTX-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; NVPTX: worker_state_machine.begin:			; NVPTX: worker_state_machine.begin:
	; NVPTX-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; NVPTX-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; NVPTX-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
	; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; NVPTX-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
	; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; NVPTX-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; NVPTX-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; NVPTX-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; NVPTX: worker_state_machine.finished:			; NVPTX: worker_state_machine.finished:
	; NVPTX-NEXT: ret void			; NVPTX-NEXT: ret void
	; NVPTX: worker_state_machine.is_active.check:			; NVPTX: worker_state_machine.is_active.check:
	; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; NVPTX-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; NVPTX: worker_state_machine.parallel_region.fallback.execute:			; NVPTX: worker_state_machine.parallel_region.fallback.execute:
	; NVPTX-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])			; NVPTX-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
	; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]			; NVPTX-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
	; NVPTX: worker_state_machine.parallel_region.end:			; NVPTX: worker_state_machine.parallel_region.end:
	Show All 16 Lines
	; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_do_not_spmdize_target_l65			; AMDGPU-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_do_not_spmdize_target_l65
	; AMDGPU-DISABLED-SAME: () #[[ATTR0]] {			; AMDGPU-DISABLED-SAME: () #[[ATTR0]] {
	; AMDGPU-DISABLED-NEXT: entry:			; AMDGPU-DISABLED-NEXT: entry:
	; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)			; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8, addrspace(5)
	; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; AMDGPU-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; AMDGPU-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; AMDGPU-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; AMDGPU-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; AMDGPU-DISABLED-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; AMDGPU-DISABLED-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; AMDGPU-DISABLED-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; AMDGPU-DISABLED-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; AMDGPU-DISABLED-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; AMDGPU-DISABLED: is_worker_check:
	; AMDGPU-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; AMDGPU-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; AMDGPU-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; AMDGPU-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; AMDGPU-DISABLED: worker_state_machine.begin:			; AMDGPU-DISABLED: worker_state_machine.begin:
	; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; AMDGPU-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**			; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_GENERIC:%.]] = addrspacecast i8 addrspace(5)* [[WORKER_WORK_FN_ADDR]] to i8**
	; AMDGPU-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])			; AMDGPU-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR_GENERIC]])
	; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8			; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR_GENERIC]], align 8
	; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; AMDGPU-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; AMDGPU-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; AMDGPU-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; AMDGPU-DISABLED: worker_state_machine.finished:			; AMDGPU-DISABLED: worker_state_machine.finished:
	; AMDGPU-DISABLED-NEXT: ret void			; AMDGPU-DISABLED-NEXT: ret void
	; AMDGPU-DISABLED: worker_state_machine.is_active.check:			; AMDGPU-DISABLED: worker_state_machine.is_active.check:
	; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; AMDGPU-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; AMDGPU-DISABLED: worker_state_machine.parallel_region.fallback.execute:			; AMDGPU-DISABLED: worker_state_machine.parallel_region.fallback.execute:
	; AMDGPU-DISABLED-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])			; AMDGPU-DISABLED-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
	; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]			; AMDGPU-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
	; AMDGPU-DISABLED: worker_state_machine.parallel_region.end:			; AMDGPU-DISABLED: worker_state_machine.parallel_region.end:
	Show All 16 Lines
	; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_do_not_spmdize_target_l65			; NVPTX-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_14_a34ca11_do_not_spmdize_target_l65
	; NVPTX-DISABLED-SAME: () #[[ATTR0]] {			; NVPTX-DISABLED-SAME: () #[[ATTR0]] {
	; NVPTX-DISABLED-NEXT: entry:			; NVPTX-DISABLED-NEXT: entry:
	; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
	; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			; NVPTX-DISABLED-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			; NVPTX-DISABLED-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			; NVPTX-DISABLED-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)			; NVPTX-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 false, i1 true)
				; NVPTX-DISABLED-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; NVPTX-DISABLED-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; NVPTX-DISABLED-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; NVPTX-DISABLED-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; NVPTX-DISABLED-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; NVPTX-DISABLED: is_worker_check:
	; NVPTX-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; NVPTX-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; NVPTX-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; NVPTX-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; NVPTX-DISABLED: worker_state_machine.begin:			; NVPTX-DISABLED: worker_state_machine.begin:
	; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; NVPTX-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; NVPTX-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; NVPTX-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
	; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
	; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; NVPTX-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; NVPTX-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; NVPTX-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; NVPTX-DISABLED: worker_state_machine.finished:			; NVPTX-DISABLED: worker_state_machine.finished:
	; NVPTX-DISABLED-NEXT: ret void			; NVPTX-DISABLED-NEXT: ret void
	; NVPTX-DISABLED: worker_state_machine.is_active.check:			; NVPTX-DISABLED: worker_state_machine.is_active.check:
	; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; NVPTX-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_FALLBACK_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; NVPTX-DISABLED: worker_state_machine.parallel_region.fallback.execute:			; NVPTX-DISABLED: worker_state_machine.parallel_region.fallback.execute:
	; NVPTX-DISABLED-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])			; NVPTX-DISABLED-NEXT: call void [[WORKER_WORK_FN_ADDR_CAST]](i16 0, i32 [[TMP0]])
	; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]			; NVPTX-DISABLED-NEXT: br label [[WORKER_STATE_MACHINE_PARALLEL_REGION_END:%.*]]
	; NVPTX-DISABLED: worker_state_machine.parallel_region.end:			; NVPTX-DISABLED: worker_state_machine.parallel_region.end:
	▲ Show 20 Lines • Show All 225 Lines • Show Last 20 Lines

llvm/test/Transforms/OpenMP/spmdization_guarding.ll

	Show First 20 Lines • Show All 171 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: ret void			; CHECK-NEXT: ret void
	;			;
	; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_2a_fbfa7a_sequential_loop_l6			; CHECK-DISABLED-LABEL: define {{[^@]+}}@__omp_offloading_2a_fbfa7a_sequential_loop_l6
	; CHECK-DISABLED-SAME: (i32* [[X:%.]], i64 [[N:%.]]) #[[ATTR0:[0-9]+]] {			; CHECK-DISABLED-SAME: (i32* [[X:%.]], i64 [[N:%.]]) #[[ATTR0:[0-9]+]] {
	; CHECK-DISABLED-NEXT: entry:			; CHECK-DISABLED-NEXT: entry:
	; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8			; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR:%.]] = alloca i8, align 8
	; CHECK-DISABLED-NEXT: [[N_ADDR_SROA_0_0_EXTRACT_TRUNC:%.*]] = trunc i64 [[N]] to i32			; CHECK-DISABLED-NEXT: [[N_ADDR_SROA_0_0_EXTRACT_TRUNC:%.*]] = trunc i64 [[N]] to i32
	; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t nonnull @[[GLOB1]], i8 1, i1 false, i1 true) #[[ATTR4:[0-9]+]]			; CHECK-DISABLED-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t nonnull @[[GLOB1]], i8 1, i1 false, i1 true) #[[ATTR4:[0-9]+]]
				; CHECK-DISABLED-NEXT: [[BLOCK_HW_SIZE:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
				; CHECK-DISABLED-NEXT: [[WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
				; CHECK-DISABLED-NEXT: [[BLOCK_SIZE:%.*]] = sub i32 [[BLOCK_HW_SIZE]], [[WARP_SIZE]]
				; CHECK-DISABLED-NEXT: [[THREAD_IS_MAIN_OR_WORKER:%.*]] = icmp slt i32 [[TMP0]], [[BLOCK_SIZE]]
				; CHECK-DISABLED-NEXT: br i1 [[THREAD_IS_MAIN_OR_WORKER]], label [[IS_WORKER_CHECK:%.]], label [[WORKER_STATE_MACHINE_FINISHED:%.]]
				; CHECK-DISABLED: is_worker_check:
	; CHECK-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1			; CHECK-DISABLED-NEXT: [[THREAD_IS_WORKER:%.*]] = icmp ne i32 [[TMP0]], -1
	; CHECK-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]			; CHECK-DISABLED-NEXT: br i1 [[THREAD_IS_WORKER]], label [[WORKER_STATE_MACHINE_BEGIN:%.]], label [[THREAD_USER_CODE_CHECK:%.]]
	; CHECK-DISABLED: worker_state_machine.begin:			; CHECK-DISABLED: worker_state_machine.begin:
	; CHECK-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])			; CHECK-DISABLED-NEXT: call void @__kmpc_barrier_simple_generic(%struct.ident_t* @[[GLOB1]], i32 [[TMP0]])
	; CHECK-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])			; CHECK-DISABLED-NEXT: [[WORKER_IS_ACTIVE:%.]] = call i1 @__kmpc_kernel_parallel(i8* [[WORKER_WORK_FN_ADDR]])
	; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8			; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN:%.]] = load i8, i8** [[WORKER_WORK_FN_ADDR]], align 8
	; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*			; CHECK-DISABLED-NEXT: [[WORKER_WORK_FN_ADDR_CAST:%.]] = bitcast i8 [[WORKER_WORK_FN]] to void (i16, i32)*
	; CHECK-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null			; CHECK-DISABLED-NEXT: [[WORKER_IS_DONE:%.]] = icmp eq i8 [[WORKER_WORK_FN]], null
	; CHECK-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED:%.]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.]]			; CHECK-DISABLED-NEXT: br i1 [[WORKER_IS_DONE]], label [[WORKER_STATE_MACHINE_FINISHED]], label [[WORKER_STATE_MACHINE_IS_ACTIVE_CHECK:%.*]]
	; CHECK-DISABLED: worker_state_machine.finished:			; CHECK-DISABLED: worker_state_machine.finished:
	; CHECK-DISABLED-NEXT: ret void			; CHECK-DISABLED-NEXT: ret void
	; CHECK-DISABLED: worker_state_machine.is_active.check:			; CHECK-DISABLED: worker_state_machine.is_active.check:
	; CHECK-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]			; CHECK-DISABLED-NEXT: br i1 [[WORKER_IS_ACTIVE]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK:%.]], label [[WORKER_STATE_MACHINE_DONE_BARRIER:%.]]
	; CHECK-DISABLED: worker_state_machine.parallel_region.check:			; CHECK-DISABLED: worker_state_machine.parallel_region.check:
	; CHECK-DISABLED-NEXT: br i1 true, label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]			; CHECK-DISABLED-NEXT: br i1 true, label [[WORKER_STATE_MACHINE_PARALLEL_REGION_EXECUTE:%.]], label [[WORKER_STATE_MACHINE_PARALLEL_REGION_CHECK1:%.]]
	; CHECK-DISABLED: worker_state_machine.parallel_region.execute:			; CHECK-DISABLED: worker_state_machine.parallel_region.execute:
	; CHECK-DISABLED-NEXT: call void @__omp_outlined__1_wrapper(i16 0, i32 [[TMP0]])			; CHECK-DISABLED-NEXT: call void @__omp_outlined__1_wrapper(i16 0, i32 [[TMP0]])
	▲ Show 20 Lines • Show All 224 Lines • Show Last 20 Lines

openmp/libomptarget/DeviceRTL/src/Kernel.cpp

Show First 20 Lines • Show All 80 Lines • ▼ Show 20 Lines	int32_t __kmpc_target_init(IdentTy *Ident, int8_t Mode,
if (IsSPMD) {		if (IsSPMD) {
state::assumeInitialState(IsSPMD);		state::assumeInitialState(IsSPMD);
return -1;		return -1;
}		}

if (mapping::isInitialThreadInLevel0(IsSPMD))		if (mapping::isInitialThreadInLevel0(IsSPMD))
return -1;		return -1;

if (UseGenericStateMachine)		// Enter the generic state machine if enabled and if this thread can possibly
		// be an active worker thread.
		//
		// The latter check is important for NVIDIA Pascal (but not Volta) and AMD
		// GPU. In those cases, a single thread can apparently satisfy a barrier on
		// behalf of all threads in the same warp. Thus, it would not be safe for
		// other threads in the main thread's warp to reach the first
		// synchronize::threads call in genericStateMachine before the main thread
		// reaches its corresponding synchronize::threads call: that would permit all
		// active worker threads to proceed before the main thread has actually set
		// state::ParallelRegionFn, and then they would immediately quit without
		// doing any work. mapping::getBlockSize() does not include any of the main
		// thread's warp, so none of its threads can ever be active worker threads.
		if (UseGenericStateMachine &&
		mapping::getThreadIdInBlock() < mapping::getBlockSize())
		jdoerfertUnsubmitted Done Reply Inline Actions -master +main jdoerfert: -master +main
genericStateMachine(Ident);		genericStateMachine(Ident);

return mapping::getThreadIdInBlock();		return mapping::getThreadIdInBlock();
}		}

/// De-Initialization		/// De-Initialization
///		///
/// In non-SPMD, this function releases the workers trapped in a state machine		/// In non-SPMD, this function releases the workers trapped in a state machine
Show All 22 Lines

openmp/libomptarget/deviceRTLs/common/src/omptarget.cu

Show First 20 Lines • Show All 219 Lines • ▼ Show 20 Lines	int32_t __kmpc_target_init(ident_t *Ident, int8_t Mode,
if (IsSPMD) {		if (IsSPMD) {
__kmpc_barrier_simple_spmd(Ident, TId);		__kmpc_barrier_simple_spmd(Ident, TId);
return -1;		return -1;
}		}

if (TId == GetMasterThreadID())		if (TId == GetMasterThreadID())
return -1;		return -1;

if (UseGenericStateMachine)		// Enter the generic state machine if enabled and if this thread can possibly
		// be an active worker thread.
		//
		// The latter check is important for NVIDIA Pascal (but not Volta) and AMD
		// GPU. In those cases, a single thread can apparently satisfy a barrier on
		// behalf of all threads in the same warp. Thus, it would not be safe for
		// other threads in the main thread's warp to reach the first
		// __kmpc_barrier_simple_spmd call in __kmpc_target_region_state_machine
		// before the main thread reaches its corresponding
		// __kmpc_barrier_simple_spmd call: that would permit all active worker
		// threads to proceed before the main thread has actually set
		// omptarget_nvptx_workFn, and then they would immediately quit without
		// doing any work. GetNumberOfWorkersInTeam() does not include any of the
		// main thread's warp, so none of its threads can ever be active worker
		// threads.
		if (UseGenericStateMachine && TId < GetNumberOfWorkersInTeam())
__kmpc_target_region_state_machine(Ident);		__kmpc_target_region_state_machine(Ident);

return TId;		return TId;
}		}

EXTERN		EXTERN
void __kmpc_target_deinit(ident_t *Ident, int8_t Mode,		void __kmpc_target_deinit(ident_t *Ident, int8_t Mode,
bool RequiresFullRuntime) {		bool RequiresFullRuntime) {
const bool IsSPMD = Mode & OMP_TGT_EXEC_MODE_SPMD;		const bool IsSPMD = Mode & OMP_TGT_EXEC_MODE_SPMD;
if (IsSPMD)		if (IsSPMD)
__kmpc_spmd_kernel_deinit(RequiresFullRuntime);		__kmpc_spmd_kernel_deinit(RequiresFullRuntime);
else		else
__kmpc_generic_kernel_deinit();		__kmpc_generic_kernel_deinit();
}		}

#pragma omp end declare target		#pragma omp end declare target

openmp/libomptarget/deviceRTLs/common/src/support.cu

Show First 20 Lines • Show All 225 Lines • ▼ Show 20 Lines	#include "common/generated_microtask_cases.gen"
}		}
}		}

namespace _OMP {		namespace _OMP {
/// Helper to keep code alive without introducing a performance penalty.		/// Helper to keep code alive without introducing a performance penalty.
__attribute__((used, weak, optnone)) void keepAlive() {		__attribute__((used, weak, optnone)) void keepAlive() {
__kmpc_get_hardware_thread_id_in_block();		__kmpc_get_hardware_thread_id_in_block();
__kmpc_get_hardware_num_threads_in_block();		__kmpc_get_hardware_num_threads_in_block();
		__kmpc_get_warp_size();
__kmpc_barrier_simple_spmd(nullptr, 0);		__kmpc_barrier_simple_spmd(nullptr, 0);
__kmpc_barrier_simple_generic(nullptr, 0);		__kmpc_barrier_simple_generic(nullptr, 0);
}		}
} // namespace _OMP		} // namespace _OMP

#pragma omp end declare target		#pragma omp end declare target

openmp/libomptarget/deviceRTLs/target_interface.h

	Show All 17 Lines
	#include "DeviceEnvironment.h"			#include "DeviceEnvironment.h"
	#include "target_impl.h"			#include "target_impl.h"

	// Calls to the NVPTX layer (assuming 1D layout)			// Calls to the NVPTX layer (assuming 1D layout)
	EXTERN int __kmpc_get_hardware_thread_id_in_block();			EXTERN int __kmpc_get_hardware_thread_id_in_block();
	EXTERN int GetBlockIdInKernel();			EXTERN int GetBlockIdInKernel();
	EXTERN NOINLINE int __kmpc_get_hardware_num_blocks();			EXTERN NOINLINE int __kmpc_get_hardware_num_blocks();
	EXTERN NOINLINE int __kmpc_get_hardware_num_threads_in_block();			EXTERN NOINLINE int __kmpc_get_hardware_num_threads_in_block();
				EXTERN unsigned __kmpc_get_warp_size();
	EXTERN unsigned GetWarpId();			EXTERN unsigned GetWarpId();
	EXTERN unsigned GetWarpSize();			EXTERN unsigned GetWarpSize();
	EXTERN unsigned GetLaneId();			EXTERN unsigned GetLaneId();

	// Atomics			// Atomics
	uint32_t __kmpc_atomic_add(uint32_t *, uint32_t);			uint32_t __kmpc_atomic_add(uint32_t *, uint32_t);
	uint32_t __kmpc_atomic_inc(uint32_t *, uint32_t);			uint32_t __kmpc_atomic_inc(uint32_t *, uint32_t);
	uint32_t __kmpc_atomic_max(uint32_t *, uint32_t);			uint32_t __kmpc_atomic_max(uint32_t *, uint32_t);
	▲ Show 20 Lines • Show All 45 Lines • Show Last 20 Lines

openmp/libomptarget/test/offloading/bug51781.c

This file was added.

				// Use the generic state machine. On some architectures, other threads in the
				// main thread's warp must avoid barrier instructions.
				//
				// RUN: %libomptarget-compile-run-and-check-generic

				// SPMDize. There is no main thread, so there's no issue.
				//
				// RUN: %libomptarget-compile-generic -O1 -Rpass=openmp-opt > %t.spmd 2>&1
				// RUN: %fcheck-nvptx64-nvidia-cuda -check-prefix=SPMD -input-file=%t.spmd
				// RUN: %fcheck-amdgcn-amd-amdhsa -check-prefix=SPMD -input-file=%t.spmd
				// RUN: %libomptarget-run-generic 2>&1 \| %fcheck-generic
				//
				// SPMD: Transformed generic-mode kernel to SPMD-mode.

				// Use the custom state machine, which must avoid the same barrier problem as
				// the generic state machine.
				//
				// RUN: %libomptarget-compile-generic -O1 -Rpass=openmp-opt \
				// RUN: -mllvm -openmp-opt-disable-spmdization > %t.custom 2>&1
				// RUN: %fcheck-nvptx64-nvidia-cuda -check-prefix=CUSTOM -input-file=%t.custom
				// RUN: %fcheck-amdgcn-amd-amdhsa -check-prefix=CUSTOM -input-file=%t.custom
				// RUN: %libomptarget-run-generic 2>&1 \| %fcheck-generic
				//
				// CUSTOM: Rewriting generic-mode kernel with a customized state machine.

				#include <stdio.h>
				int main() {
				int x = 0, y = 1;
				#pragma omp target teams num_teams(1) map(tofrom:x, y)
				{
				x = 5;
				#pragma omp parallel
				y = 6;
				}
				// CHECK: 5, 6
				printf("%d, %d\n", x, y);
				return 0;
				}