Diff 385704

clang/lib/CodeGen/CGOpenMPRuntimeAMDGCN.h

This file was deleted.

	//===--- CGOpenMPRuntimeAMDGCN.h - Interface to OpenMP AMDGCN Runtimes ---===//
	//
	// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
	// See https://llvm.org/LICENSE.txt for license information.
	// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
	//
	//===----------------------------------------------------------------------===//
	//
	// This provides a class for OpenMP runtime code generation specialized to
	// AMDGCN targets from generalized CGOpenMPRuntimeGPU class.
	//
	//===----------------------------------------------------------------------===//

	#ifndef LLVM_CLANG_LIB_CODEGEN_CGOPENMPRUNTIMEAMDGCN_H
	#define LLVM_CLANG_LIB_CODEGEN_CGOPENMPRUNTIMEAMDGCN_H

	#include "CGOpenMPRuntime.h"
	#include "CGOpenMPRuntimeGPU.h"
	#include "CodeGenFunction.h"
	#include "clang/AST/StmtOpenMP.h"

	namespace clang {
	namespace CodeGen {

	class CGOpenMPRuntimeAMDGCN final : public CGOpenMPRuntimeGPU {

	public:
	explicit CGOpenMPRuntimeAMDGCN(CodeGenModule &CGM);

	/// Get the GPU warp size.
	llvm::Value *getGPUWarpSize(CodeGenFunction &CGF) override;

	/// Get the id of the current thread on the GPU.
	llvm::Value *getGPUThreadID(CodeGenFunction &CGF) override;
	};

	} // namespace CodeGen
	} // namespace clang

	#endif // LLVM_CLANG_LIB_CODEGEN_CGOPENMPRUNTIMEAMDGCN_H

clang/lib/CodeGen/CGOpenMPRuntimeAMDGCN.cpp

This file was deleted.

	//===-- CGOpenMPRuntimeAMDGCN.cpp - Interface to OpenMP AMDGCN Runtimes --===//
	//
	// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
	// See https://llvm.org/LICENSE.txt for license information.
	// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
	//
	//===----------------------------------------------------------------------===//
	//
	// This provides a class for OpenMP runtime code generation specialized to
	// AMDGCN targets from generalized CGOpenMPRuntimeGPU class.
	//
	//===----------------------------------------------------------------------===//

	#include "CGOpenMPRuntimeAMDGCN.h"
	#include "CGOpenMPRuntimeGPU.h"
	#include "CodeGenFunction.h"
	#include "clang/AST/Attr.h"
	#include "clang/AST/DeclOpenMP.h"
	#include "clang/AST/StmtOpenMP.h"
	#include "clang/AST/StmtVisitor.h"
	#include "clang/Basic/Cuda.h"
	#include "llvm/ADT/SmallPtrSet.h"
	#include "llvm/Frontend/OpenMP/OMPGridValues.h"
	#include "llvm/IR/IntrinsicsAMDGPU.h"

	using namespace clang;
	using namespace CodeGen;
	using namespace llvm::omp;

	CGOpenMPRuntimeAMDGCN::CGOpenMPRuntimeAMDGCN(CodeGenModule &CGM)
	: CGOpenMPRuntimeGPU(CGM) {
	if (!CGM.getLangOpts().OpenMPIsDevice)
	llvm_unreachable("OpenMP AMDGCN can only handle device code.");
	}

	llvm::Value *CGOpenMPRuntimeAMDGCN::getGPUWarpSize(CodeGenFunction &CGF) {
	CGBuilderTy &Bld = CGF.Builder;
	// return constant compile-time target-specific warp size
	unsigned WarpSize = CGF.getTarget().getGridValue().GV_Warp_Size;
	return Bld.getInt32(WarpSize);
	}

	llvm::Value *CGOpenMPRuntimeAMDGCN::getGPUThreadID(CodeGenFunction &CGF) {
	CGBuilderTy &Bld = CGF.Builder;
	llvm::Function *F =
	CGF.CGM.getIntrinsic(llvm::Intrinsic::amdgcn_workitem_id_x);
	return Bld.CreateCall(F, llvm::None, "nvptx_tid");
	}

clang/lib/CodeGen/CGOpenMPRuntimeGPU.h

Show First 20 Lines • Show All 170 Lines • ▼ Show 20 Lines	public:
explicit CGOpenMPRuntimeGPU(CodeGenModule &CGM);		explicit CGOpenMPRuntimeGPU(CodeGenModule &CGM);
void clear() override;		void clear() override;

/// Declare generalized virtual functions which need to be defined		/// Declare generalized virtual functions which need to be defined
/// by all specializations of OpenMPGPURuntime Targets like AMDGCN		/// by all specializations of OpenMPGPURuntime Targets like AMDGCN
/// and NVPTX.		/// and NVPTX.

/// Get the GPU warp size.		/// Get the GPU warp size.
virtual llvm::Value *getGPUWarpSize(CodeGenFunction &CGF) = 0;		llvm::Value *getGPUWarpSize(CodeGenFunction &CGF);

/// Get the id of the current thread on the GPU.		/// Get the id of the current thread on the GPU.
virtual llvm::Value *getGPUThreadID(CodeGenFunction &CGF) = 0;		llvm::Value *getGPUThreadID(CodeGenFunction &CGF);

/// Get the maximum number of threads in a block of the GPU.		/// Get the maximum number of threads in a block of the GPU.
llvm::Value *getGPUNumThreads(CodeGenFunction &CGF);		llvm::Value *getGPUNumThreads(CodeGenFunction &CGF);

/// Emit call to void __kmpc_push_proc_bind(ident_t *loc, kmp_int32		/// Emit call to void __kmpc_push_proc_bind(ident_t *loc, kmp_int32
/// global_tid, int proc_bind) to generate code for 'proc_bind' clause.		/// global_tid, int proc_bind) to generate code for 'proc_bind' clause.
virtual void emitProcBindClause(CodeGenFunction &CGF,		virtual void emitProcBindClause(CodeGenFunction &CGF,
llvm::omp::ProcBindKind ProcBind,		llvm::omp::ProcBindKind ProcBind,
▲ Show 20 Lines • Show All 261 Lines • Show Last 20 Lines

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp

//===---- CGOpenMPRuntimeGPU.cpp - Interface to OpenMP GPU Runtimes ----===//		//===---- CGOpenMPRuntimeGPU.cpp - Interface to OpenMP GPU Runtimes ----===//
//		//
// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.		// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
// See https://llvm.org/LICENSE.txt for license information.		// See https://llvm.org/LICENSE.txt for license information.
// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception		// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
//		//
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
//		//
// This provides a generalized class for OpenMP runtime code generation		// This provides a generalized class for OpenMP runtime code generation
// specialized by GPU targets NVPTX and AMDGCN.		// specialized by GPU targets NVPTX and AMDGCN.
//		//
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

#include "CGOpenMPRuntimeGPU.h"		#include "CGOpenMPRuntimeGPU.h"
#include "CGOpenMPRuntimeNVPTX.h"
#include "CodeGenFunction.h"		#include "CodeGenFunction.h"
#include "clang/AST/Attr.h"		#include "clang/AST/Attr.h"
#include "clang/AST/DeclOpenMP.h"		#include "clang/AST/DeclOpenMP.h"
#include "clang/AST/StmtOpenMP.h"		#include "clang/AST/StmtOpenMP.h"
#include "clang/AST/StmtVisitor.h"		#include "clang/AST/StmtVisitor.h"
#include "clang/Basic/Cuda.h"		#include "clang/Basic/Cuda.h"
#include "llvm/ADT/SmallPtrSet.h"		#include "llvm/ADT/SmallPtrSet.h"
#include "llvm/Frontend/OpenMP/OMPGridValues.h"		#include "llvm/Frontend/OpenMP/OMPGridValues.h"
#include "llvm/IR/IntrinsicsNVPTX.h"
#include "llvm/Support/MathExtras.h"		#include "llvm/Support/MathExtras.h"
		jdoerfertUnsubmitted Not Done Reply Inline Actions needed? also the intrinsic include below. They should not be (maybe through a follow up commit) as we should get rid of all intrinsic uses here. jdoerfert: needed? also the intrinsic include below. They should not be (maybe through a follow up commit)…

using namespace clang;		using namespace clang;
using namespace CodeGen;		using namespace CodeGen;
using namespace llvm::omp;		using namespace llvm::omp;

namespace {		namespace {
/// Pre(post)-action for different OpenMP constructs specialized for NVPTX.		/// Pre(post)-action for different OpenMP constructs specialized for NVPTX.
class NVPTXActionTy final : public PrePostActionTy {		class NVPTXActionTy final : public PrePostActionTy {
▲ Show 20 Lines • Show All 1,158 Lines • ▼ Show 20 Lines	case EM_Unknown:
return UndefinedMode;		return UndefinedMode;
}		}
llvm_unreachable("Unknown flags are requested.");		llvm_unreachable("Unknown flags are requested.");
}		}

CGOpenMPRuntimeGPU::CGOpenMPRuntimeGPU(CodeGenModule &CGM)		CGOpenMPRuntimeGPU::CGOpenMPRuntimeGPU(CodeGenModule &CGM)
: CGOpenMPRuntime(CGM, "_", "$") {		: CGOpenMPRuntime(CGM, "_", "$") {
if (!CGM.getLangOpts().OpenMPIsDevice)		if (!CGM.getLangOpts().OpenMPIsDevice)
llvm_unreachable("OpenMP NVPTX can only handle device code.");		llvm_unreachable("OpenMP can only handle device code.");

llvm::OpenMPIRBuilder &OMPBuilder = getOMPBuilder();		llvm::OpenMPIRBuilder &OMPBuilder = getOMPBuilder();
if (CGM.getLangOpts().OpenMPTargetNewRuntime) {		if (CGM.getLangOpts().OpenMPTargetNewRuntime) {
OMPBuilder.createGlobalFlag(CGM.getLangOpts().OpenMPTargetDebug,		OMPBuilder.createGlobalFlag(CGM.getLangOpts().OpenMPTargetDebug,
"__omp_rtl_debug_kind");		"__omp_rtl_debug_kind");
OMPBuilder.createGlobalFlag(CGM.getLangOpts().OpenMPTeamSubscription,		OMPBuilder.createGlobalFlag(CGM.getLangOpts().OpenMPTeamSubscription,
"__omp_rtl_assume_teams_oversubscription");		"__omp_rtl_assume_teams_oversubscription");
OMPBuilder.createGlobalFlag(CGM.getLangOpts().OpenMPThreadSubscription,		OMPBuilder.createGlobalFlag(CGM.getLangOpts().OpenMPThreadSubscription,
▲ Show 20 Lines • Show All 2,746 Lines • ▼ Show 20 Lines	llvm::Value *CGOpenMPRuntimeGPU::getGPUNumThreads(CodeGenFunction &CGF) {
llvm::Function *F = M->getFunction(LocSize);		llvm::Function *F = M->getFunction(LocSize);
if (!F) {		if (!F) {
F = llvm::Function::Create(		F = llvm::Function::Create(
llvm::FunctionType::get(CGF.Int32Ty, llvm::None, false),		llvm::FunctionType::get(CGF.Int32Ty, llvm::None, false),
llvm::GlobalVariable::ExternalLinkage, LocSize, &CGF.CGM.getModule());		llvm::GlobalVariable::ExternalLinkage, LocSize, &CGF.CGM.getModule());
}		}
return Bld.CreateCall(F, llvm::None, "nvptx_num_threads");		return Bld.CreateCall(F, llvm::None, "nvptx_num_threads");
}		}

		llvm::Value *CGOpenMPRuntimeGPU::getGPUThreadID(CodeGenFunction &CGF) {
		ArrayRef<llvm::Value *> Args{};
		return CGF.EmitRuntimeCall(
		OMPBuilder.getOrCreateRuntimeFunction(
		CGM.getModule(), OMPRTL___kmpc_get_hardware_thread_id_in_block),
		JonChesterfieldUnsubmitted Not Done Reply Inline Actions This does work. The benefit of adding the functions to the device runtime (which contain these intrinsic calls) is we get uniformity of the generated IR, modulo the unfortunate addrspace casts, so we can do nice things like pattern match on the name of the device runtime function JonChesterfield: This does work. The benefit of adding the functions to the device runtime (which contain these…
		Args);
		}

		llvm::Value *CGOpenMPRuntimeGPU::getGPUWarpSize(CodeGenFunction &CGF) {
		ArrayRef<llvm::Value *> Args{};
		return CGF.EmitRuntimeCall(OMPBuilder.getOrCreateRuntimeFunction(
		CGM.getModule(), OMPRTL___kmpc_get_warp_size),
		Args);
		}

clang/lib/CodeGen/CGOpenMPRuntimeNVPTX.h

This file was deleted.

	//===----- CGOpenMPRuntimeNVPTX.h - Interface to OpenMP NVPTX Runtimes ----===//
	//
	// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
	// See https://llvm.org/LICENSE.txt for license information.
	// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
	//
	//===----------------------------------------------------------------------===//
	//
	// This provides a class for OpenMP runtime code generation specialized to NVPTX
	// targets from generalized CGOpenMPRuntimeGPU class.
	//
	//===----------------------------------------------------------------------===//

	#ifndef LLVM_CLANG_LIB_CODEGEN_CGOPENMPRUNTIMENVPTX_H
	#define LLVM_CLANG_LIB_CODEGEN_CGOPENMPRUNTIMENVPTX_H

	#include "CGOpenMPRuntime.h"
	#include "CGOpenMPRuntimeGPU.h"
	#include "CodeGenFunction.h"
	#include "clang/AST/StmtOpenMP.h"

	namespace clang {
	namespace CodeGen {

	class CGOpenMPRuntimeNVPTX final : public CGOpenMPRuntimeGPU {

	public:
	explicit CGOpenMPRuntimeNVPTX(CodeGenModule &CGM);

	/// Get the GPU warp size.
	llvm::Value *getGPUWarpSize(CodeGenFunction &CGF) override;

	/// Get the id of the current thread on the GPU.
	llvm::Value *getGPUThreadID(CodeGenFunction &CGF) override;
	};

	} // CodeGen namespace.
	} // clang namespace.

	#endif // LLVM_CLANG_LIB_CODEGEN_CGOPENMPRUNTIMENVPTX_H

clang/lib/CodeGen/CGOpenMPRuntimeNVPTX.cpp

This file was deleted.

	//===---- CGOpenMPRuntimeNVPTX.cpp - Interface to OpenMP NVPTX Runtimes ---===//
	//
	// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
	// See https://llvm.org/LICENSE.txt for license information.
	// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
	//
	//===----------------------------------------------------------------------===//
	//
	// This provides a class for OpenMP runtime code generation specialized to NVPTX
	// targets from generalized CGOpenMPRuntimeGPU class.
	//
	//===----------------------------------------------------------------------===//

	#include "CGOpenMPRuntimeNVPTX.h"
	#include "CGOpenMPRuntimeGPU.h"
	#include "CodeGenFunction.h"
	#include "clang/AST/Attr.h"
	#include "clang/AST/DeclOpenMP.h"
	#include "clang/AST/StmtOpenMP.h"
	#include "clang/AST/StmtVisitor.h"
	#include "clang/Basic/Cuda.h"
	#include "llvm/ADT/SmallPtrSet.h"
	#include "llvm/IR/IntrinsicsNVPTX.h"

	using namespace clang;
	using namespace CodeGen;
	using namespace llvm::omp;

	CGOpenMPRuntimeNVPTX::CGOpenMPRuntimeNVPTX(CodeGenModule &CGM)
	: CGOpenMPRuntimeGPU(CGM) {
	if (!CGM.getLangOpts().OpenMPIsDevice)
	llvm_unreachable("OpenMP NVPTX can only handle device code.");
	}

	llvm::Value *CGOpenMPRuntimeNVPTX::getGPUWarpSize(CodeGenFunction &CGF) {
	return CGF.EmitRuntimeCall(
	llvm::Intrinsic::getDeclaration(
	&CGF.CGM.getModule(), llvm::Intrinsic::nvvm_read_ptx_sreg_warpsize),
	"nvptx_warp_size");
	}

	llvm::Value *CGOpenMPRuntimeNVPTX::getGPUThreadID(CodeGenFunction &CGF) {
	CGBuilderTy &Bld = CGF.Builder;
	llvm::Function *F;
	F = llvm::Intrinsic::getDeclaration(
	&CGF.CGM.getModule(), llvm::Intrinsic::nvvm_read_ptx_sreg_tid_x);
	return Bld.CreateCall(F, llvm::None, "nvptx_tid");
	}

clang/lib/CodeGen/CMakeLists.txt

Show First 20 Lines • Show All 53 Lines • ▼ Show 20 Lines	add_clang_library(clangCodeGen
CGLoopInfo.cpp		CGLoopInfo.cpp
CGNonTrivialStruct.cpp		CGNonTrivialStruct.cpp
CGObjC.cpp		CGObjC.cpp
CGObjCGNU.cpp		CGObjCGNU.cpp
CGObjCMac.cpp		CGObjCMac.cpp
CGObjCRuntime.cpp		CGObjCRuntime.cpp
CGOpenCLRuntime.cpp		CGOpenCLRuntime.cpp
CGOpenMPRuntime.cpp		CGOpenMPRuntime.cpp
CGOpenMPRuntimeAMDGCN.cpp
CGOpenMPRuntimeGPU.cpp		CGOpenMPRuntimeGPU.cpp
CGOpenMPRuntimeNVPTX.cpp
CGRecordLayoutBuilder.cpp		CGRecordLayoutBuilder.cpp
CGStmt.cpp		CGStmt.cpp
CGStmtOpenMP.cpp		CGStmtOpenMP.cpp
CGVTT.cpp		CGVTT.cpp
CGVTables.cpp		CGVTables.cpp
CodeGenABITypes.cpp		CodeGenABITypes.cpp
CodeGenAction.cpp		CodeGenAction.cpp
CodeGenFunction.cpp		CodeGenFunction.cpp
Show All 28 Lines

clang/lib/CodeGen/CodeGenModule.cpp

Show All 13 Lines
#include "CGBlocks.h"		#include "CGBlocks.h"
#include "CGCUDARuntime.h"		#include "CGCUDARuntime.h"
#include "CGCXXABI.h"		#include "CGCXXABI.h"
#include "CGCall.h"		#include "CGCall.h"
#include "CGDebugInfo.h"		#include "CGDebugInfo.h"
#include "CGObjCRuntime.h"		#include "CGObjCRuntime.h"
#include "CGOpenCLRuntime.h"		#include "CGOpenCLRuntime.h"
#include "CGOpenMPRuntime.h"		#include "CGOpenMPRuntime.h"
#include "CGOpenMPRuntimeAMDGCN.h"		#include "CGOpenMPRuntimeGPU.h"
#include "CGOpenMPRuntimeNVPTX.h"
#include "CodeGenFunction.h"		#include "CodeGenFunction.h"
#include "CodeGenPGO.h"		#include "CodeGenPGO.h"
#include "ConstantEmitter.h"		#include "ConstantEmitter.h"
#include "CoverageMappingGen.h"		#include "CoverageMappingGen.h"
#include "TargetInfo.h"		#include "TargetInfo.h"
#include "clang/AST/ASTContext.h"		#include "clang/AST/ASTContext.h"
#include "clang/AST/CharUnits.h"		#include "clang/AST/CharUnits.h"
#include "clang/AST/DeclCXX.h"		#include "clang/AST/DeclCXX.h"
▲ Show 20 Lines • Show All 206 Lines • ▼ Show 20 Lines	void CodeGenModule::createOpenCLRuntime() {
OpenCLRuntime.reset(new CGOpenCLRuntime(*this));		OpenCLRuntime.reset(new CGOpenCLRuntime(*this));
}		}

void CodeGenModule::createOpenMPRuntime() {		void CodeGenModule::createOpenMPRuntime() {
// Select a specialized code generation class based on the target, if any.		// Select a specialized code generation class based on the target, if any.
// If it does not exist use the default implementation.		// If it does not exist use the default implementation.
switch (getTriple().getArch()) {		switch (getTriple().getArch()) {
case llvm::Triple::nvptx:		case llvm::Triple::nvptx:
case llvm::Triple::nvptx64:		case llvm::Triple::nvptx64:
		JonChesterfieldUnsubmitted Not Done Reply Inline Actions Looks like we could fold these cases by renaming the assert JonChesterfield: Looks like we could fold these cases by renaming the assert
assert(getLangOpts().OpenMPIsDevice &&
"OpenMP NVPTX is only prepared to deal with device code.");
OpenMPRuntime.reset(new CGOpenMPRuntimeNVPTX(*this));
break;
case llvm::Triple::amdgcn:		case llvm::Triple::amdgcn:
assert(getLangOpts().OpenMPIsDevice &&		assert(getLangOpts().OpenMPIsDevice &&
"OpenMP AMDGCN is only prepared to deal with device code.");		"OpenMP AMDGPU/NVPTX is only prepared to deal with device code.");
OpenMPRuntime.reset(new CGOpenMPRuntimeAMDGCN(*this));		OpenMPRuntime.reset(new CGOpenMPRuntimeGPU(*this));
break;		break;
default:		default:
if (LangOpts.OpenMPSimd)		if (LangOpts.OpenMPSimd)
OpenMPRuntime.reset(new CGOpenMPSIMDRuntime(*this));		OpenMPRuntime.reset(new CGOpenMPSIMDRuntime(*this));
else		else
OpenMPRuntime.reset(new CGOpenMPRuntime(*this));		OpenMPRuntime.reset(new CGOpenMPRuntime(*this));
break;		break;
}		}
▲ Show 20 Lines • Show All 6,219 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_parallel_codegen.cpp

	Show First 20 Lines • Show All 1,658 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	// CHECK1-NEXT: [[A_ADDR:%.]] = alloca i32, align 8			// CHECK1-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
	// CHECK1-NEXT: [[CRITICAL_COUNTER:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[CRITICAL_COUNTER:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8			// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
	// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8			// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
	// CHECK1-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8			// CHECK1-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
	// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8			// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8
	// CHECK1-NEXT: [[TMP1:%.*]] = call i64 @__kmpc_warp_active_thread_mask()			// CHECK1-NEXT: [[TMP1:%.*]] = call i64 @__kmpc_warp_active_thread_mask()
	// CHECK1-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK1-NEXT: [[TMP2:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()			// CHECK1-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
	// CHECK1-NEXT: store i32 0, i32* [[CRITICAL_COUNTER]], align 4			// CHECK1-NEXT: store i32 0, i32* [[CRITICAL_COUNTER]], align 4
	// CHECK1-NEXT: br label [[OMP_CRITICAL_LOOP:%.*]]			// CHECK1-NEXT: br label [[OMP_CRITICAL_LOOP:%.*]]
	// CHECK1: omp.critical.loop:			// CHECK1: omp.critical.loop:
	// CHECK1-NEXT: [[TMP2:%.]] = load i32, i32 [[CRITICAL_COUNTER]], align 4			// CHECK1-NEXT: [[TMP3:%.]] = load i32, i32 [[CRITICAL_COUNTER]], align 4
	// CHECK1-NEXT: [[TMP3:%.*]] = icmp slt i32 [[TMP2]], [[NVPTX_NUM_THREADS]]			// CHECK1-NEXT: [[TMP4:%.*]] = icmp slt i32 [[TMP3]], [[NVPTX_NUM_THREADS]]
	// CHECK1-NEXT: br i1 [[TMP3]], label [[OMP_CRITICAL_TEST:%.]], label [[OMP_CRITICAL_EXIT:%.]]			// CHECK1-NEXT: br i1 [[TMP4]], label [[OMP_CRITICAL_TEST:%.]], label [[OMP_CRITICAL_EXIT:%.]]
	// CHECK1: omp.critical.test:			// CHECK1: omp.critical.test:
	// CHECK1-NEXT: [[TMP4:%.]] = load i32, i32 [[CRITICAL_COUNTER]], align 4			// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32 [[CRITICAL_COUNTER]], align 4
	// CHECK1-NEXT: [[TMP5:%.*]] = icmp eq i32 [[NVPTX_TID]], [[TMP4]]			// CHECK1-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP2]], [[TMP5]]
	// CHECK1-NEXT: br i1 [[TMP5]], label [[OMP_CRITICAL_BODY:%.]], label [[OMP_CRITICAL_SYNC:%.]]			// CHECK1-NEXT: br i1 [[TMP6]], label [[OMP_CRITICAL_BODY:%.]], label [[OMP_CRITICAL_SYNC:%.]]
	// CHECK1: omp.critical.body:			// CHECK1: omp.critical.body:
	// CHECK1-NEXT: [[TMP6:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8			// CHECK1-NEXT: [[TMP7:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
	// CHECK1-NEXT: [[TMP7:%.]] = load i32, i32 [[TMP6]], align 4			// CHECK1-NEXT: [[TMP8:%.]] = load i32, i32 [[TMP7]], align 4
	// CHECK1-NEXT: call void @__kmpc_critical(%struct.ident_t* @[[GLOB1]], i32 [[TMP7]], [8 x i32]* @"_gomp_critical_user_$var")			// CHECK1-NEXT: call void @__kmpc_critical(%struct.ident_t* @[[GLOB1]], i32 [[TMP8]], [8 x i32]* @"_gomp_critical_user_$var")
	// CHECK1-NEXT: [[TMP8:%.]] = load i32, i32 [[TMP0]], align 4			// CHECK1-NEXT: [[TMP9:%.]] = load i32, i32 [[TMP0]], align 4
	// CHECK1-NEXT: [[INC:%.*]] = add nsw i32 [[TMP8]], 1			// CHECK1-NEXT: [[INC:%.*]] = add nsw i32 [[TMP9]], 1
	// CHECK1-NEXT: store i32 [[INC]], i32* [[TMP0]], align 4			// CHECK1-NEXT: store i32 [[INC]], i32* [[TMP0]], align 4
	// CHECK1-NEXT: call void @__kmpc_end_critical(%struct.ident_t* @[[GLOB1]], i32 [[TMP7]], [8 x i32]* @"_gomp_critical_user_$var")			// CHECK1-NEXT: call void @__kmpc_end_critical(%struct.ident_t* @[[GLOB1]], i32 [[TMP8]], [8 x i32]* @"_gomp_critical_user_$var")
	// CHECK1-NEXT: br label [[OMP_CRITICAL_SYNC]]			// CHECK1-NEXT: br label [[OMP_CRITICAL_SYNC]]
	// CHECK1: omp.critical.sync:			// CHECK1: omp.critical.sync:
	// CHECK1-NEXT: call void @__kmpc_syncwarp(i64 [[TMP1]])			// CHECK1-NEXT: call void @__kmpc_syncwarp(i64 [[TMP1]])
	// CHECK1-NEXT: [[TMP9:%.*]] = add nsw i32 [[TMP4]], 1			// CHECK1-NEXT: [[TMP10:%.*]] = add nsw i32 [[TMP5]], 1
	// CHECK1-NEXT: store i32 [[TMP9]], i32* [[CRITICAL_COUNTER]], align 4			// CHECK1-NEXT: store i32 [[TMP10]], i32* [[CRITICAL_COUNTER]], align 4
	// CHECK1-NEXT: br label [[OMP_CRITICAL_LOOP]]			// CHECK1-NEXT: br label [[OMP_CRITICAL_LOOP]]
	// CHECK1: omp.critical.exit:			// CHECK1: omp.critical.exit:
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__4_wrapper			// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__4_wrapper
	// CHECK1-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR1]] {			// CHECK1-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR1]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	▲ Show 20 Lines • Show All 231 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
	// CHECK2-NEXT: [[A_ADDR:%.]] = alloca i32, align 4			// CHECK2-NEXT: [[A_ADDR:%.]] = alloca i32, align 4
	// CHECK2-NEXT: [[CRITICAL_COUNTER:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[CRITICAL_COUNTER:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4			// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
	// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4			// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
	// CHECK2-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4			// CHECK2-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
	// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4			// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 4
	// CHECK2-NEXT: [[TMP1:%.*]] = call i64 @__kmpc_warp_active_thread_mask()			// CHECK2-NEXT: [[TMP1:%.*]] = call i64 @__kmpc_warp_active_thread_mask()
	// CHECK2-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK2-NEXT: [[TMP2:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()			// CHECK2-NEXT: [[NVPTX_NUM_THREADS:%.*]] = call i32 @__kmpc_get_hardware_num_threads_in_block()
	// CHECK2-NEXT: store i32 0, i32* [[CRITICAL_COUNTER]], align 4			// CHECK2-NEXT: store i32 0, i32* [[CRITICAL_COUNTER]], align 4
	// CHECK2-NEXT: br label [[OMP_CRITICAL_LOOP:%.*]]			// CHECK2-NEXT: br label [[OMP_CRITICAL_LOOP:%.*]]
	// CHECK2: omp.critical.loop:			// CHECK2: omp.critical.loop:
	// CHECK2-NEXT: [[TMP2:%.]] = load i32, i32 [[CRITICAL_COUNTER]], align 4			// CHECK2-NEXT: [[TMP3:%.]] = load i32, i32 [[CRITICAL_COUNTER]], align 4
	// CHECK2-NEXT: [[TMP3:%.*]] = icmp slt i32 [[TMP2]], [[NVPTX_NUM_THREADS]]			// CHECK2-NEXT: [[TMP4:%.*]] = icmp slt i32 [[TMP3]], [[NVPTX_NUM_THREADS]]
	// CHECK2-NEXT: br i1 [[TMP3]], label [[OMP_CRITICAL_TEST:%.]], label [[OMP_CRITICAL_EXIT:%.]]			// CHECK2-NEXT: br i1 [[TMP4]], label [[OMP_CRITICAL_TEST:%.]], label [[OMP_CRITICAL_EXIT:%.]]
	// CHECK2: omp.critical.test:			// CHECK2: omp.critical.test:
	// CHECK2-NEXT: [[TMP4:%.]] = load i32, i32 [[CRITICAL_COUNTER]], align 4			// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32 [[CRITICAL_COUNTER]], align 4
	// CHECK2-NEXT: [[TMP5:%.*]] = icmp eq i32 [[NVPTX_TID]], [[TMP4]]			// CHECK2-NEXT: [[TMP6:%.*]] = icmp eq i32 [[TMP2]], [[TMP5]]
	// CHECK2-NEXT: br i1 [[TMP5]], label [[OMP_CRITICAL_BODY:%.]], label [[OMP_CRITICAL_SYNC:%.]]			// CHECK2-NEXT: br i1 [[TMP6]], label [[OMP_CRITICAL_BODY:%.]], label [[OMP_CRITICAL_SYNC:%.]]
	// CHECK2: omp.critical.body:			// CHECK2: omp.critical.body:
	// CHECK2-NEXT: [[TMP6:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4			// CHECK2-NEXT: [[TMP7:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
	// CHECK2-NEXT: [[TMP7:%.]] = load i32, i32 [[TMP6]], align 4			// CHECK2-NEXT: [[TMP8:%.]] = load i32, i32 [[TMP7]], align 4
	// CHECK2-NEXT: call void @__kmpc_critical(%struct.ident_t* @[[GLOB1]], i32 [[TMP7]], [8 x i32]* @"_gomp_critical_user_$var")			// CHECK2-NEXT: call void @__kmpc_critical(%struct.ident_t* @[[GLOB1]], i32 [[TMP8]], [8 x i32]* @"_gomp_critical_user_$var")
	// CHECK2-NEXT: [[TMP8:%.]] = load i32, i32 [[TMP0]], align 4			// CHECK2-NEXT: [[TMP9:%.]] = load i32, i32 [[TMP0]], align 4
	// CHECK2-NEXT: [[INC:%.*]] = add nsw i32 [[TMP8]], 1			// CHECK2-NEXT: [[INC:%.*]] = add nsw i32 [[TMP9]], 1
	// CHECK2-NEXT: store i32 [[INC]], i32* [[TMP0]], align 4			// CHECK2-NEXT: store i32 [[INC]], i32* [[TMP0]], align 4
	// CHECK2-NEXT: call void @__kmpc_end_critical(%struct.ident_t* @[[GLOB1]], i32 [[TMP7]], [8 x i32]* @"_gomp_critical_user_$var")			// CHECK2-NEXT: call void @__kmpc_end_critical(%struct.ident_t* @[[GLOB1]], i32 [[TMP8]], [8 x i32]* @"_gomp_critical_user_$var")
	// CHECK2-NEXT: br label [[OMP_CRITICAL_SYNC]]			// CHECK2-NEXT: br label [[OMP_CRITICAL_SYNC]]
	// CHECK2: omp.critical.sync:			// CHECK2: omp.critical.sync:
	// CHECK2-NEXT: call void @__kmpc_syncwarp(i64 [[TMP1]])			// CHECK2-NEXT: call void @__kmpc_syncwarp(i64 [[TMP1]])
	// CHECK2-NEXT: [[TMP9:%.*]] = add nsw i32 [[TMP4]], 1			// CHECK2-NEXT: [[TMP10:%.*]] = add nsw i32 [[TMP5]], 1
	// CHECK2-NEXT: store i32 [[TMP9]], i32* [[CRITICAL_COUNTER]], align 4			// CHECK2-NEXT: store i32 [[TMP10]], i32* [[CRITICAL_COUNTER]], align 4
	// CHECK2-NEXT: br label [[OMP_CRITICAL_LOOP]]			// CHECK2-NEXT: br label [[OMP_CRITICAL_LOOP]]
	// CHECK2: omp.critical.exit:			// CHECK2: omp.critical.exit:
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__4_wrapper			// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__4_wrapper
	// CHECK2-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {			// CHECK2-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR0]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	Show All 15 Lines

clang/test/OpenMP/nvptx_target_parallel_reduction_codegen.cpp

	Show First 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 0			// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 0
	// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],			// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],
	// CHECK: [[REMOTE_ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[REMOTE_RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 0			// CHECK: [[REMOTE_ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[REMOTE_RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 0
	// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to double*			// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to double*
	//			//
	// CHECK: [[ELT_CAST:%.+]] = bitcast double* [[ELT]] to i64*			// CHECK: [[ELT_CAST:%.+]] = bitcast double* [[ELT]] to i64*
	// CHECK: [[REMOTE_ELT_CAST:%.+]] = bitcast double* [[REMOTE_ELT]] to i64*			// CHECK: [[REMOTE_ELT_CAST:%.+]] = bitcast double* [[REMOTE_ELT]] to i64*
	// CHECK: [[ELT_VAL:%.+]] = load i64, i64* [[ELT_CAST]], align			// CHECK: [[ELT_VAL:%.+]] = load i64, i64* [[ELT_CAST]], align
	// CHECK: [[WS32:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK: [[WS32:%.+]] = call i32 @__kmpc_get_warp_size()
	// CHECK: [[WS:%.+]] = trunc i32 [[WS32]] to i16			// CHECK: [[WS:%.+]] = trunc i32 [[WS32]] to i16
	// CHECK: [[REMOTE_ELT_VAL64:%.+]] = call i64 @__kmpc_shuffle_int64(i64 [[ELT_VAL]], i16 [[LANEOFFSET]], i16 [[WS]])			// CHECK: [[REMOTE_ELT_VAL64:%.+]] = call i64 @__kmpc_shuffle_int64(i64 [[ELT_VAL]], i16 [[LANEOFFSET]], i16 [[WS]])
	//			//
	// CHECK: store i64 [[REMOTE_ELT_VAL64]], i64* [[REMOTE_ELT_CAST]], align			// CHECK: store i64 [[REMOTE_ELT_VAL64]], i64* [[REMOTE_ELT_CAST]], align
	// CHECK: [[REMOTE_ELT_VOID:%.+]] = bitcast double* [[REMOTE_ELT]] to i8*			// CHECK: [[REMOTE_ELT_VOID:%.+]] = bitcast double* [[REMOTE_ELT]] to i8*
	// CHECK: store i8* [[REMOTE_ELT_VOID]], i8** [[REMOTE_ELT_REF]], align			// CHECK: store i8* [[REMOTE_ELT_VOID]], i8** [[REMOTE_ELT_REF]], align
	//			//
	// Condition to reduce			// Condition to reduce
	▲ Show 20 Lines • Show All 188 Lines • ▼ Show 20 Lines
	// CHECK: [[ALGVER:%.+]] = load i16, i16* {{.+}}, align			// CHECK: [[ALGVER:%.+]] = load i16, i16* {{.+}}, align
	//			//
	// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 0			// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 0
	// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],			// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],
	// CHECK: [[REMOTE_ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[REMOTE_RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 0			// CHECK: [[REMOTE_ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[REMOTE_RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 0
	// CHECK: [[ELT_VAL:%.+]] = load i8, i8* [[ELT_VOID]], align			// CHECK: [[ELT_VAL:%.+]] = load i8, i8* [[ELT_VOID]], align
	//			//
	// CHECK: [[ELT_CAST:%.+]] = sext i8 [[ELT_VAL]] to i32			// CHECK: [[ELT_CAST:%.+]] = sext i8 [[ELT_VAL]] to i32
	// CHECK: [[WS32:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK: [[WS32:%.+]] = call i32 @__kmpc_get_warp_size()
	// CHECK: [[WS:%.+]] = trunc i32 [[WS32]] to i16			// CHECK: [[WS:%.+]] = trunc i32 [[WS32]] to i16
	// CHECK: [[REMOTE_ELT1_VAL32:%.+]] = call i32 @__kmpc_shuffle_int32(i32 [[ELT_CAST]], i16 [[LANEOFFSET]], i16 [[WS]])			// CHECK: [[REMOTE_ELT1_VAL32:%.+]] = call i32 @__kmpc_shuffle_int32(i32 [[ELT_CAST]], i16 [[LANEOFFSET]], i16 [[WS]])
	// CHECK: [[REMOTE_ELT1_VAL:%.+]] = trunc i32 [[REMOTE_ELT1_VAL32]] to i8			// CHECK: [[REMOTE_ELT1_VAL:%.+]] = trunc i32 [[REMOTE_ELT1_VAL32]] to i8
	//			//
	// CHECK: store i8 [[REMOTE_ELT1_VAL]], i8* [[REMOTE_ELT1]], align			// CHECK: store i8 [[REMOTE_ELT1_VAL]], i8* [[REMOTE_ELT1]], align
	// CHECK: store i8* [[REMOTE_ELT1]], i8** [[REMOTE_ELT_REF]], align			// CHECK: store i8* [[REMOTE_ELT1]], i8** [[REMOTE_ELT_REF]], align
	//			//
	// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST]], i{{32\|64}} 0, i{{32\|64}} 1			// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST]], i{{32\|64}} 0, i{{32\|64}} 1
	// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],			// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],
	// CHECK: [[REMOTE_ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[REMOTE_RED_LIST]], i{{32\|64}} 0, i{{32\|64}} 1			// CHECK: [[REMOTE_ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[REMOTE_RED_LIST]], i{{32\|64}} 0, i{{32\|64}} 1
	// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to float*			// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to float*
	//			//
	// CHECK: [[ELT_CAST:%.+]] = bitcast float* [[ELT]] to i32*			// CHECK: [[ELT_CAST:%.+]] = bitcast float* [[ELT]] to i32*
	// CHECK: [[REMOTE_ELT2_CAST:%.+]] = bitcast float* [[REMOTE_ELT2]] to i32*			// CHECK: [[REMOTE_ELT2_CAST:%.+]] = bitcast float* [[REMOTE_ELT2]] to i32*
	// CHECK: [[ELT_VAL:%.+]] = load i32, i32* [[ELT_CAST]], align			// CHECK: [[ELT_VAL:%.+]] = load i32, i32* [[ELT_CAST]], align
	// CHECK: [[WS32:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK: [[WS32:%.+]] = call i32 @__kmpc_get_warp_size()
	// CHECK: [[WS:%.+]] = trunc i32 [[WS32]] to i16			// CHECK: [[WS:%.+]] = trunc i32 [[WS32]] to i16
	// CHECK: [[REMOTE_ELT2_VAL32:%.+]] = call i32 @__kmpc_shuffle_int32(i32 [[ELT_VAL]], i16 [[LANEOFFSET]], i16 [[WS]])			// CHECK: [[REMOTE_ELT2_VAL32:%.+]] = call i32 @__kmpc_shuffle_int32(i32 [[ELT_VAL]], i16 [[LANEOFFSET]], i16 [[WS]])
	//			//
	// CHECK: store i32 [[REMOTE_ELT2_VAL32]], i32* [[REMOTE_ELT2_CAST]], align			// CHECK: store i32 [[REMOTE_ELT2_VAL32]], i32* [[REMOTE_ELT2_CAST]], align
	// CHECK: [[REMOTE_ELT2C:%.+]] = bitcast float* [[REMOTE_ELT2]] to i8*			// CHECK: [[REMOTE_ELT2C:%.+]] = bitcast float* [[REMOTE_ELT2]] to i8*
	// CHECK: store i8* [[REMOTE_ELT2C]], i8** [[REMOTE_ELT_REF]], align			// CHECK: store i8* [[REMOTE_ELT2C]], i8** [[REMOTE_ELT_REF]], align
	//			//
	// Condition to reduce			// Condition to reduce
	▲ Show 20 Lines • Show All 264 Lines • ▼ Show 20 Lines
	// CHECK: [[ALGVER:%.+]] = load i16, i16* {{.+}}, align			// CHECK: [[ALGVER:%.+]] = load i16, i16* {{.+}}, align
	//			//
	// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 0			// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 0
	// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],			// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],
	// CHECK: [[REMOTE_ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[REMOTE_RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 0			// CHECK: [[REMOTE_ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[REMOTE_RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 0
	// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i32*			// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i32*
	// CHECK: [[ELT_VAL:%.+]] = load i32, i32* [[ELT]], align			// CHECK: [[ELT_VAL:%.+]] = load i32, i32* [[ELT]], align
	//			//
	// CHECK: [[WS32:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK: [[WS32:%.+]] = call i32 @__kmpc_get_warp_size()
	// CHECK: [[WS:%.+]] = trunc i32 [[WS32]] to i16			// CHECK: [[WS:%.+]] = trunc i32 [[WS32]] to i16
	// CHECK: [[REMOTE_ELT1_VAL:%.+]] = call i32 @__kmpc_shuffle_int32(i32 [[ELT_VAL]], i16 [[LANEOFFSET]], i16 [[WS]])			// CHECK: [[REMOTE_ELT1_VAL:%.+]] = call i32 @__kmpc_shuffle_int32(i32 [[ELT_VAL]], i16 [[LANEOFFSET]], i16 [[WS]])
	//			//
	// CHECK: store i32 [[REMOTE_ELT1_VAL]], i32* [[REMOTE_ELT1]], align			// CHECK: store i32 [[REMOTE_ELT1_VAL]], i32* [[REMOTE_ELT1]], align
	// CHECK: [[REMOTE_ELT1C:%.+]] = bitcast i32* [[REMOTE_ELT1]] to i8*			// CHECK: [[REMOTE_ELT1C:%.+]] = bitcast i32* [[REMOTE_ELT1]] to i8*
	// CHECK: store i8* [[REMOTE_ELT1C]], i8** [[REMOTE_ELT_REF]], align			// CHECK: store i8* [[REMOTE_ELT1C]], i8** [[REMOTE_ELT_REF]], align
	//			//
	// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST]], i{{32\|64}} 0, i{{32\|64}} 1			// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST]], i{{32\|64}} 0, i{{32\|64}} 1
	// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],			// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],
	// CHECK: [[REMOTE_ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[REMOTE_RED_LIST]], i{{32\|64}} 0, i{{32\|64}} 1			// CHECK: [[REMOTE_ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[REMOTE_RED_LIST]], i{{32\|64}} 0, i{{32\|64}} 1
	// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i16*			// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i16*
	// CHECK: [[ELT_VAL:%.+]] = load i16, i16* [[ELT]], align			// CHECK: [[ELT_VAL:%.+]] = load i16, i16* [[ELT]], align
	//			//
	// CHECK: [[ELT_CAST:%.+]] = sext i16 [[ELT_VAL]] to i32			// CHECK: [[ELT_CAST:%.+]] = sext i16 [[ELT_VAL]] to i32
	// CHECK: [[WS32:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK: [[WS32:%.+]] = call i32 @__kmpc_get_warp_size()
	// CHECK: [[WS:%.+]] = trunc i32 [[WS32]] to i16			// CHECK: [[WS:%.+]] = trunc i32 [[WS32]] to i16
	// CHECK: [[REMOTE_ELT2_VAL32:%.+]] = call i32 @__kmpc_shuffle_int32(i32 [[ELT_CAST]], i16 [[LANEOFFSET]], i16 [[WS]])			// CHECK: [[REMOTE_ELT2_VAL32:%.+]] = call i32 @__kmpc_shuffle_int32(i32 [[ELT_CAST]], i16 [[LANEOFFSET]], i16 [[WS]])
	// CHECK: [[REMOTE_ELT2_VAL:%.+]] = trunc i32 [[REMOTE_ELT2_VAL32]] to i16			// CHECK: [[REMOTE_ELT2_VAL:%.+]] = trunc i32 [[REMOTE_ELT2_VAL32]] to i16
	//			//
	// CHECK: store i16 [[REMOTE_ELT2_VAL]], i16* [[REMOTE_ELT2]], align			// CHECK: store i16 [[REMOTE_ELT2_VAL]], i16* [[REMOTE_ELT2]], align
	// CHECK: [[REMOTE_ELT2C:%.+]] = bitcast i16* [[REMOTE_ELT2]] to i8*			// CHECK: [[REMOTE_ELT2C:%.+]] = bitcast i16* [[REMOTE_ELT2]] to i8*
	// CHECK: store i8* [[REMOTE_ELT2C]], i8** [[REMOTE_ELT_REF]], align			// CHECK: store i8* [[REMOTE_ELT2C]], i8** [[REMOTE_ELT_REF]], align
	//			//
	▲ Show 20 Lines • Show All 149 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_target_parallel_reduction_codegen_tbaa_PR46146.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 455 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 8			// CHECK1-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 8
	// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to %"class.std::complex"*			// CHECK1-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to %"class.std::complex"*
	// CHECK1-NEXT: [[TMP13:%.]] = getelementptr %"class.std::complex", %"class.std::complex" [[TMP12]], i64 1			// CHECK1-NEXT: [[TMP13:%.]] = getelementptr %"class.std::complex", %"class.std::complex" [[TMP12]], i64 1
	// CHECK1-NEXT: [[TMP14:%.]] = bitcast %"class.std::complex" [[TMP13]] to i8*			// CHECK1-NEXT: [[TMP14:%.]] = bitcast %"class.std::complex" [[TMP13]] to i8*
	// CHECK1-NEXT: [[TMP15:%.]] = bitcast %"class.std::complex" [[TMP12]] to i64*			// CHECK1-NEXT: [[TMP15:%.]] = bitcast %"class.std::complex" [[TMP12]] to i64*
	// CHECK1-NEXT: [[TMP16:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i64*			// CHECK1-NEXT: [[TMP16:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i64*
	// CHECK1-NEXT: [[TMP17:%.]] = load i64, i64 [[TMP15]], align 4			// CHECK1-NEXT: [[TMP17:%.]] = load i64, i64 [[TMP15]], align 4
	// CHECK1-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK1-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK1-NEXT: [[TMP18:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK1-NEXT: [[TMP18:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16
	// CHECK1-NEXT: [[TMP19:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP17]], i16 [[TMP7]], i16 [[TMP18]])			// CHECK1-NEXT: [[TMP19:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP17]], i16 [[TMP7]], i16 [[TMP18]])
	// CHECK1-NEXT: store i64 [[TMP19]], i64* [[TMP16]], align 4			// CHECK1-NEXT: store i64 [[TMP19]], i64* [[TMP16]], align 4
	// CHECK1-NEXT: [[TMP20:%.]] = getelementptr i64, i64 [[TMP15]], i64 1			// CHECK1-NEXT: [[TMP20:%.]] = getelementptr i64, i64 [[TMP15]], i64 1
	// CHECK1-NEXT: [[TMP21:%.]] = getelementptr i64, i64 [[TMP16]], i64 1			// CHECK1-NEXT: [[TMP21:%.]] = getelementptr i64, i64 [[TMP16]], i64 1
	// CHECK1-NEXT: [[TMP22:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK1-NEXT: [[TMP22:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	// CHECK1-NEXT: store i8* [[TMP22]], i8** [[TMP11]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: store i8* [[TMP22]], i8** [[TMP11]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: [[TMP23:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK1-NEXT: [[TMP23:%.*]] = icmp eq i16 [[TMP8]], 0
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {			// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK1-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK1-NEXT: [[NVPTX_TID:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_TID2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK1-NEXT: [[NVPTX_TID2:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK1-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31
	// CHECK1-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK1-NEXT: [[NVPTX_TID3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK1-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5
	// CHECK1-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8			// CHECK1-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8
	// CHECK1-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]			// CHECK1-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]
	// CHECK1-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: br label [[PRECOND:%.*]]			// CHECK1-NEXT: br label [[PRECOND:%.*]]
	// CHECK1: precond:			// CHECK1: precond:
	// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 2			// CHECK1-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 2
	Show All 13 Lines
	// CHECK1-NEXT: br label [[IFCONT:%.*]]			// CHECK1-NEXT: br label [[IFCONT:%.*]]
	// CHECK1: else:			// CHECK1: else:
	// CHECK1-NEXT: br label [[IFCONT]]			// CHECK1-NEXT: br label [[IFCONT]]
	// CHECK1: ifcont:			// CHECK1: ifcont:
	// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK1-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]			// CHECK1-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]
	// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]
	// CHECK1: then4:			// CHECK1: then2:
	// CHECK1-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK1-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]
	// CHECK1-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0			// CHECK1-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*			// CHECK1-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*
	// CHECK1-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]			// CHECK1-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]
	// CHECK1-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: br label [[IFCONT6:%.*]]			// CHECK1-NEXT: br label [[IFCONT6:%.*]]
	// CHECK1: else5:			// CHECK1: else3:
	// CHECK1-NEXT: br label [[IFCONT6]]			// CHECK1-NEXT: br label [[IFCONT6]]
	// CHECK1: ifcont6:			// CHECK1: ifcont4:
	// CHECK1-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1			// CHECK1-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1
	// CHECK1-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: br label [[PRECOND]]			// CHECK1-NEXT: br label [[PRECOND]]
	// CHECK1: exit:			// CHECK1: exit:
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper			// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
	▲ Show 20 Lines • Show All 459 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: [[TMP20:%.]] = ptrtoint i8 [[TMP14]] to i64			// CHECK1-NEXT: [[TMP20:%.]] = ptrtoint i8 [[TMP14]] to i64
	// CHECK1-NEXT: [[TMP21:%.]] = ptrtoint i8 [[TMP19]] to i64			// CHECK1-NEXT: [[TMP21:%.]] = ptrtoint i8 [[TMP19]] to i64
	// CHECK1-NEXT: [[TMP22:%.*]] = sub i64 [[TMP20]], [[TMP21]]			// CHECK1-NEXT: [[TMP22:%.*]] = sub i64 [[TMP20]], [[TMP21]]
	// CHECK1-NEXT: [[TMP23:%.]] = sdiv exact i64 [[TMP22]], ptrtoint (i8 getelementptr (i8, i8* null, i32 1) to i64)			// CHECK1-NEXT: [[TMP23:%.]] = sdiv exact i64 [[TMP22]], ptrtoint (i8 getelementptr (i8, i8* null, i32 1) to i64)
	// CHECK1-NEXT: [[TMP24:%.*]] = icmp sgt i64 [[TMP23]], 7			// CHECK1-NEXT: [[TMP24:%.*]] = icmp sgt i64 [[TMP23]], 7
	// CHECK1-NEXT: br i1 [[TMP24]], label [[DOTSHUFFLE_THEN]], label [[DOTSHUFFLE_EXIT:%.*]]			// CHECK1-NEXT: br i1 [[TMP24]], label [[DOTSHUFFLE_THEN]], label [[DOTSHUFFLE_EXIT:%.*]]
	// CHECK1: .shuffle.then:			// CHECK1: .shuffle.then:
	// CHECK1-NEXT: [[TMP25:%.]] = load i64, i64 [[TMP17]], align 8			// CHECK1-NEXT: [[TMP25:%.]] = load i64, i64 [[TMP17]], align 8
	// CHECK1-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK1-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK1-NEXT: [[TMP26:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK1-NEXT: [[TMP26:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16
	// CHECK1-NEXT: [[TMP27:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP25]], i16 [[TMP7]], i16 [[TMP26]])			// CHECK1-NEXT: [[TMP27:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP25]], i16 [[TMP7]], i16 [[TMP26]])
	// CHECK1-NEXT: store i64 [[TMP27]], i64* [[TMP18]], align 8			// CHECK1-NEXT: store i64 [[TMP27]], i64* [[TMP18]], align 8
	// CHECK1-NEXT: [[TMP28]] = getelementptr i64, i64* [[TMP17]], i64 1			// CHECK1-NEXT: [[TMP28]] = getelementptr i64, i64* [[TMP17]], i64 1
	// CHECK1-NEXT: [[TMP29]] = getelementptr i64, i64* [[TMP18]], i64 1			// CHECK1-NEXT: [[TMP29]] = getelementptr i64, i64* [[TMP18]], i64 1
	// CHECK1-NEXT: br label [[DOTSHUFFLE_PRE_COND]]			// CHECK1-NEXT: br label [[DOTSHUFFLE_PRE_COND]]
	// CHECK1: .shuffle.exit:			// CHECK1: .shuffle.exit:
	// CHECK1-NEXT: [[TMP30:%.]] = bitcast %"class.std::complex.0" [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK1-NEXT: [[TMP30:%.]] = bitcast %"class.std::complex.0" [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {			// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK1-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK1-NEXT: [[NVPTX_TID:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_TID2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK1-NEXT: [[NVPTX_TID2:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK1-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31
	// CHECK1-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK1-NEXT: [[NVPTX_TID3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK1-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5
	// CHECK1-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8			// CHECK1-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8
	// CHECK1-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]			// CHECK1-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]
	// CHECK1-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: br label [[PRECOND:%.*]]			// CHECK1-NEXT: br label [[PRECOND:%.*]]
	// CHECK1: precond:			// CHECK1: precond:
	// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 4			// CHECK1-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 4
	Show All 13 Lines
	// CHECK1-NEXT: br label [[IFCONT:%.*]]			// CHECK1-NEXT: br label [[IFCONT:%.*]]
	// CHECK1: else:			// CHECK1: else:
	// CHECK1-NEXT: br label [[IFCONT]]			// CHECK1-NEXT: br label [[IFCONT]]
	// CHECK1: ifcont:			// CHECK1: ifcont:
	// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK1-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]			// CHECK1-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]
	// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]
	// CHECK1: then4:			// CHECK1: then2:
	// CHECK1-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK1-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]
	// CHECK1-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0			// CHECK1-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*			// CHECK1-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*
	// CHECK1-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]			// CHECK1-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]
	// CHECK1-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: br label [[IFCONT6:%.*]]			// CHECK1-NEXT: br label [[IFCONT6:%.*]]
	// CHECK1: else5:			// CHECK1: else3:
	// CHECK1-NEXT: br label [[IFCONT6]]			// CHECK1-NEXT: br label [[IFCONT6]]
	// CHECK1: ifcont6:			// CHECK1: ifcont4:
	// CHECK1-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1			// CHECK1-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1
	// CHECK1-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: br label [[PRECOND]]			// CHECK1-NEXT: br label [[PRECOND]]
	// CHECK1: exit:			// CHECK1: exit:
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper			// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper
	▲ Show 20 Lines • Show All 533 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 8			// CHECK2-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 8
	// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK2-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to %"class.std::complex"*			// CHECK2-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to %"class.std::complex"*
	// CHECK2-NEXT: [[TMP13:%.]] = getelementptr %"class.std::complex", %"class.std::complex" [[TMP12]], i64 1			// CHECK2-NEXT: [[TMP13:%.]] = getelementptr %"class.std::complex", %"class.std::complex" [[TMP12]], i64 1
	// CHECK2-NEXT: [[TMP14:%.]] = bitcast %"class.std::complex" [[TMP13]] to i8*			// CHECK2-NEXT: [[TMP14:%.]] = bitcast %"class.std::complex" [[TMP13]] to i8*
	// CHECK2-NEXT: [[TMP15:%.]] = bitcast %"class.std::complex" [[TMP12]] to i64*			// CHECK2-NEXT: [[TMP15:%.]] = bitcast %"class.std::complex" [[TMP12]] to i64*
	// CHECK2-NEXT: [[TMP16:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i64*			// CHECK2-NEXT: [[TMP16:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i64*
	// CHECK2-NEXT: [[TMP17:%.]] = load i64, i64 [[TMP15]], align 4			// CHECK2-NEXT: [[TMP17:%.]] = load i64, i64 [[TMP15]], align 4
	// CHECK2-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK2-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK2-NEXT: [[TMP18:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK2-NEXT: [[TMP18:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16
	// CHECK2-NEXT: [[TMP19:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP17]], i16 [[TMP7]], i16 [[TMP18]])			// CHECK2-NEXT: [[TMP19:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP17]], i16 [[TMP7]], i16 [[TMP18]])
	// CHECK2-NEXT: store i64 [[TMP19]], i64* [[TMP16]], align 4			// CHECK2-NEXT: store i64 [[TMP19]], i64* [[TMP16]], align 4
	// CHECK2-NEXT: [[TMP20:%.]] = getelementptr i64, i64 [[TMP15]], i64 1			// CHECK2-NEXT: [[TMP20:%.]] = getelementptr i64, i64 [[TMP15]], i64 1
	// CHECK2-NEXT: [[TMP21:%.]] = getelementptr i64, i64 [[TMP16]], i64 1			// CHECK2-NEXT: [[TMP21:%.]] = getelementptr i64, i64 [[TMP16]], i64 1
	// CHECK2-NEXT: [[TMP22:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK2-NEXT: [[TMP22:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	// CHECK2-NEXT: store i8* [[TMP22]], i8** [[TMP11]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: store i8* [[TMP22]], i8** [[TMP11]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: [[TMP23:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK2-NEXT: [[TMP23:%.*]] = icmp eq i16 [[TMP8]], 0
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {			// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK2-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK2-NEXT: [[NVPTX_TID:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_TID2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK2-NEXT: [[NVPTX_TID2:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK2-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31
	// CHECK2-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK2-NEXT: [[NVPTX_TID3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK2-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5
	// CHECK2-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8			// CHECK2-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8
	// CHECK2-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]			// CHECK2-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]
	// CHECK2-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: br label [[PRECOND:%.*]]			// CHECK2-NEXT: br label [[PRECOND:%.*]]
	// CHECK2: precond:			// CHECK2: precond:
	// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 2			// CHECK2-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 2
	Show All 13 Lines
	// CHECK2-NEXT: br label [[IFCONT:%.*]]			// CHECK2-NEXT: br label [[IFCONT:%.*]]
	// CHECK2: else:			// CHECK2: else:
	// CHECK2-NEXT: br label [[IFCONT]]			// CHECK2-NEXT: br label [[IFCONT]]
	// CHECK2: ifcont:			// CHECK2: ifcont:
	// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK2-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]			// CHECK2-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]
	// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]
	// CHECK2: then4:			// CHECK2: then2:
	// CHECK2-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK2-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]
	// CHECK2-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0			// CHECK2-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0
	// CHECK2-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*			// CHECK2-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*
	// CHECK2-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]			// CHECK2-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]
	// CHECK2-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: br label [[IFCONT6:%.*]]			// CHECK2-NEXT: br label [[IFCONT6:%.*]]
	// CHECK2: else5:			// CHECK2: else3:
	// CHECK2-NEXT: br label [[IFCONT6]]			// CHECK2-NEXT: br label [[IFCONT6]]
	// CHECK2: ifcont6:			// CHECK2: ifcont4:
	// CHECK2-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1			// CHECK2-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1
	// CHECK2-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: br label [[PRECOND]]			// CHECK2-NEXT: br label [[PRECOND]]
	// CHECK2: exit:			// CHECK2: exit:
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper			// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
	▲ Show 20 Lines • Show All 459 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: [[TMP20:%.]] = ptrtoint i8 [[TMP14]] to i64			// CHECK2-NEXT: [[TMP20:%.]] = ptrtoint i8 [[TMP14]] to i64
	// CHECK2-NEXT: [[TMP21:%.]] = ptrtoint i8 [[TMP19]] to i64			// CHECK2-NEXT: [[TMP21:%.]] = ptrtoint i8 [[TMP19]] to i64
	// CHECK2-NEXT: [[TMP22:%.*]] = sub i64 [[TMP20]], [[TMP21]]			// CHECK2-NEXT: [[TMP22:%.*]] = sub i64 [[TMP20]], [[TMP21]]
	// CHECK2-NEXT: [[TMP23:%.]] = sdiv exact i64 [[TMP22]], ptrtoint (i8 getelementptr (i8, i8* null, i32 1) to i64)			// CHECK2-NEXT: [[TMP23:%.]] = sdiv exact i64 [[TMP22]], ptrtoint (i8 getelementptr (i8, i8* null, i32 1) to i64)
	// CHECK2-NEXT: [[TMP24:%.*]] = icmp sgt i64 [[TMP23]], 7			// CHECK2-NEXT: [[TMP24:%.*]] = icmp sgt i64 [[TMP23]], 7
	// CHECK2-NEXT: br i1 [[TMP24]], label [[DOTSHUFFLE_THEN]], label [[DOTSHUFFLE_EXIT:%.*]]			// CHECK2-NEXT: br i1 [[TMP24]], label [[DOTSHUFFLE_THEN]], label [[DOTSHUFFLE_EXIT:%.*]]
	// CHECK2: .shuffle.then:			// CHECK2: .shuffle.then:
	// CHECK2-NEXT: [[TMP25:%.]] = load i64, i64 [[TMP17]], align 8			// CHECK2-NEXT: [[TMP25:%.]] = load i64, i64 [[TMP17]], align 8
	// CHECK2-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK2-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK2-NEXT: [[TMP26:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK2-NEXT: [[TMP26:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16
	// CHECK2-NEXT: [[TMP27:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP25]], i16 [[TMP7]], i16 [[TMP26]])			// CHECK2-NEXT: [[TMP27:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP25]], i16 [[TMP7]], i16 [[TMP26]])
	// CHECK2-NEXT: store i64 [[TMP27]], i64* [[TMP18]], align 8			// CHECK2-NEXT: store i64 [[TMP27]], i64* [[TMP18]], align 8
	// CHECK2-NEXT: [[TMP28]] = getelementptr i64, i64* [[TMP17]], i64 1			// CHECK2-NEXT: [[TMP28]] = getelementptr i64, i64* [[TMP17]], i64 1
	// CHECK2-NEXT: [[TMP29]] = getelementptr i64, i64* [[TMP18]], i64 1			// CHECK2-NEXT: [[TMP29]] = getelementptr i64, i64* [[TMP18]], i64 1
	// CHECK2-NEXT: br label [[DOTSHUFFLE_PRE_COND]]			// CHECK2-NEXT: br label [[DOTSHUFFLE_PRE_COND]]
	// CHECK2: .shuffle.exit:			// CHECK2: .shuffle.exit:
	// CHECK2-NEXT: [[TMP30:%.]] = bitcast %"class.std::complex.0" [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK2-NEXT: [[TMP30:%.]] = bitcast %"class.std::complex.0" [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {			// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK2-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK2-NEXT: [[NVPTX_TID:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_TID2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK2-NEXT: [[NVPTX_TID2:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK2-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31
	// CHECK2-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK2-NEXT: [[NVPTX_TID3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK2-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5
	// CHECK2-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8			// CHECK2-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8
	// CHECK2-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]			// CHECK2-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]
	// CHECK2-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: br label [[PRECOND:%.*]]			// CHECK2-NEXT: br label [[PRECOND:%.*]]
	// CHECK2: precond:			// CHECK2: precond:
	// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 4			// CHECK2-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 4
	Show All 13 Lines
	// CHECK2-NEXT: br label [[IFCONT:%.*]]			// CHECK2-NEXT: br label [[IFCONT:%.*]]
	// CHECK2: else:			// CHECK2: else:
	// CHECK2-NEXT: br label [[IFCONT]]			// CHECK2-NEXT: br label [[IFCONT]]
	// CHECK2: ifcont:			// CHECK2: ifcont:
	// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK2-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]			// CHECK2-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]
	// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]
	// CHECK2: then4:			// CHECK2: then2:
	// CHECK2-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK2-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]
	// CHECK2-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0			// CHECK2-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0
	// CHECK2-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*			// CHECK2-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*
	// CHECK2-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]			// CHECK2-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]
	// CHECK2-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: br label [[IFCONT6:%.*]]			// CHECK2-NEXT: br label [[IFCONT6:%.*]]
	// CHECK2: else5:			// CHECK2: else3:
	// CHECK2-NEXT: br label [[IFCONT6]]			// CHECK2-NEXT: br label [[IFCONT6]]
	// CHECK2: ifcont6:			// CHECK2: ifcont4:
	// CHECK2-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1			// CHECK2-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1
	// CHECK2-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: br label [[PRECOND]]			// CHECK2-NEXT: br label [[PRECOND]]
	// CHECK2: exit:			// CHECK2: exit:
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper			// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper
	▲ Show 20 Lines • Show All 533 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 8			// CHECK3-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 8
	// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK3-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to %"class.std::complex"*			// CHECK3-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to %"class.std::complex"*
	// CHECK3-NEXT: [[TMP13:%.]] = getelementptr %"class.std::complex", %"class.std::complex" [[TMP12]], i64 1			// CHECK3-NEXT: [[TMP13:%.]] = getelementptr %"class.std::complex", %"class.std::complex" [[TMP12]], i64 1
	// CHECK3-NEXT: [[TMP14:%.]] = bitcast %"class.std::complex" [[TMP13]] to i8*			// CHECK3-NEXT: [[TMP14:%.]] = bitcast %"class.std::complex" [[TMP13]] to i8*
	// CHECK3-NEXT: [[TMP15:%.]] = bitcast %"class.std::complex" [[TMP12]] to i64*			// CHECK3-NEXT: [[TMP15:%.]] = bitcast %"class.std::complex" [[TMP12]] to i64*
	// CHECK3-NEXT: [[TMP16:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i64*			// CHECK3-NEXT: [[TMP16:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i64*
	// CHECK3-NEXT: [[TMP17:%.]] = load i64, i64 [[TMP15]], align 4			// CHECK3-NEXT: [[TMP17:%.]] = load i64, i64 [[TMP15]], align 4
	// CHECK3-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK3-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK3-NEXT: [[TMP18:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK3-NEXT: [[TMP18:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16
	// CHECK3-NEXT: [[TMP19:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP17]], i16 [[TMP7]], i16 [[TMP18]])			// CHECK3-NEXT: [[TMP19:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP17]], i16 [[TMP7]], i16 [[TMP18]])
	// CHECK3-NEXT: store i64 [[TMP19]], i64* [[TMP16]], align 4			// CHECK3-NEXT: store i64 [[TMP19]], i64* [[TMP16]], align 4
	// CHECK3-NEXT: [[TMP20:%.]] = getelementptr i64, i64 [[TMP15]], i64 1			// CHECK3-NEXT: [[TMP20:%.]] = getelementptr i64, i64 [[TMP15]], i64 1
	// CHECK3-NEXT: [[TMP21:%.]] = getelementptr i64, i64 [[TMP16]], i64 1			// CHECK3-NEXT: [[TMP21:%.]] = getelementptr i64, i64 [[TMP16]], i64 1
	// CHECK3-NEXT: [[TMP22:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK3-NEXT: [[TMP22:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	// CHECK3-NEXT: store i8* [[TMP22]], i8** [[TMP11]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: store i8* [[TMP22]], i8** [[TMP11]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: [[TMP23:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK3-NEXT: [[TMP23:%.*]] = icmp eq i16 [[TMP8]], 0
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {			// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK3-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK3-NEXT: [[NVPTX_TID:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_TID2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK3-NEXT: [[NVPTX_TID2:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK3-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31
	// CHECK3-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK3-NEXT: [[NVPTX_TID3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK3-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5
	// CHECK3-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8			// CHECK3-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8
	// CHECK3-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]			// CHECK3-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]
	// CHECK3-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: br label [[PRECOND:%.*]]			// CHECK3-NEXT: br label [[PRECOND:%.*]]
	// CHECK3: precond:			// CHECK3: precond:
	// CHECK3-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 2			// CHECK3-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 2
	Show All 13 Lines
	// CHECK3-NEXT: br label [[IFCONT:%.*]]			// CHECK3-NEXT: br label [[IFCONT:%.*]]
	// CHECK3: else:			// CHECK3: else:
	// CHECK3-NEXT: br label [[IFCONT]]			// CHECK3-NEXT: br label [[IFCONT]]
	// CHECK3: ifcont:			// CHECK3: ifcont:
	// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK3-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]			// CHECK3-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]
	// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]
	// CHECK3: then4:			// CHECK3: then2:
	// CHECK3-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK3-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]
	// CHECK3-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0			// CHECK3-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0
	// CHECK3-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*			// CHECK3-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*
	// CHECK3-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]			// CHECK3-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]
	// CHECK3-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: br label [[IFCONT6:%.*]]			// CHECK3-NEXT: br label [[IFCONT6:%.*]]
	// CHECK3: else5:			// CHECK3: else3:
	// CHECK3-NEXT: br label [[IFCONT6]]			// CHECK3-NEXT: br label [[IFCONT6]]
	// CHECK3: ifcont6:			// CHECK3: ifcont4:
	// CHECK3-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1			// CHECK3-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1
	// CHECK3-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: br label [[PRECOND]]			// CHECK3-NEXT: br label [[PRECOND]]
	// CHECK3: exit:			// CHECK3: exit:
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper			// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
	▲ Show 20 Lines • Show All 459 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: [[TMP20:%.]] = ptrtoint i8 [[TMP14]] to i64			// CHECK3-NEXT: [[TMP20:%.]] = ptrtoint i8 [[TMP14]] to i64
	// CHECK3-NEXT: [[TMP21:%.]] = ptrtoint i8 [[TMP19]] to i64			// CHECK3-NEXT: [[TMP21:%.]] = ptrtoint i8 [[TMP19]] to i64
	// CHECK3-NEXT: [[TMP22:%.*]] = sub i64 [[TMP20]], [[TMP21]]			// CHECK3-NEXT: [[TMP22:%.*]] = sub i64 [[TMP20]], [[TMP21]]
	// CHECK3-NEXT: [[TMP23:%.]] = sdiv exact i64 [[TMP22]], ptrtoint (i8 getelementptr (i8, i8* null, i32 1) to i64)			// CHECK3-NEXT: [[TMP23:%.]] = sdiv exact i64 [[TMP22]], ptrtoint (i8 getelementptr (i8, i8* null, i32 1) to i64)
	// CHECK3-NEXT: [[TMP24:%.*]] = icmp sgt i64 [[TMP23]], 7			// CHECK3-NEXT: [[TMP24:%.*]] = icmp sgt i64 [[TMP23]], 7
	// CHECK3-NEXT: br i1 [[TMP24]], label [[DOTSHUFFLE_THEN]], label [[DOTSHUFFLE_EXIT:%.*]]			// CHECK3-NEXT: br i1 [[TMP24]], label [[DOTSHUFFLE_THEN]], label [[DOTSHUFFLE_EXIT:%.*]]
	// CHECK3: .shuffle.then:			// CHECK3: .shuffle.then:
	// CHECK3-NEXT: [[TMP25:%.]] = load i64, i64 [[TMP17]], align 8			// CHECK3-NEXT: [[TMP25:%.]] = load i64, i64 [[TMP17]], align 8
	// CHECK3-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK3-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK3-NEXT: [[TMP26:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK3-NEXT: [[TMP26:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16
	// CHECK3-NEXT: [[TMP27:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP25]], i16 [[TMP7]], i16 [[TMP26]])			// CHECK3-NEXT: [[TMP27:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP25]], i16 [[TMP7]], i16 [[TMP26]])
	// CHECK3-NEXT: store i64 [[TMP27]], i64* [[TMP18]], align 8			// CHECK3-NEXT: store i64 [[TMP27]], i64* [[TMP18]], align 8
	// CHECK3-NEXT: [[TMP28]] = getelementptr i64, i64* [[TMP17]], i64 1			// CHECK3-NEXT: [[TMP28]] = getelementptr i64, i64* [[TMP17]], i64 1
	// CHECK3-NEXT: [[TMP29]] = getelementptr i64, i64* [[TMP18]], i64 1			// CHECK3-NEXT: [[TMP29]] = getelementptr i64, i64* [[TMP18]], i64 1
	// CHECK3-NEXT: br label [[DOTSHUFFLE_PRE_COND]]			// CHECK3-NEXT: br label [[DOTSHUFFLE_PRE_COND]]
	// CHECK3: .shuffle.exit:			// CHECK3: .shuffle.exit:
	// CHECK3-NEXT: [[TMP30:%.]] = bitcast %"class.std::complex.0" [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK3-NEXT: [[TMP30:%.]] = bitcast %"class.std::complex.0" [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {			// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK3-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK3-NEXT: [[NVPTX_TID:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_TID2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK3-NEXT: [[NVPTX_TID2:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK3-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31
	// CHECK3-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK3-NEXT: [[NVPTX_TID3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK3-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5
	// CHECK3-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8			// CHECK3-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8
	// CHECK3-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]			// CHECK3-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]
	// CHECK3-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: br label [[PRECOND:%.*]]			// CHECK3-NEXT: br label [[PRECOND:%.*]]
	// CHECK3: precond:			// CHECK3: precond:
	// CHECK3-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 4			// CHECK3-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 4
	Show All 13 Lines
	// CHECK3-NEXT: br label [[IFCONT:%.*]]			// CHECK3-NEXT: br label [[IFCONT:%.*]]
	// CHECK3: else:			// CHECK3: else:
	// CHECK3-NEXT: br label [[IFCONT]]			// CHECK3-NEXT: br label [[IFCONT]]
	// CHECK3: ifcont:			// CHECK3: ifcont:
	// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK3-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]			// CHECK3-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]
	// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]
	// CHECK3: then4:			// CHECK3: then2:
	// CHECK3-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK3-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]
	// CHECK3-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0			// CHECK3-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0
	// CHECK3-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*			// CHECK3-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*
	// CHECK3-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]			// CHECK3-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]
	// CHECK3-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: br label [[IFCONT6:%.*]]			// CHECK3-NEXT: br label [[IFCONT6:%.*]]
	// CHECK3: else5:			// CHECK3: else3:
	// CHECK3-NEXT: br label [[IFCONT6]]			// CHECK3-NEXT: br label [[IFCONT6]]
	// CHECK3: ifcont6:			// CHECK3: ifcont4:
	// CHECK3-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1			// CHECK3-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1
	// CHECK3-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: br label [[PRECOND]]			// CHECK3-NEXT: br label [[PRECOND]]
	// CHECK3: exit:			// CHECK3: exit:
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper			// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper
	▲ Show 20 Lines • Show All 109 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_teams_reduction_codegen.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 4,219 Lines • ▼ Show 20 Lines
	// CHECK1: user_code.entry:			// CHECK1: user_code.entry:
	// CHECK1-NEXT: [[TMP1:%.]] = load double, double [[CONV]], align 8			// CHECK1-NEXT: [[TMP1:%.]] = load double, double [[CONV]], align 8
	// CHECK1-NEXT: [[E1:%.]] = call i8 @__kmpc_alloc_shared(i64 8)			// CHECK1-NEXT: [[E1:%.]] = call i8 @__kmpc_alloc_shared(i64 8)
	// CHECK1-NEXT: [[E_ON_STACK:%.]] = bitcast i8 [[E1]] to double*			// CHECK1-NEXT: [[E_ON_STACK:%.]] = bitcast i8 [[E1]] to double*
	// CHECK1-NEXT: store double [[TMP1]], double* [[E_ON_STACK]], align 8			// CHECK1-NEXT: store double [[TMP1]], double* [[E_ON_STACK]], align 8
	// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK1-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK1-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK1-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], double* [[E_ON_STACK]]) #[[ATTR4:[0-9]+]]			// CHECK1-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], double* [[E_ON_STACK]]) #[[ATTR3:[0-9]+]]
	// CHECK1-NEXT: call void @__kmpc_free_shared(i8* [[E1]], i64 8)			// CHECK1-NEXT: call void @__kmpc_free_shared(i8* [[E1]], i64 8)
	// CHECK1-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)			// CHECK1-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	// CHECK1: worker.exit:			// CHECK1: worker.exit:
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__			// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 8			// CHECK1-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 8
	// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to double*			// CHECK1-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to double*
	// CHECK1-NEXT: [[TMP13:%.]] = getelementptr double, double [[TMP12]], i64 1			// CHECK1-NEXT: [[TMP13:%.]] = getelementptr double, double [[TMP12]], i64 1
	// CHECK1-NEXT: [[TMP14:%.]] = bitcast double [[TMP13]] to i8*			// CHECK1-NEXT: [[TMP14:%.]] = bitcast double [[TMP13]] to i8*
	// CHECK1-NEXT: [[TMP15:%.]] = bitcast double [[TMP12]] to i64*			// CHECK1-NEXT: [[TMP15:%.]] = bitcast double [[TMP12]] to i64*
	// CHECK1-NEXT: [[TMP16:%.]] = bitcast double [[DOTOMP_REDUCTION_ELEMENT]] to i64*			// CHECK1-NEXT: [[TMP16:%.]] = bitcast double [[DOTOMP_REDUCTION_ELEMENT]] to i64*
	// CHECK1-NEXT: [[TMP17:%.]] = load i64, i64 [[TMP15]], align 8			// CHECK1-NEXT: [[TMP17:%.]] = load i64, i64 [[TMP15]], align 8
	// CHECK1-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK1-NEXT: [[TMP18:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK1-NEXT: [[TMP18:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK1-NEXT: [[TMP19:%.*]] = trunc i32 [[TMP18]] to i16
	// CHECK1-NEXT: [[TMP19:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP17]], i16 [[TMP7]], i16 [[TMP18]])			// CHECK1-NEXT: [[TMP20:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP17]], i16 [[TMP7]], i16 [[TMP19]])
	// CHECK1-NEXT: store i64 [[TMP19]], i64* [[TMP16]], align 8			// CHECK1-NEXT: store i64 [[TMP20]], i64* [[TMP16]], align 8
	// CHECK1-NEXT: [[TMP20:%.]] = getelementptr i64, i64 [[TMP15]], i64 1			// CHECK1-NEXT: [[TMP21:%.]] = getelementptr i64, i64 [[TMP15]], i64 1
	// CHECK1-NEXT: [[TMP21:%.]] = getelementptr i64, i64 [[TMP16]], i64 1			// CHECK1-NEXT: [[TMP22:%.]] = getelementptr i64, i64 [[TMP16]], i64 1
	// CHECK1-NEXT: [[TMP22:%.]] = bitcast double [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK1-NEXT: [[TMP23:%.]] = bitcast double [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	// CHECK1-NEXT: store i8* [[TMP22]], i8** [[TMP11]], align 8			// CHECK1-NEXT: store i8* [[TMP23]], i8** [[TMP11]], align 8
	// CHECK1-NEXT: [[TMP23:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK1-NEXT: [[TMP24:%.*]] = icmp eq i16 [[TMP8]], 0
	// CHECK1-NEXT: [[TMP24:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK1-NEXT: [[TMP25:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK1-NEXT: [[TMP25:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]			// CHECK1-NEXT: [[TMP26:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]
	// CHECK1-NEXT: [[TMP26:%.*]] = and i1 [[TMP24]], [[TMP25]]			// CHECK1-NEXT: [[TMP27:%.*]] = and i1 [[TMP25]], [[TMP26]]
	// CHECK1-NEXT: [[TMP27:%.*]] = icmp eq i16 [[TMP8]], 2			// CHECK1-NEXT: [[TMP28:%.*]] = icmp eq i16 [[TMP8]], 2
	// CHECK1-NEXT: [[TMP28:%.*]] = and i16 [[TMP6]], 1			// CHECK1-NEXT: [[TMP29:%.*]] = and i16 [[TMP6]], 1
	// CHECK1-NEXT: [[TMP29:%.*]] = icmp eq i16 [[TMP28]], 0			// CHECK1-NEXT: [[TMP30:%.*]] = icmp eq i16 [[TMP29]], 0
	// CHECK1-NEXT: [[TMP30:%.*]] = and i1 [[TMP27]], [[TMP29]]			// CHECK1-NEXT: [[TMP31:%.*]] = and i1 [[TMP28]], [[TMP30]]
	// CHECK1-NEXT: [[TMP31:%.*]] = icmp sgt i16 [[TMP7]], 0			// CHECK1-NEXT: [[TMP32:%.*]] = icmp sgt i16 [[TMP7]], 0
	// CHECK1-NEXT: [[TMP32:%.*]] = and i1 [[TMP30]], [[TMP31]]			// CHECK1-NEXT: [[TMP33:%.*]] = and i1 [[TMP31]], [[TMP32]]
	// CHECK1-NEXT: [[TMP33:%.*]] = or i1 [[TMP23]], [[TMP26]]			// CHECK1-NEXT: [[TMP34:%.*]] = or i1 [[TMP24]], [[TMP27]]
	// CHECK1-NEXT: [[TMP34:%.*]] = or i1 [[TMP33]], [[TMP32]]			// CHECK1-NEXT: [[TMP35:%.*]] = or i1 [[TMP34]], [[TMP33]]
	// CHECK1-NEXT: br i1 [[TMP34]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK1-NEXT: br i1 [[TMP35]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK1: then:			// CHECK1: then:
	// CHECK1-NEXT: [[TMP35:%.]] = bitcast [1 x i8]* [[TMP5]] to i8*			// CHECK1-NEXT: [[TMP36:%.]] = bitcast [1 x i8]* [[TMP5]] to i8*
	// CHECK1-NEXT: [[TMP36:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*			// CHECK1-NEXT: [[TMP37:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*
	// CHECK1-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP35]], i8* [[TMP36]]) #[[ATTR4]]			// CHECK1-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP36]], i8* [[TMP37]]) #[[ATTR3]]
	// CHECK1-NEXT: br label [[IFCONT:%.*]]			// CHECK1-NEXT: br label [[IFCONT:%.*]]
	// CHECK1: else:			// CHECK1: else:
	// CHECK1-NEXT: br label [[IFCONT]]			// CHECK1-NEXT: br label [[IFCONT]]
	// CHECK1: ifcont:			// CHECK1: ifcont:
	// CHECK1-NEXT: [[TMP37:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK1-NEXT: [[TMP38:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK1-NEXT: [[TMP38:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]			// CHECK1-NEXT: [[TMP39:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]
	// CHECK1-NEXT: [[TMP39:%.*]] = and i1 [[TMP37]], [[TMP38]]			// CHECK1-NEXT: [[TMP40:%.*]] = and i1 [[TMP38]], [[TMP39]]
	// CHECK1-NEXT: br i1 [[TMP39]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK1-NEXT: br i1 [[TMP40]], label [[THEN4:%.]], label [[ELSE5:%.]]
	// CHECK1: then4:			// CHECK1: then4:
	// CHECK1-NEXT: [[TMP40:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK1-NEXT: [[TMP41:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP41:%.]] = load i8, i8** [[TMP40]], align 8			// CHECK1-NEXT: [[TMP42:%.]] = load i8, i8** [[TMP41]], align 8
	// CHECK1-NEXT: [[TMP42:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP5]], i64 0, i64 0			// CHECK1-NEXT: [[TMP43:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP5]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP43:%.]] = load i8, i8** [[TMP42]], align 8			// CHECK1-NEXT: [[TMP44:%.]] = load i8, i8** [[TMP43]], align 8
	// CHECK1-NEXT: [[TMP44:%.]] = bitcast i8 [[TMP41]] to double*			// CHECK1-NEXT: [[TMP45:%.]] = bitcast i8 [[TMP42]] to double*
	// CHECK1-NEXT: [[TMP45:%.]] = bitcast i8 [[TMP43]] to double*			// CHECK1-NEXT: [[TMP46:%.]] = bitcast i8 [[TMP44]] to double*
	// CHECK1-NEXT: [[TMP46:%.]] = load double, double [[TMP44]], align 8			// CHECK1-NEXT: [[TMP47:%.]] = load double, double [[TMP45]], align 8
	// CHECK1-NEXT: store double [[TMP46]], double* [[TMP45]], align 8			// CHECK1-NEXT: store double [[TMP47]], double* [[TMP46]], align 8
	// CHECK1-NEXT: br label [[IFCONT6:%.*]]			// CHECK1-NEXT: br label [[IFCONT6:%.*]]
	// CHECK1: else5:			// CHECK1: else5:
	// CHECK1-NEXT: br label [[IFCONT6]]			// CHECK1-NEXT: br label [[IFCONT6]]
	// CHECK1: ifcont6:			// CHECK1: ifcont6:
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func			// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func
	// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {			// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK1-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8			// CHECK1-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8
	// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	// CHECK1-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK1-NEXT: [[TMP3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_TID2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK1-NEXT: [[TMP4:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK1-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[TMP4]], 31
	// CHECK1-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK1-NEXT: [[TMP5:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK1-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[TMP5]], 5
	// CHECK1-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8			// CHECK1-NEXT: [[TMP6:%.]] = load i8, i8** [[DOTADDR]], align 8
	// CHECK1-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]			// CHECK1-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to [1 x i8]
	// CHECK1-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4			// CHECK1-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4
	// CHECK1-NEXT: br label [[PRECOND:%.*]]			// CHECK1-NEXT: br label [[PRECOND:%.*]]
	// CHECK1: precond:			// CHECK1: precond:
	// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4			// CHECK1-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4
	// CHECK1-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 2			// CHECK1-NEXT: [[TMP9:%.*]] = icmp ult i32 [[TMP8]], 2
	// CHECK1-NEXT: br i1 [[TMP6]], label [[BODY:%.]], label [[EXIT:%.]]			// CHECK1-NEXT: br i1 [[TMP9]], label [[BODY:%.]], label [[EXIT:%.]]
	// CHECK1: body:			// CHECK1: body:
	// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2:[0-9]+]], i32 [[TMP2]])			// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2:[0-9]+]], i32 [[TMP2]])
	// CHECK1-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK1-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK1-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK1-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK1: then:			// CHECK1: then:
	// CHECK1-NEXT: [[TMP7:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0			// CHECK1-NEXT: [[TMP10:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP7]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP8:%.]] = load i8, i8** [[TMP7]], align 8			// CHECK1-NEXT: [[TMP11:%.]] = load i8, i8** [[TMP10]], align 8
	// CHECK1-NEXT: [[TMP9:%.]] = bitcast i8 [[TMP8]] to i32*			// CHECK1-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP11]] to i32*
	// CHECK1-NEXT: [[TMP10:%.]] = getelementptr i32, i32 [[TMP9]], i32 [[TMP5]]			// CHECK1-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i32 [[TMP8]]
	// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK1-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK1-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP10]], align 4			// CHECK1-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP13]], align 4
	// CHECK1-NEXT: store volatile i32 [[TMP12]], i32 addrspace(3)* [[TMP11]], align 4			// CHECK1-NEXT: store volatile i32 [[TMP15]], i32 addrspace(3)* [[TMP14]], align 4
	// CHECK1-NEXT: br label [[IFCONT:%.*]]			// CHECK1-NEXT: br label [[IFCONT:%.*]]
	// CHECK1: else:			// CHECK1: else:
	// CHECK1-NEXT: br label [[IFCONT]]			// CHECK1-NEXT: br label [[IFCONT]]
	// CHECK1: ifcont:			// CHECK1: ifcont:
	// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])			// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])
	// CHECK1-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK1-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK1-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]			// CHECK1-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[TMP3]], [[TMP16]]
	// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN2:%.]], label [[ELSE3:%.]]
	// CHECK1: then4:			// CHECK1: then2:
	// CHECK1-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK1-NEXT: [[TMP17:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK1-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0			// CHECK1-NEXT: [[TMP18:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP7]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8			// CHECK1-NEXT: [[TMP19:%.]] = load i8, i8** [[TMP18]], align 8
	// CHECK1-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*			// CHECK1-NEXT: [[TMP20:%.]] = bitcast i8 [[TMP19]] to i32*
	// CHECK1-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]			// CHECK1-NEXT: [[TMP21:%.]] = getelementptr i32, i32 [[TMP20]], i32 [[TMP8]]
	// CHECK1-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4			// CHECK1-NEXT: [[TMP22:%.]] = load volatile i32, i32 addrspace(3) [[TMP17]], align 4
	// CHECK1-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4			// CHECK1-NEXT: store i32 [[TMP22]], i32* [[TMP21]], align 4
	// CHECK1-NEXT: br label [[IFCONT6:%.*]]			// CHECK1-NEXT: br label [[IFCONT4:%.*]]
	// CHECK1: else5:			// CHECK1: else3:
	// CHECK1-NEXT: br label [[IFCONT6]]			// CHECK1-NEXT: br label [[IFCONT4]]
	// CHECK1: ifcont6:			// CHECK1: ifcont4:
	// CHECK1-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1			// CHECK1-NEXT: [[TMP23:%.*]] = add nsw i32 [[TMP8]], 1
	// CHECK1-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4			// CHECK1-NEXT: store i32 [[TMP23]], i32* [[DOTCNT_ADDR]], align 4
	// CHECK1-NEXT: br label [[PRECOND]]			// CHECK1-NEXT: br label [[PRECOND]]
	// CHECK1: exit:			// CHECK1: exit:
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_list_to_global_copy_func			// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_list_to_global_copy_func
	// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {			// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	Show All 33 Lines
	// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK1-NEXT: [[TMP6:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 0			// CHECK1-NEXT: [[TMP6:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 0
	// CHECK1-NEXT: [[E:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP4]], i32 0, i32 0			// CHECK1-NEXT: [[E:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP4]], i32 0, i32 0
	// CHECK1-NEXT: [[TMP7:%.]] = getelementptr inbounds [1024 x double], [1024 x double] [[E]], i32 0, i32 [[TMP5]]			// CHECK1-NEXT: [[TMP7:%.]] = getelementptr inbounds [1024 x double], [1024 x double] [[E]], i32 0, i32 [[TMP5]]
	// CHECK1-NEXT: [[TMP8:%.]] = bitcast double [[TMP7]] to i8*			// CHECK1-NEXT: [[TMP8:%.]] = bitcast double [[TMP7]] to i8*
	// CHECK1-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 8			// CHECK1-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 8
	// CHECK1-NEXT: [[TMP9:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK1-NEXT: [[TMP9:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK1-NEXT: [[TMP10:%.]] = load i8, i8** [[DOTADDR2]], align 8			// CHECK1-NEXT: [[TMP10:%.]] = load i8, i8** [[DOTADDR2]], align 8
	// CHECK1-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP9]], i8* [[TMP10]]) #[[ATTR4]]			// CHECK1-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP9]], i8* [[TMP10]]) #[[ATTR3]]
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_global_to_list_copy_func			// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_global_to_list_copy_func
	// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {			// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	Show All 31 Lines
	// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK1-NEXT: [[TMP6:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 0			// CHECK1-NEXT: [[TMP6:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 0
	// CHECK1-NEXT: [[E:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP4]], i32 0, i32 0			// CHECK1-NEXT: [[E:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP4]], i32 0, i32 0
	// CHECK1-NEXT: [[TMP7:%.]] = getelementptr inbounds [1024 x double], [1024 x double] [[E]], i32 0, i32 [[TMP5]]			// CHECK1-NEXT: [[TMP7:%.]] = getelementptr inbounds [1024 x double], [1024 x double] [[E]], i32 0, i32 [[TMP5]]
	// CHECK1-NEXT: [[TMP8:%.]] = bitcast double [[TMP7]] to i8*			// CHECK1-NEXT: [[TMP8:%.]] = bitcast double [[TMP7]] to i8*
	// CHECK1-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 8			// CHECK1-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 8
	// CHECK1-NEXT: [[TMP9:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK1-NEXT: [[TMP9:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK1-NEXT: [[TMP10:%.]] = load i8, i8** [[DOTADDR2]], align 8			// CHECK1-NEXT: [[TMP10:%.]] = load i8, i8** [[DOTADDR2]], align 8
	// CHECK1-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP10]], i8* [[TMP9]]) #[[ATTR4]]			// CHECK1-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP10]], i8* [[TMP9]]) #[[ATTR3]]
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l26			// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l26
	// CHECK1-SAME: (i64 [[C:%.]], i64 [[D:%.]]) #[[ATTR0]] {			// CHECK1-SAME: (i64 [[C:%.]], i64 [[D:%.]]) #[[ATTR0]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[C_ADDR:%.*]] = alloca i64, align 8			// CHECK1-NEXT: [[C_ADDR:%.*]] = alloca i64, align 8
	// CHECK1-NEXT: [[D_ADDR:%.*]] = alloca i64, align 8			// CHECK1-NEXT: [[D_ADDR:%.*]] = alloca i64, align 8
	Show All 12 Lines
	// CHECK1-NEXT: store i8 [[TMP1]], i8* [[C2]], align 1			// CHECK1-NEXT: store i8 [[TMP1]], i8* [[C2]], align 1
	// CHECK1-NEXT: [[TMP2:%.]] = load float, float [[CONV1]], align 8			// CHECK1-NEXT: [[TMP2:%.]] = load float, float [[CONV1]], align 8
	// CHECK1-NEXT: [[D3:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK1-NEXT: [[D3:%.]] = call i8 @__kmpc_alloc_shared(i64 4)
	// CHECK1-NEXT: [[D_ON_STACK:%.]] = bitcast i8 [[D3]] to float*			// CHECK1-NEXT: [[D_ON_STACK:%.]] = bitcast i8 [[D3]] to float*
	// CHECK1-NEXT: store float [[TMP2]], float* [[D_ON_STACK]], align 4			// CHECK1-NEXT: store float [[TMP2]], float* [[D_ON_STACK]], align 4
	// CHECK1-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK1-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK1-NEXT: store i32 [[TMP3]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK1-NEXT: store i32 [[TMP3]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK1-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i8* [[C2]], float* [[D_ON_STACK]]) #[[ATTR4]]			// CHECK1-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i8* [[C2]], float* [[D_ON_STACK]]) #[[ATTR3]]
	// CHECK1-NEXT: call void @__kmpc_free_shared(i8* [[D3]], i64 4)			// CHECK1-NEXT: call void @__kmpc_free_shared(i8* [[D3]], i64 4)
	// CHECK1-NEXT: call void @__kmpc_free_shared(i8* [[C2]], i64 1)			// CHECK1-NEXT: call void @__kmpc_free_shared(i8* [[C2]], i64 1)
	// CHECK1-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)			// CHECK1-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	// CHECK1: worker.exit:			// CHECK1: worker.exit:
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: [[TMP7:%.]] = load i16, i16 [[DOTADDR2]], align 2			// CHECK1-NEXT: [[TMP7:%.]] = load i16, i16 [[DOTADDR2]], align 2
	// CHECK1-NEXT: [[TMP8:%.]] = load i16, i16 [[DOTADDR3]], align 2			// CHECK1-NEXT: [[TMP8:%.]] = load i16, i16 [[DOTADDR3]], align 2
	// CHECK1-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 0			// CHECK1-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 8			// CHECK1-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 8
	// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP12:%.]] = getelementptr i8, i8 [[TMP10]], i64 1			// CHECK1-NEXT: [[TMP12:%.]] = getelementptr i8, i8 [[TMP10]], i64 1
	// CHECK1-NEXT: [[TMP13:%.]] = load i8, i8 [[TMP10]], align 1			// CHECK1-NEXT: [[TMP13:%.]] = load i8, i8 [[TMP10]], align 1
	// CHECK1-NEXT: [[TMP14:%.*]] = sext i8 [[TMP13]] to i32			// CHECK1-NEXT: [[TMP14:%.*]] = sext i8 [[TMP13]] to i32
	// CHECK1-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK1-NEXT: [[TMP15:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK1-NEXT: [[TMP15:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK1-NEXT: [[TMP16:%.*]] = trunc i32 [[TMP15]] to i16
	// CHECK1-NEXT: [[TMP16:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP14]], i16 [[TMP7]], i16 [[TMP15]])			// CHECK1-NEXT: [[TMP17:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP14]], i16 [[TMP7]], i16 [[TMP16]])
	// CHECK1-NEXT: [[TMP17:%.*]] = trunc i32 [[TMP16]] to i8			// CHECK1-NEXT: [[TMP18:%.*]] = trunc i32 [[TMP17]] to i8
	// CHECK1-NEXT: store i8 [[TMP17]], i8* [[DOTOMP_REDUCTION_ELEMENT]], align 1			// CHECK1-NEXT: store i8 [[TMP18]], i8* [[DOTOMP_REDUCTION_ELEMENT]], align 1
	// CHECK1-NEXT: [[TMP18:%.]] = getelementptr i8, i8 [[TMP10]], i64 1			// CHECK1-NEXT: [[TMP19:%.]] = getelementptr i8, i8 [[TMP10]], i64 1
	// CHECK1-NEXT: [[TMP19:%.]] = getelementptr i8, i8 [[DOTOMP_REDUCTION_ELEMENT]], i64 1			// CHECK1-NEXT: [[TMP20:%.]] = getelementptr i8, i8 [[DOTOMP_REDUCTION_ELEMENT]], i64 1
	// CHECK1-NEXT: store i8* [[DOTOMP_REDUCTION_ELEMENT]], i8** [[TMP11]], align 8			// CHECK1-NEXT: store i8* [[DOTOMP_REDUCTION_ELEMENT]], i8** [[TMP11]], align 8
	// CHECK1-NEXT: [[TMP20:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 1			// CHECK1-NEXT: [[TMP21:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 1
	// CHECK1-NEXT: [[TMP21:%.]] = load i8, i8** [[TMP20]], align 8			// CHECK1-NEXT: [[TMP22:%.]] = load i8, i8** [[TMP21]], align 8
	// CHECK1-NEXT: [[TMP22:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 1			// CHECK1-NEXT: [[TMP23:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 1
	// CHECK1-NEXT: [[TMP23:%.]] = bitcast i8 [[TMP21]] to float*			// CHECK1-NEXT: [[TMP24:%.]] = bitcast i8 [[TMP22]] to float*
	// CHECK1-NEXT: [[TMP24:%.]] = getelementptr float, float [[TMP23]], i64 1			// CHECK1-NEXT: [[TMP25:%.]] = getelementptr float, float [[TMP24]], i64 1
	// CHECK1-NEXT: [[TMP25:%.]] = bitcast float [[TMP24]] to i8*			// CHECK1-NEXT: [[TMP26:%.]] = bitcast float [[TMP25]] to i8*
	// CHECK1-NEXT: [[TMP26:%.]] = bitcast float [[TMP23]] to i32*			// CHECK1-NEXT: [[TMP27:%.]] = bitcast float [[TMP24]] to i32*
	// CHECK1-NEXT: [[TMP27:%.]] = bitcast float [[DOTOMP_REDUCTION_ELEMENT4]] to i32*			// CHECK1-NEXT: [[TMP28:%.]] = bitcast float [[DOTOMP_REDUCTION_ELEMENT4]] to i32*
	// CHECK1-NEXT: [[TMP28:%.]] = load i32, i32 [[TMP26]], align 4			// CHECK1-NEXT: [[TMP29:%.]] = load i32, i32 [[TMP27]], align 4
	// CHECK1-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK1-NEXT: [[TMP30:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK1-NEXT: [[TMP29:%.*]] = trunc i32 [[NVPTX_WARP_SIZE5]] to i16			// CHECK1-NEXT: [[TMP31:%.*]] = trunc i32 [[TMP30]] to i16
	// CHECK1-NEXT: [[TMP30:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP28]], i16 [[TMP7]], i16 [[TMP29]])			// CHECK1-NEXT: [[TMP32:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP29]], i16 [[TMP7]], i16 [[TMP31]])
	// CHECK1-NEXT: store i32 [[TMP30]], i32* [[TMP27]], align 4			// CHECK1-NEXT: store i32 [[TMP32]], i32* [[TMP28]], align 4
	// CHECK1-NEXT: [[TMP31:%.]] = getelementptr i32, i32 [[TMP26]], i64 1			// CHECK1-NEXT: [[TMP33:%.]] = getelementptr i32, i32 [[TMP27]], i64 1
	// CHECK1-NEXT: [[TMP32:%.]] = getelementptr i32, i32 [[TMP27]], i64 1			// CHECK1-NEXT: [[TMP34:%.]] = getelementptr i32, i32 [[TMP28]], i64 1
	// CHECK1-NEXT: [[TMP33:%.]] = bitcast float [[DOTOMP_REDUCTION_ELEMENT4]] to i8*			// CHECK1-NEXT: [[TMP35:%.]] = bitcast float [[DOTOMP_REDUCTION_ELEMENT4]] to i8*
	// CHECK1-NEXT: store i8* [[TMP33]], i8** [[TMP22]], align 8			// CHECK1-NEXT: store i8* [[TMP35]], i8** [[TMP23]], align 8
	// CHECK1-NEXT: [[TMP34:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK1-NEXT: [[TMP36:%.*]] = icmp eq i16 [[TMP8]], 0
	// CHECK1-NEXT: [[TMP35:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK1-NEXT: [[TMP37:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK1-NEXT: [[TMP36:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]			// CHECK1-NEXT: [[TMP38:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]
	// CHECK1-NEXT: [[TMP37:%.*]] = and i1 [[TMP35]], [[TMP36]]			// CHECK1-NEXT: [[TMP39:%.*]] = and i1 [[TMP37]], [[TMP38]]
	// CHECK1-NEXT: [[TMP38:%.*]] = icmp eq i16 [[TMP8]], 2			// CHECK1-NEXT: [[TMP40:%.*]] = icmp eq i16 [[TMP8]], 2
	// CHECK1-NEXT: [[TMP39:%.*]] = and i16 [[TMP6]], 1			// CHECK1-NEXT: [[TMP41:%.*]] = and i16 [[TMP6]], 1
	// CHECK1-NEXT: [[TMP40:%.*]] = icmp eq i16 [[TMP39]], 0			// CHECK1-NEXT: [[TMP42:%.*]] = icmp eq i16 [[TMP41]], 0
	// CHECK1-NEXT: [[TMP41:%.*]] = and i1 [[TMP38]], [[TMP40]]			// CHECK1-NEXT: [[TMP43:%.*]] = and i1 [[TMP40]], [[TMP42]]
	// CHECK1-NEXT: [[TMP42:%.*]] = icmp sgt i16 [[TMP7]], 0			// CHECK1-NEXT: [[TMP44:%.*]] = icmp sgt i16 [[TMP7]], 0
	// CHECK1-NEXT: [[TMP43:%.*]] = and i1 [[TMP41]], [[TMP42]]			// CHECK1-NEXT: [[TMP45:%.*]] = and i1 [[TMP43]], [[TMP44]]
	// CHECK1-NEXT: [[TMP44:%.*]] = or i1 [[TMP34]], [[TMP37]]			// CHECK1-NEXT: [[TMP46:%.*]] = or i1 [[TMP36]], [[TMP39]]
	// CHECK1-NEXT: [[TMP45:%.*]] = or i1 [[TMP44]], [[TMP43]]			// CHECK1-NEXT: [[TMP47:%.*]] = or i1 [[TMP46]], [[TMP45]]
	// CHECK1-NEXT: br i1 [[TMP45]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK1-NEXT: br i1 [[TMP47]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK1: then:			// CHECK1: then:
	// CHECK1-NEXT: [[TMP46:%.]] = bitcast [2 x i8]* [[TMP5]] to i8*			// CHECK1-NEXT: [[TMP48:%.]] = bitcast [2 x i8]* [[TMP5]] to i8*
	// CHECK1-NEXT: [[TMP47:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*			// CHECK1-NEXT: [[TMP49:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*
	// CHECK1-NEXT: call void @"_omp$reduction$reduction_func2"(i8* [[TMP46]], i8* [[TMP47]]) #[[ATTR4]]			// CHECK1-NEXT: call void @"_omp$reduction$reduction_func2"(i8* [[TMP48]], i8* [[TMP49]]) #[[ATTR3]]
	// CHECK1-NEXT: br label [[IFCONT:%.*]]			// CHECK1-NEXT: br label [[IFCONT:%.*]]
	// CHECK1: else:			// CHECK1: else:
	// CHECK1-NEXT: br label [[IFCONT]]			// CHECK1-NEXT: br label [[IFCONT]]
	// CHECK1: ifcont:			// CHECK1: ifcont:
	// CHECK1-NEXT: [[TMP48:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK1-NEXT: [[TMP50:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK1-NEXT: [[TMP49:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]			// CHECK1-NEXT: [[TMP51:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]
	// CHECK1-NEXT: [[TMP50:%.*]] = and i1 [[TMP48]], [[TMP49]]			// CHECK1-NEXT: [[TMP52:%.*]] = and i1 [[TMP50]], [[TMP51]]
	// CHECK1-NEXT: br i1 [[TMP50]], label [[THEN6:%.]], label [[ELSE7:%.]]			// CHECK1-NEXT: br i1 [[TMP52]], label [[THEN5:%.]], label [[ELSE6:%.]]
	// CHECK1: then6:			// CHECK1: then5:
	// CHECK1-NEXT: [[TMP51:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK1-NEXT: [[TMP53:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP52:%.]] = load i8, i8** [[TMP51]], align 8
	// CHECK1-NEXT: [[TMP53:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP54:%.]] = load i8, i8** [[TMP53]], align 8			// CHECK1-NEXT: [[TMP54:%.]] = load i8, i8** [[TMP53]], align 8
	// CHECK1-NEXT: [[TMP55:%.]] = load i8, i8 [[TMP52]], align 1			// CHECK1-NEXT: [[TMP55:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 0
	// CHECK1-NEXT: store i8 [[TMP55]], i8* [[TMP54]], align 1			// CHECK1-NEXT: [[TMP56:%.]] = load i8, i8** [[TMP55]], align 8
	// CHECK1-NEXT: [[TMP56:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 1			// CHECK1-NEXT: [[TMP57:%.]] = load i8, i8 [[TMP54]], align 1
	// CHECK1-NEXT: [[TMP57:%.]] = load i8, i8** [[TMP56]], align 8			// CHECK1-NEXT: store i8 [[TMP57]], i8* [[TMP56]], align 1
	// CHECK1-NEXT: [[TMP58:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 1			// CHECK1-NEXT: [[TMP58:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 1
	// CHECK1-NEXT: [[TMP59:%.]] = load i8, i8** [[TMP58]], align 8			// CHECK1-NEXT: [[TMP59:%.]] = load i8, i8** [[TMP58]], align 8
	// CHECK1-NEXT: [[TMP60:%.]] = bitcast i8 [[TMP57]] to float*			// CHECK1-NEXT: [[TMP60:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 1
	// CHECK1-NEXT: [[TMP61:%.]] = bitcast i8 [[TMP59]] to float*			// CHECK1-NEXT: [[TMP61:%.]] = load i8, i8** [[TMP60]], align 8
	// CHECK1-NEXT: [[TMP62:%.]] = load float, float [[TMP60]], align 4			// CHECK1-NEXT: [[TMP62:%.]] = bitcast i8 [[TMP59]] to float*
	// CHECK1-NEXT: store float [[TMP62]], float* [[TMP61]], align 4			// CHECK1-NEXT: [[TMP63:%.]] = bitcast i8 [[TMP61]] to float*
	// CHECK1-NEXT: br label [[IFCONT8:%.*]]			// CHECK1-NEXT: [[TMP64:%.]] = load float, float [[TMP62]], align 4
	// CHECK1: else7:			// CHECK1-NEXT: store float [[TMP64]], float* [[TMP63]], align 4
	// CHECK1-NEXT: br label [[IFCONT8]]			// CHECK1-NEXT: br label [[IFCONT7:%.*]]
	// CHECK1: ifcont8:			// CHECK1: else6:
				// CHECK1-NEXT: br label [[IFCONT7]]
				// CHECK1: ifcont7:
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func4			// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func4
	// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {			// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK1-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8			// CHECK1-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8
	// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	// CHECK1-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK1-NEXT: [[TMP3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_TID2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK1-NEXT: [[TMP4:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK1-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[TMP4]], 31
	// CHECK1-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK1-NEXT: [[TMP5:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK1-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[TMP5]], 5
	// CHECK1-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8			// CHECK1-NEXT: [[TMP6:%.]] = load i8, i8** [[DOTADDR]], align 8
	// CHECK1-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [2 x i8]			// CHECK1-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to [2 x i8]
	// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])			// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])
	// CHECK1-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK1-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK1-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK1-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK1: then:			// CHECK1: then:
	// CHECK1-NEXT: [[TMP5:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i64 0, i64 0			// CHECK1-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP6:%.]] = load i8, i8** [[TMP5]], align 8			// CHECK1-NEXT: [[TMP9:%.]] = load i8, i8** [[TMP8]], align 8
	// CHECK1-NEXT: [[TMP7:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK1-NEXT: [[TMP10:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK1-NEXT: [[TMP8:%.]] = bitcast i32 addrspace(3) [[TMP7]] to i8 addrspace(3)*			// CHECK1-NEXT: [[TMP11:%.]] = bitcast i32 addrspace(3) [[TMP10]] to i8 addrspace(3)*
	// CHECK1-NEXT: [[TMP9:%.]] = load i8, i8 [[TMP6]], align 1			// CHECK1-NEXT: [[TMP12:%.]] = load i8, i8 [[TMP9]], align 1
	// CHECK1-NEXT: store volatile i8 [[TMP9]], i8 addrspace(3)* [[TMP8]], align 1			// CHECK1-NEXT: store volatile i8 [[TMP12]], i8 addrspace(3)* [[TMP11]], align 1
	// CHECK1-NEXT: br label [[IFCONT:%.*]]			// CHECK1-NEXT: br label [[IFCONT:%.*]]
	// CHECK1: else:			// CHECK1: else:
	// CHECK1-NEXT: br label [[IFCONT]]			// CHECK1-NEXT: br label [[IFCONT]]
	// CHECK1: ifcont:			// CHECK1: ifcont:
	// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])			// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])
	// CHECK1-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK1-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK1-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP10]]			// CHECK1-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[TMP3]], [[TMP13]]
	// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN2:%.]], label [[ELSE3:%.]]
	// CHECK1: then4:			// CHECK1: then2:
	// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK1-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK1-NEXT: [[TMP12:%.]] = bitcast i32 addrspace(3) [[TMP11]] to i8 addrspace(3)*			// CHECK1-NEXT: [[TMP15:%.]] = bitcast i32 addrspace(3) [[TMP14]] to i8 addrspace(3)*
	// CHECK1-NEXT: [[TMP13:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i64 0, i64 0			// CHECK1-NEXT: [[TMP16:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP14:%.]] = load i8, i8** [[TMP13]], align 8
	// CHECK1-NEXT: [[TMP15:%.]] = load volatile i8, i8 addrspace(3) [[TMP12]], align 1
	// CHECK1-NEXT: store i8 [[TMP15]], i8* [[TMP14]], align 1
	// CHECK1-NEXT: br label [[IFCONT6:%.*]]
	// CHECK1: else5:
	// CHECK1-NEXT: br label [[IFCONT6]]
	// CHECK1: ifcont6:
	// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])
	// CHECK1-NEXT: [[WARP_MASTER7:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK1-NEXT: br i1 [[WARP_MASTER7]], label [[THEN8:%.]], label [[ELSE9:%.]]
	// CHECK1: then8:
	// CHECK1-NEXT: [[TMP16:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i64 0, i64 1
	// CHECK1-NEXT: [[TMP17:%.]] = load i8, i8** [[TMP16]], align 8			// CHECK1-NEXT: [[TMP17:%.]] = load i8, i8** [[TMP16]], align 8
	// CHECK1-NEXT: [[TMP18:%.]] = bitcast i8 [[TMP17]] to i32*			// CHECK1-NEXT: [[TMP18:%.]] = load volatile i8, i8 addrspace(3) [[TMP15]], align 1
	// CHECK1-NEXT: [[TMP19:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK1-NEXT: store i8 [[TMP18]], i8* [[TMP17]], align 1
	// CHECK1-NEXT: [[TMP20:%.]] = load i32, i32 [[TMP18]], align 4			// CHECK1-NEXT: br label [[IFCONT4:%.*]]
	// CHECK1-NEXT: store volatile i32 [[TMP20]], i32 addrspace(3)* [[TMP19]], align 4			// CHECK1: else3:
	// CHECK1-NEXT: br label [[IFCONT10:%.*]]			// CHECK1-NEXT: br label [[IFCONT4]]
	// CHECK1: else9:			// CHECK1: ifcont4:
	// CHECK1-NEXT: br label [[IFCONT10]]			// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])
	// CHECK1: ifcont10:			// CHECK1-NEXT: [[WARP_MASTER5:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
				// CHECK1-NEXT: br i1 [[WARP_MASTER5]], label [[THEN6:%.]], label [[ELSE7:%.]]
				// CHECK1: then6:
				// CHECK1-NEXT: [[TMP19:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i64 0, i64 1
				// CHECK1-NEXT: [[TMP20:%.]] = load i8, i8** [[TMP19]], align 8
				// CHECK1-NEXT: [[TMP21:%.]] = bitcast i8 [[TMP20]] to i32*
				// CHECK1-NEXT: [[TMP22:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
				// CHECK1-NEXT: [[TMP23:%.]] = load i32, i32 [[TMP21]], align 4
				// CHECK1-NEXT: store volatile i32 [[TMP23]], i32 addrspace(3)* [[TMP22]], align 4
				// CHECK1-NEXT: br label [[IFCONT8:%.*]]
				// CHECK1: else7:
				// CHECK1-NEXT: br label [[IFCONT8]]
				// CHECK1: ifcont8:
	// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])			// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])
	// CHECK1-NEXT: [[TMP21:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK1-NEXT: [[TMP24:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK1-NEXT: [[IS_ACTIVE_THREAD11:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP21]]			// CHECK1-NEXT: [[IS_ACTIVE_THREAD9:%.*]] = icmp ult i32 [[TMP3]], [[TMP24]]
	// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD11]], label [[THEN12:%.]], label [[ELSE13:%.]]			// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD9]], label [[THEN10:%.]], label [[ELSE11:%.]]
	// CHECK1: then12:			// CHECK1: then10:
	// CHECK1-NEXT: [[TMP22:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK1-NEXT: [[TMP25:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK1-NEXT: [[TMP23:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i64 0, i64 1			// CHECK1-NEXT: [[TMP26:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i64 0, i64 1
	// CHECK1-NEXT: [[TMP24:%.]] = load i8, i8** [[TMP23]], align 8			// CHECK1-NEXT: [[TMP27:%.]] = load i8, i8** [[TMP26]], align 8
	// CHECK1-NEXT: [[TMP25:%.]] = bitcast i8 [[TMP24]] to i32*			// CHECK1-NEXT: [[TMP28:%.]] = bitcast i8 [[TMP27]] to i32*
	// CHECK1-NEXT: [[TMP26:%.]] = load volatile i32, i32 addrspace(3) [[TMP22]], align 4			// CHECK1-NEXT: [[TMP29:%.]] = load volatile i32, i32 addrspace(3) [[TMP25]], align 4
	// CHECK1-NEXT: store i32 [[TMP26]], i32* [[TMP25]], align 4			// CHECK1-NEXT: store i32 [[TMP29]], i32* [[TMP28]], align 4
	// CHECK1-NEXT: br label [[IFCONT14:%.*]]			// CHECK1-NEXT: br label [[IFCONT12:%.*]]
	// CHECK1: else13:			// CHECK1: else11:
	// CHECK1-NEXT: br label [[IFCONT14]]			// CHECK1-NEXT: br label [[IFCONT12]]
	// CHECK1: ifcont14:			// CHECK1: ifcont12:
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_list_to_global_copy_func5			// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_list_to_global_copy_func5
	// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {			// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 8			// CHECK1-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 8
	// CHECK1-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 1			// CHECK1-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 1
	// CHECK1-NEXT: [[D:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_0]], %struct._globalized_locals_ty.0 [[TMP4]], i32 0, i32 1			// CHECK1-NEXT: [[D:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_0]], %struct._globalized_locals_ty.0 [[TMP4]], i32 0, i32 1
	// CHECK1-NEXT: [[TMP9:%.]] = getelementptr inbounds [1024 x float], [1024 x float] [[D]], i32 0, i32 [[TMP5]]			// CHECK1-NEXT: [[TMP9:%.]] = getelementptr inbounds [1024 x float], [1024 x float] [[D]], i32 0, i32 [[TMP5]]
	// CHECK1-NEXT: [[TMP10:%.]] = bitcast float [[TMP9]] to i8*			// CHECK1-NEXT: [[TMP10:%.]] = bitcast float [[TMP9]] to i8*
	// CHECK1-NEXT: store i8* [[TMP10]], i8** [[TMP8]], align 8			// CHECK1-NEXT: store i8* [[TMP10]], i8** [[TMP8]], align 8
	// CHECK1-NEXT: [[TMP11:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK1-NEXT: [[TMP11:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK1-NEXT: [[TMP12:%.]] = load i8, i8** [[DOTADDR2]], align 8			// CHECK1-NEXT: [[TMP12:%.]] = load i8, i8** [[DOTADDR2]], align 8
	// CHECK1-NEXT: call void @"_omp$reduction$reduction_func2"(i8* [[TMP11]], i8* [[TMP12]]) #[[ATTR4]]			// CHECK1-NEXT: call void @"_omp$reduction$reduction_func2"(i8* [[TMP11]], i8* [[TMP12]]) #[[ATTR3]]
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_global_to_list_copy_func7			// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_global_to_list_copy_func7
	// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {			// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 8			// CHECK1-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 8
	// CHECK1-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 1			// CHECK1-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 1
	// CHECK1-NEXT: [[D:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_0]], %struct._globalized_locals_ty.0 [[TMP4]], i32 0, i32 1			// CHECK1-NEXT: [[D:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_0]], %struct._globalized_locals_ty.0 [[TMP4]], i32 0, i32 1
	// CHECK1-NEXT: [[TMP9:%.]] = getelementptr inbounds [1024 x float], [1024 x float] [[D]], i32 0, i32 [[TMP5]]			// CHECK1-NEXT: [[TMP9:%.]] = getelementptr inbounds [1024 x float], [1024 x float] [[D]], i32 0, i32 [[TMP5]]
	// CHECK1-NEXT: [[TMP10:%.]] = bitcast float [[TMP9]] to i8*			// CHECK1-NEXT: [[TMP10:%.]] = bitcast float [[TMP9]] to i8*
	// CHECK1-NEXT: store i8* [[TMP10]], i8** [[TMP8]], align 8			// CHECK1-NEXT: store i8* [[TMP10]], i8** [[TMP8]], align 8
	// CHECK1-NEXT: [[TMP11:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK1-NEXT: [[TMP11:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK1-NEXT: [[TMP12:%.]] = load i8, i8** [[DOTADDR2]], align 8			// CHECK1-NEXT: [[TMP12:%.]] = load i8, i8** [[DOTADDR2]], align 8
	// CHECK1-NEXT: call void @"_omp$reduction$reduction_func2"(i8* [[TMP12]], i8* [[TMP11]]) #[[ATTR4]]			// CHECK1-NEXT: call void @"_omp$reduction$reduction_func2"(i8* [[TMP12]], i8* [[TMP11]]) #[[ATTR3]]
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l33			// CHECK1-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l33
	// CHECK1-SAME: (i64 [[A:%.]], i64 [[B:%.]]) #[[ATTR0]] {			// CHECK1-SAME: (i64 [[A:%.]], i64 [[B:%.]]) #[[ATTR0]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[A_ADDR:%.*]] = alloca i64, align 8			// CHECK1-NEXT: [[A_ADDR:%.*]] = alloca i64, align 8
	// CHECK1-NEXT: [[B_ADDR:%.*]] = alloca i64, align 8			// CHECK1-NEXT: [[B_ADDR:%.*]] = alloca i64, align 8
	// CHECK1-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: store i64 [[A]], i64* [[A_ADDR]], align 8			// CHECK1-NEXT: store i64 [[A]], i64* [[A_ADDR]], align 8
	// CHECK1-NEXT: store i64 [[B]], i64* [[B_ADDR]], align 8			// CHECK1-NEXT: store i64 [[B]], i64* [[B_ADDR]], align 8
	// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[A_ADDR]] to i32*			// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[A_ADDR]] to i32*
	// CHECK1-NEXT: [[CONV1:%.]] = bitcast i64 [[B_ADDR]] to i16*			// CHECK1-NEXT: [[CONV1:%.]] = bitcast i64 [[B_ADDR]] to i16*
	// CHECK1-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 2, i1 false, i1 true)			// CHECK1-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 2, i1 false, i1 true)
	// CHECK1-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			// CHECK1-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	// CHECK1-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK1-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK1: user_code.entry:			// CHECK1: user_code.entry:
	// CHECK1-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3:[0-9]+]])			// CHECK1-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3:[0-9]+]])
	// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK1-NEXT: call void @__omp_outlined__9(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32* [[CONV]], i16* [[CONV1]]) #[[ATTR4]]			// CHECK1-NEXT: call void @__omp_outlined__9(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32* [[CONV]], i16* [[CONV1]]) #[[ATTR3]]
	// CHECK1-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 2, i1 true)			// CHECK1-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 2, i1 true)
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	// CHECK1: worker.exit:			// CHECK1: worker.exit:
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__9			// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__9
	// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[B:%.*]]) #[[ATTR0]] {			// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[B:%.*]]) #[[ATTR0]] {
	▲ Show 20 Lines • Show All 155 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: [[TMP8:%.]] = load i16, i16 [[DOTADDR3]], align 2			// CHECK1-NEXT: [[TMP8:%.]] = load i16, i16 [[DOTADDR3]], align 2
	// CHECK1-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 0			// CHECK1-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 8			// CHECK1-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 8
	// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to i32*			// CHECK1-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to i32*
	// CHECK1-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i64 1			// CHECK1-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i64 1
	// CHECK1-NEXT: [[TMP14:%.]] = bitcast i32 [[TMP13]] to i8*			// CHECK1-NEXT: [[TMP14:%.]] = bitcast i32 [[TMP13]] to i8*
	// CHECK1-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP12]], align 4			// CHECK1-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP12]], align 4
	// CHECK1-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK1-NEXT: [[TMP16:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK1-NEXT: [[TMP16:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK1-NEXT: [[TMP17:%.*]] = trunc i32 [[TMP16]] to i16
	// CHECK1-NEXT: [[TMP17:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP15]], i16 [[TMP7]], i16 [[TMP16]])			// CHECK1-NEXT: [[TMP18:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP15]], i16 [[TMP7]], i16 [[TMP17]])
	// CHECK1-NEXT: store i32 [[TMP17]], i32* [[DOTOMP_REDUCTION_ELEMENT]], align 4			// CHECK1-NEXT: store i32 [[TMP18]], i32* [[DOTOMP_REDUCTION_ELEMENT]], align 4
	// CHECK1-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP12]], i64 1			// CHECK1-NEXT: [[TMP19:%.]] = getelementptr i32, i32 [[TMP12]], i64 1
	// CHECK1-NEXT: [[TMP19:%.]] = getelementptr i32, i32 [[DOTOMP_REDUCTION_ELEMENT]], i64 1			// CHECK1-NEXT: [[TMP20:%.]] = getelementptr i32, i32 [[DOTOMP_REDUCTION_ELEMENT]], i64 1
	// CHECK1-NEXT: [[TMP20:%.]] = bitcast i32 [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK1-NEXT: [[TMP21:%.]] = bitcast i32 [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	// CHECK1-NEXT: store i8* [[TMP20]], i8** [[TMP11]], align 8			// CHECK1-NEXT: store i8* [[TMP21]], i8** [[TMP11]], align 8
	// CHECK1-NEXT: [[TMP21:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 1			// CHECK1-NEXT: [[TMP22:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 1
	// CHECK1-NEXT: [[TMP22:%.]] = load i8, i8** [[TMP21]], align 8			// CHECK1-NEXT: [[TMP23:%.]] = load i8, i8** [[TMP22]], align 8
	// CHECK1-NEXT: [[TMP23:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 1			// CHECK1-NEXT: [[TMP24:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 1
	// CHECK1-NEXT: [[TMP24:%.]] = bitcast i8 [[TMP22]] to i16*			// CHECK1-NEXT: [[TMP25:%.]] = bitcast i8 [[TMP23]] to i16*
	// CHECK1-NEXT: [[TMP25:%.]] = getelementptr i16, i16 [[TMP24]], i64 1			// CHECK1-NEXT: [[TMP26:%.]] = getelementptr i16, i16 [[TMP25]], i64 1
	// CHECK1-NEXT: [[TMP26:%.]] = bitcast i16 [[TMP25]] to i8*			// CHECK1-NEXT: [[TMP27:%.]] = bitcast i16 [[TMP26]] to i8*
	// CHECK1-NEXT: [[TMP27:%.]] = load i16, i16 [[TMP24]], align 2			// CHECK1-NEXT: [[TMP28:%.]] = load i16, i16 [[TMP25]], align 2
	// CHECK1-NEXT: [[TMP28:%.*]] = sext i16 [[TMP27]] to i32			// CHECK1-NEXT: [[TMP29:%.*]] = sext i16 [[TMP28]] to i32
	// CHECK1-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK1-NEXT: [[TMP30:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK1-NEXT: [[TMP29:%.*]] = trunc i32 [[NVPTX_WARP_SIZE5]] to i16
	// CHECK1-NEXT: [[TMP30:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP28]], i16 [[TMP7]], i16 [[TMP29]])
	// CHECK1-NEXT: [[TMP31:%.*]] = trunc i32 [[TMP30]] to i16			// CHECK1-NEXT: [[TMP31:%.*]] = trunc i32 [[TMP30]] to i16
	// CHECK1-NEXT: store i16 [[TMP31]], i16* [[DOTOMP_REDUCTION_ELEMENT4]], align 2			// CHECK1-NEXT: [[TMP32:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP29]], i16 [[TMP7]], i16 [[TMP31]])
	// CHECK1-NEXT: [[TMP32:%.]] = getelementptr i16, i16 [[TMP24]], i64 1			// CHECK1-NEXT: [[TMP33:%.*]] = trunc i32 [[TMP32]] to i16
	// CHECK1-NEXT: [[TMP33:%.]] = getelementptr i16, i16 [[DOTOMP_REDUCTION_ELEMENT4]], i64 1			// CHECK1-NEXT: store i16 [[TMP33]], i16* [[DOTOMP_REDUCTION_ELEMENT4]], align 2
	// CHECK1-NEXT: [[TMP34:%.]] = bitcast i16 [[DOTOMP_REDUCTION_ELEMENT4]] to i8*			// CHECK1-NEXT: [[TMP34:%.]] = getelementptr i16, i16 [[TMP25]], i64 1
	// CHECK1-NEXT: store i8* [[TMP34]], i8** [[TMP23]], align 8			// CHECK1-NEXT: [[TMP35:%.]] = getelementptr i16, i16 [[DOTOMP_REDUCTION_ELEMENT4]], i64 1
	// CHECK1-NEXT: [[TMP35:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK1-NEXT: [[TMP36:%.]] = bitcast i16 [[DOTOMP_REDUCTION_ELEMENT4]] to i8*
	// CHECK1-NEXT: [[TMP36:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK1-NEXT: store i8* [[TMP36]], i8** [[TMP24]], align 8
	// CHECK1-NEXT: [[TMP37:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]			// CHECK1-NEXT: [[TMP37:%.*]] = icmp eq i16 [[TMP8]], 0
	// CHECK1-NEXT: [[TMP38:%.*]] = and i1 [[TMP36]], [[TMP37]]			// CHECK1-NEXT: [[TMP38:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK1-NEXT: [[TMP39:%.*]] = icmp eq i16 [[TMP8]], 2			// CHECK1-NEXT: [[TMP39:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]
	// CHECK1-NEXT: [[TMP40:%.*]] = and i16 [[TMP6]], 1			// CHECK1-NEXT: [[TMP40:%.*]] = and i1 [[TMP38]], [[TMP39]]
	// CHECK1-NEXT: [[TMP41:%.*]] = icmp eq i16 [[TMP40]], 0			// CHECK1-NEXT: [[TMP41:%.*]] = icmp eq i16 [[TMP8]], 2
	// CHECK1-NEXT: [[TMP42:%.*]] = and i1 [[TMP39]], [[TMP41]]			// CHECK1-NEXT: [[TMP42:%.*]] = and i16 [[TMP6]], 1
	// CHECK1-NEXT: [[TMP43:%.*]] = icmp sgt i16 [[TMP7]], 0			// CHECK1-NEXT: [[TMP43:%.*]] = icmp eq i16 [[TMP42]], 0
	// CHECK1-NEXT: [[TMP44:%.*]] = and i1 [[TMP42]], [[TMP43]]			// CHECK1-NEXT: [[TMP44:%.*]] = and i1 [[TMP41]], [[TMP43]]
	// CHECK1-NEXT: [[TMP45:%.*]] = or i1 [[TMP35]], [[TMP38]]			// CHECK1-NEXT: [[TMP45:%.*]] = icmp sgt i16 [[TMP7]], 0
	// CHECK1-NEXT: [[TMP46:%.*]] = or i1 [[TMP45]], [[TMP44]]			// CHECK1-NEXT: [[TMP46:%.*]] = and i1 [[TMP44]], [[TMP45]]
	// CHECK1-NEXT: br i1 [[TMP46]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK1-NEXT: [[TMP47:%.*]] = or i1 [[TMP37]], [[TMP40]]
				// CHECK1-NEXT: [[TMP48:%.*]] = or i1 [[TMP47]], [[TMP46]]
				// CHECK1-NEXT: br i1 [[TMP48]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK1: then:			// CHECK1: then:
	// CHECK1-NEXT: [[TMP47:%.]] = bitcast [2 x i8]* [[TMP5]] to i8*			// CHECK1-NEXT: [[TMP49:%.]] = bitcast [2 x i8]* [[TMP5]] to i8*
	// CHECK1-NEXT: [[TMP48:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*			// CHECK1-NEXT: [[TMP50:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*
	// CHECK1-NEXT: call void @"_omp$reduction$reduction_func11"(i8* [[TMP47]], i8* [[TMP48]]) #[[ATTR4]]			// CHECK1-NEXT: call void @"_omp$reduction$reduction_func11"(i8* [[TMP49]], i8* [[TMP50]]) #[[ATTR3]]
	// CHECK1-NEXT: br label [[IFCONT:%.*]]			// CHECK1-NEXT: br label [[IFCONT:%.*]]
	// CHECK1: else:			// CHECK1: else:
	// CHECK1-NEXT: br label [[IFCONT]]			// CHECK1-NEXT: br label [[IFCONT]]
	// CHECK1: ifcont:			// CHECK1: ifcont:
	// CHECK1-NEXT: [[TMP49:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK1-NEXT: [[TMP51:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK1-NEXT: [[TMP50:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]			// CHECK1-NEXT: [[TMP52:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]
	// CHECK1-NEXT: [[TMP51:%.*]] = and i1 [[TMP49]], [[TMP50]]			// CHECK1-NEXT: [[TMP53:%.*]] = and i1 [[TMP51]], [[TMP52]]
	// CHECK1-NEXT: br i1 [[TMP51]], label [[THEN6:%.]], label [[ELSE7:%.]]			// CHECK1-NEXT: br i1 [[TMP53]], label [[THEN5:%.]], label [[ELSE6:%.]]
	// CHECK1: then6:			// CHECK1: then5:
	// CHECK1-NEXT: [[TMP52:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK1-NEXT: [[TMP54:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP53:%.]] = load i8, i8** [[TMP52]], align 8
	// CHECK1-NEXT: [[TMP54:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP55:%.]] = load i8, i8** [[TMP54]], align 8			// CHECK1-NEXT: [[TMP55:%.]] = load i8, i8** [[TMP54]], align 8
	// CHECK1-NEXT: [[TMP56:%.]] = bitcast i8 [[TMP53]] to i32*			// CHECK1-NEXT: [[TMP56:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP57:%.]] = bitcast i8 [[TMP55]] to i32*			// CHECK1-NEXT: [[TMP57:%.]] = load i8, i8** [[TMP56]], align 8
	// CHECK1-NEXT: [[TMP58:%.]] = load i32, i32 [[TMP56]], align 4			// CHECK1-NEXT: [[TMP58:%.]] = bitcast i8 [[TMP55]] to i32*
	// CHECK1-NEXT: store i32 [[TMP58]], i32* [[TMP57]], align 4			// CHECK1-NEXT: [[TMP59:%.]] = bitcast i8 [[TMP57]] to i32*
	// CHECK1-NEXT: [[TMP59:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 1			// CHECK1-NEXT: [[TMP60:%.]] = load i32, i32 [[TMP58]], align 4
	// CHECK1-NEXT: [[TMP60:%.]] = load i8, i8** [[TMP59]], align 8			// CHECK1-NEXT: store i32 [[TMP60]], i32* [[TMP59]], align 4
	// CHECK1-NEXT: [[TMP61:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 1			// CHECK1-NEXT: [[TMP61:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 1
	// CHECK1-NEXT: [[TMP62:%.]] = load i8, i8** [[TMP61]], align 8			// CHECK1-NEXT: [[TMP62:%.]] = load i8, i8** [[TMP61]], align 8
	// CHECK1-NEXT: [[TMP63:%.]] = bitcast i8 [[TMP60]] to i16*			// CHECK1-NEXT: [[TMP63:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 1
	// CHECK1-NEXT: [[TMP64:%.]] = bitcast i8 [[TMP62]] to i16*			// CHECK1-NEXT: [[TMP64:%.]] = load i8, i8** [[TMP63]], align 8
	// CHECK1-NEXT: [[TMP65:%.]] = load i16, i16 [[TMP63]], align 2			// CHECK1-NEXT: [[TMP65:%.]] = bitcast i8 [[TMP62]] to i16*
	// CHECK1-NEXT: store i16 [[TMP65]], i16* [[TMP64]], align 2			// CHECK1-NEXT: [[TMP66:%.]] = bitcast i8 [[TMP64]] to i16*
	// CHECK1-NEXT: br label [[IFCONT8:%.*]]			// CHECK1-NEXT: [[TMP67:%.]] = load i16, i16 [[TMP65]], align 2
	// CHECK1: else7:			// CHECK1-NEXT: store i16 [[TMP67]], i16* [[TMP66]], align 2
	// CHECK1-NEXT: br label [[IFCONT8]]			// CHECK1-NEXT: br label [[IFCONT7:%.*]]
	// CHECK1: ifcont8:			// CHECK1: else6:
				// CHECK1-NEXT: br label [[IFCONT7]]
				// CHECK1: ifcont7:
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func13			// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func13
	// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {			// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3]])			// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3]])
	// CHECK1-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8			// CHECK1-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8
	// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	// CHECK1-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK1-NEXT: [[TMP3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_TID2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK1-NEXT: [[TMP4:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK1-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[TMP4]], 31
	// CHECK1-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK1-NEXT: [[TMP5:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK1-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[TMP5]], 5
	// CHECK1-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8			// CHECK1-NEXT: [[TMP6:%.]] = load i8, i8** [[DOTADDR]], align 8
	// CHECK1-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [2 x i8]			// CHECK1-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to [2 x i8]
	// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4:[0-9]+]], i32 [[TMP2]])			// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4:[0-9]+]], i32 [[TMP2]])
	// CHECK1-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK1-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK1-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK1-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK1: then:			// CHECK1: then:
	// CHECK1-NEXT: [[TMP5:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i64 0, i64 0			// CHECK1-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP6:%.]] = load i8, i8** [[TMP5]], align 8			// CHECK1-NEXT: [[TMP9:%.]] = load i8, i8** [[TMP8]], align 8
	// CHECK1-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to i32*			// CHECK1-NEXT: [[TMP10:%.]] = bitcast i8 [[TMP9]] to i32*
	// CHECK1-NEXT: [[TMP8:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK1-NEXT: [[TMP9:%.]] = load i32, i32 [[TMP7]], align 4			// CHECK1-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP10]], align 4
	// CHECK1-NEXT: store volatile i32 [[TMP9]], i32 addrspace(3)* [[TMP8]], align 4			// CHECK1-NEXT: store volatile i32 [[TMP12]], i32 addrspace(3)* [[TMP11]], align 4
	// CHECK1-NEXT: br label [[IFCONT:%.*]]			// CHECK1-NEXT: br label [[IFCONT:%.*]]
	// CHECK1: else:			// CHECK1: else:
	// CHECK1-NEXT: br label [[IFCONT]]			// CHECK1-NEXT: br label [[IFCONT]]
	// CHECK1: ifcont:			// CHECK1: ifcont:
	// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK1-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK1-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK1-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP10]]			// CHECK1-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[TMP3]], [[TMP13]]
	// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN2:%.]], label [[ELSE3:%.]]
	// CHECK1: then4:			// CHECK1: then2:
	// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK1-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK1-NEXT: [[TMP12:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i64 0, i64 0			// CHECK1-NEXT: [[TMP15:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP13:%.]] = load i8, i8** [[TMP12]], align 8			// CHECK1-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8
	// CHECK1-NEXT: [[TMP14:%.]] = bitcast i8 [[TMP13]] to i32*			// CHECK1-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*
	// CHECK1-NEXT: [[TMP15:%.]] = load volatile i32, i32 addrspace(3) [[TMP11]], align 4			// CHECK1-NEXT: [[TMP18:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4
	// CHECK1-NEXT: store i32 [[TMP15]], i32* [[TMP14]], align 4			// CHECK1-NEXT: store i32 [[TMP18]], i32* [[TMP17]], align 4
	// CHECK1-NEXT: br label [[IFCONT6:%.*]]			// CHECK1-NEXT: br label [[IFCONT4:%.*]]
	// CHECK1: else5:			// CHECK1: else3:
	// CHECK1-NEXT: br label [[IFCONT6]]			// CHECK1-NEXT: br label [[IFCONT4]]
	// CHECK1: ifcont6:			// CHECK1: ifcont4:
	// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK1-NEXT: [[WARP_MASTER7:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK1-NEXT: [[WARP_MASTER5:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK1-NEXT: br i1 [[WARP_MASTER7]], label [[THEN8:%.]], label [[ELSE9:%.]]			// CHECK1-NEXT: br i1 [[WARP_MASTER5]], label [[THEN6:%.]], label [[ELSE7:%.]]
	// CHECK1: then8:			// CHECK1: then6:
	// CHECK1-NEXT: [[TMP16:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i64 0, i64 1			// CHECK1-NEXT: [[TMP19:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i64 0, i64 1
	// CHECK1-NEXT: [[TMP17:%.]] = load i8, i8** [[TMP16]], align 8			// CHECK1-NEXT: [[TMP20:%.]] = load i8, i8** [[TMP19]], align 8
	// CHECK1-NEXT: [[TMP18:%.]] = bitcast i8 [[TMP17]] to i16*			// CHECK1-NEXT: [[TMP21:%.]] = bitcast i8 [[TMP20]] to i16*
	// CHECK1-NEXT: [[TMP19:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK1-NEXT: [[TMP22:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK1-NEXT: [[TMP20:%.]] = bitcast i32 addrspace(3) [[TMP19]] to i16 addrspace(3)*			// CHECK1-NEXT: [[TMP23:%.]] = bitcast i32 addrspace(3) [[TMP22]] to i16 addrspace(3)*
	// CHECK1-NEXT: [[TMP21:%.]] = load i16, i16 [[TMP18]], align 2			// CHECK1-NEXT: [[TMP24:%.]] = load i16, i16 [[TMP21]], align 2
	// CHECK1-NEXT: store volatile i16 [[TMP21]], i16 addrspace(3)* [[TMP20]], align 2			// CHECK1-NEXT: store volatile i16 [[TMP24]], i16 addrspace(3)* [[TMP23]], align 2
	// CHECK1-NEXT: br label [[IFCONT10:%.*]]			// CHECK1-NEXT: br label [[IFCONT8:%.*]]
	// CHECK1: else9:			// CHECK1: else7:
	// CHECK1-NEXT: br label [[IFCONT10]]			// CHECK1-NEXT: br label [[IFCONT8]]
	// CHECK1: ifcont10:			// CHECK1: ifcont8:
	// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK1-NEXT: [[TMP22:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK1-NEXT: [[TMP25:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK1-NEXT: [[IS_ACTIVE_THREAD11:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP22]]			// CHECK1-NEXT: [[IS_ACTIVE_THREAD9:%.*]] = icmp ult i32 [[TMP3]], [[TMP25]]
	// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD11]], label [[THEN12:%.]], label [[ELSE13:%.]]			// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD9]], label [[THEN10:%.]], label [[ELSE11:%.]]
	// CHECK1: then12:			// CHECK1: then10:
	// CHECK1-NEXT: [[TMP23:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK1-NEXT: [[TMP26:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK1-NEXT: [[TMP24:%.]] = bitcast i32 addrspace(3) [[TMP23]] to i16 addrspace(3)*			// CHECK1-NEXT: [[TMP27:%.]] = bitcast i32 addrspace(3) [[TMP26]] to i16 addrspace(3)*
	// CHECK1-NEXT: [[TMP25:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i64 0, i64 1			// CHECK1-NEXT: [[TMP28:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i64 0, i64 1
	// CHECK1-NEXT: [[TMP26:%.]] = load i8, i8** [[TMP25]], align 8			// CHECK1-NEXT: [[TMP29:%.]] = load i8, i8** [[TMP28]], align 8
	// CHECK1-NEXT: [[TMP27:%.]] = bitcast i8 [[TMP26]] to i16*			// CHECK1-NEXT: [[TMP30:%.]] = bitcast i8 [[TMP29]] to i16*
	// CHECK1-NEXT: [[TMP28:%.]] = load volatile i16, i16 addrspace(3) [[TMP24]], align 2			// CHECK1-NEXT: [[TMP31:%.]] = load volatile i16, i16 addrspace(3) [[TMP27]], align 2
	// CHECK1-NEXT: store i16 [[TMP28]], i16* [[TMP27]], align 2			// CHECK1-NEXT: store i16 [[TMP31]], i16* [[TMP30]], align 2
	// CHECK1-NEXT: br label [[IFCONT14:%.*]]			// CHECK1-NEXT: br label [[IFCONT12:%.*]]
	// CHECK1: else13:			// CHECK1: else11:
	// CHECK1-NEXT: br label [[IFCONT14]]			// CHECK1-NEXT: br label [[IFCONT12]]
	// CHECK1: ifcont14:			// CHECK1: ifcont12:
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_shuffle_and_reduce_func15			// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_shuffle_and_reduce_func15
	// CHECK1-SAME: (i8* [[TMP0:%.]], i16 signext [[TMP1:%.]], i16 signext [[TMP2:%.]], i16 signext [[TMP3:%.]]) #[[ATTR2]] {			// CHECK1-SAME: (i8* [[TMP0:%.]], i16 signext [[TMP1:%.]], i16 signext [[TMP2:%.]], i16 signext [[TMP3:%.]]) #[[ATTR2]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i16, align 2			// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i16, align 2
	Show All 13 Lines
	// CHECK1-NEXT: [[TMP8:%.]] = load i16, i16 [[DOTADDR3]], align 2			// CHECK1-NEXT: [[TMP8:%.]] = load i16, i16 [[DOTADDR3]], align 2
	// CHECK1-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 0			// CHECK1-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 8			// CHECK1-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 8
	// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to i32*			// CHECK1-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to i32*
	// CHECK1-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i64 1			// CHECK1-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i64 1
	// CHECK1-NEXT: [[TMP14:%.]] = bitcast i32 [[TMP13]] to i8*			// CHECK1-NEXT: [[TMP14:%.]] = bitcast i32 [[TMP13]] to i8*
	// CHECK1-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP12]], align 4			// CHECK1-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP12]], align 4
	// CHECK1-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK1-NEXT: [[TMP16:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK1-NEXT: [[TMP16:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK1-NEXT: [[TMP17:%.*]] = trunc i32 [[TMP16]] to i16
	// CHECK1-NEXT: [[TMP17:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP15]], i16 [[TMP7]], i16 [[TMP16]])			// CHECK1-NEXT: [[TMP18:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP15]], i16 [[TMP7]], i16 [[TMP17]])
	// CHECK1-NEXT: store i32 [[TMP17]], i32* [[DOTOMP_REDUCTION_ELEMENT]], align 4			// CHECK1-NEXT: store i32 [[TMP18]], i32* [[DOTOMP_REDUCTION_ELEMENT]], align 4
	// CHECK1-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP12]], i64 1			// CHECK1-NEXT: [[TMP19:%.]] = getelementptr i32, i32 [[TMP12]], i64 1
	// CHECK1-NEXT: [[TMP19:%.]] = getelementptr i32, i32 [[DOTOMP_REDUCTION_ELEMENT]], i64 1			// CHECK1-NEXT: [[TMP20:%.]] = getelementptr i32, i32 [[DOTOMP_REDUCTION_ELEMENT]], i64 1
	// CHECK1-NEXT: [[TMP20:%.]] = bitcast i32 [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK1-NEXT: [[TMP21:%.]] = bitcast i32 [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	// CHECK1-NEXT: store i8* [[TMP20]], i8** [[TMP11]], align 8			// CHECK1-NEXT: store i8* [[TMP21]], i8** [[TMP11]], align 8
	// CHECK1-NEXT: [[TMP21:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 1			// CHECK1-NEXT: [[TMP22:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 1
	// CHECK1-NEXT: [[TMP22:%.]] = load i8, i8** [[TMP21]], align 8			// CHECK1-NEXT: [[TMP23:%.]] = load i8, i8** [[TMP22]], align 8
	// CHECK1-NEXT: [[TMP23:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 1			// CHECK1-NEXT: [[TMP24:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 1
	// CHECK1-NEXT: [[TMP24:%.]] = bitcast i8 [[TMP22]] to i16*			// CHECK1-NEXT: [[TMP25:%.]] = bitcast i8 [[TMP23]] to i16*
	// CHECK1-NEXT: [[TMP25:%.]] = getelementptr i16, i16 [[TMP24]], i64 1			// CHECK1-NEXT: [[TMP26:%.]] = getelementptr i16, i16 [[TMP25]], i64 1
	// CHECK1-NEXT: [[TMP26:%.]] = bitcast i16 [[TMP25]] to i8*			// CHECK1-NEXT: [[TMP27:%.]] = bitcast i16 [[TMP26]] to i8*
	// CHECK1-NEXT: [[TMP27:%.]] = load i16, i16 [[TMP24]], align 2			// CHECK1-NEXT: [[TMP28:%.]] = load i16, i16 [[TMP25]], align 2
	// CHECK1-NEXT: [[TMP28:%.*]] = sext i16 [[TMP27]] to i32			// CHECK1-NEXT: [[TMP29:%.*]] = sext i16 [[TMP28]] to i32
	// CHECK1-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK1-NEXT: [[TMP30:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK1-NEXT: [[TMP29:%.*]] = trunc i32 [[NVPTX_WARP_SIZE5]] to i16
	// CHECK1-NEXT: [[TMP30:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP28]], i16 [[TMP7]], i16 [[TMP29]])
	// CHECK1-NEXT: [[TMP31:%.*]] = trunc i32 [[TMP30]] to i16			// CHECK1-NEXT: [[TMP31:%.*]] = trunc i32 [[TMP30]] to i16
	// CHECK1-NEXT: store i16 [[TMP31]], i16* [[DOTOMP_REDUCTION_ELEMENT4]], align 2			// CHECK1-NEXT: [[TMP32:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP29]], i16 [[TMP7]], i16 [[TMP31]])
	// CHECK1-NEXT: [[TMP32:%.]] = getelementptr i16, i16 [[TMP24]], i64 1			// CHECK1-NEXT: [[TMP33:%.*]] = trunc i32 [[TMP32]] to i16
	// CHECK1-NEXT: [[TMP33:%.]] = getelementptr i16, i16 [[DOTOMP_REDUCTION_ELEMENT4]], i64 1			// CHECK1-NEXT: store i16 [[TMP33]], i16* [[DOTOMP_REDUCTION_ELEMENT4]], align 2
	// CHECK1-NEXT: [[TMP34:%.]] = bitcast i16 [[DOTOMP_REDUCTION_ELEMENT4]] to i8*			// CHECK1-NEXT: [[TMP34:%.]] = getelementptr i16, i16 [[TMP25]], i64 1
	// CHECK1-NEXT: store i8* [[TMP34]], i8** [[TMP23]], align 8			// CHECK1-NEXT: [[TMP35:%.]] = getelementptr i16, i16 [[DOTOMP_REDUCTION_ELEMENT4]], i64 1
	// CHECK1-NEXT: [[TMP35:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK1-NEXT: [[TMP36:%.]] = bitcast i16 [[DOTOMP_REDUCTION_ELEMENT4]] to i8*
	// CHECK1-NEXT: [[TMP36:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK1-NEXT: store i8* [[TMP36]], i8** [[TMP24]], align 8
	// CHECK1-NEXT: [[TMP37:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]			// CHECK1-NEXT: [[TMP37:%.*]] = icmp eq i16 [[TMP8]], 0
	// CHECK1-NEXT: [[TMP38:%.*]] = and i1 [[TMP36]], [[TMP37]]			// CHECK1-NEXT: [[TMP38:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK1-NEXT: [[TMP39:%.*]] = icmp eq i16 [[TMP8]], 2			// CHECK1-NEXT: [[TMP39:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]
	// CHECK1-NEXT: [[TMP40:%.*]] = and i16 [[TMP6]], 1			// CHECK1-NEXT: [[TMP40:%.*]] = and i1 [[TMP38]], [[TMP39]]
	// CHECK1-NEXT: [[TMP41:%.*]] = icmp eq i16 [[TMP40]], 0			// CHECK1-NEXT: [[TMP41:%.*]] = icmp eq i16 [[TMP8]], 2
	// CHECK1-NEXT: [[TMP42:%.*]] = and i1 [[TMP39]], [[TMP41]]			// CHECK1-NEXT: [[TMP42:%.*]] = and i16 [[TMP6]], 1
	// CHECK1-NEXT: [[TMP43:%.*]] = icmp sgt i16 [[TMP7]], 0			// CHECK1-NEXT: [[TMP43:%.*]] = icmp eq i16 [[TMP42]], 0
	// CHECK1-NEXT: [[TMP44:%.*]] = and i1 [[TMP42]], [[TMP43]]			// CHECK1-NEXT: [[TMP44:%.*]] = and i1 [[TMP41]], [[TMP43]]
	// CHECK1-NEXT: [[TMP45:%.*]] = or i1 [[TMP35]], [[TMP38]]			// CHECK1-NEXT: [[TMP45:%.*]] = icmp sgt i16 [[TMP7]], 0
	// CHECK1-NEXT: [[TMP46:%.*]] = or i1 [[TMP45]], [[TMP44]]			// CHECK1-NEXT: [[TMP46:%.*]] = and i1 [[TMP44]], [[TMP45]]
	// CHECK1-NEXT: br i1 [[TMP46]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK1-NEXT: [[TMP47:%.*]] = or i1 [[TMP37]], [[TMP40]]
				// CHECK1-NEXT: [[TMP48:%.*]] = or i1 [[TMP47]], [[TMP46]]
				// CHECK1-NEXT: br i1 [[TMP48]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK1: then:			// CHECK1: then:
	// CHECK1-NEXT: [[TMP47:%.]] = bitcast [2 x i8]* [[TMP5]] to i8*			// CHECK1-NEXT: [[TMP49:%.]] = bitcast [2 x i8]* [[TMP5]] to i8*
	// CHECK1-NEXT: [[TMP48:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*			// CHECK1-NEXT: [[TMP50:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*
	// CHECK1-NEXT: call void @"_omp$reduction$reduction_func14"(i8* [[TMP47]], i8* [[TMP48]]) #[[ATTR4]]			// CHECK1-NEXT: call void @"_omp$reduction$reduction_func14"(i8* [[TMP49]], i8* [[TMP50]]) #[[ATTR3]]
	// CHECK1-NEXT: br label [[IFCONT:%.*]]			// CHECK1-NEXT: br label [[IFCONT:%.*]]
	// CHECK1: else:			// CHECK1: else:
	// CHECK1-NEXT: br label [[IFCONT]]			// CHECK1-NEXT: br label [[IFCONT]]
	// CHECK1: ifcont:			// CHECK1: ifcont:
	// CHECK1-NEXT: [[TMP49:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK1-NEXT: [[TMP51:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK1-NEXT: [[TMP50:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]			// CHECK1-NEXT: [[TMP52:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]
	// CHECK1-NEXT: [[TMP51:%.*]] = and i1 [[TMP49]], [[TMP50]]			// CHECK1-NEXT: [[TMP53:%.*]] = and i1 [[TMP51]], [[TMP52]]
	// CHECK1-NEXT: br i1 [[TMP51]], label [[THEN6:%.]], label [[ELSE7:%.]]			// CHECK1-NEXT: br i1 [[TMP53]], label [[THEN5:%.]], label [[ELSE6:%.]]
	// CHECK1: then6:			// CHECK1: then5:
	// CHECK1-NEXT: [[TMP52:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK1-NEXT: [[TMP54:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP53:%.]] = load i8, i8** [[TMP52]], align 8
	// CHECK1-NEXT: [[TMP54:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP55:%.]] = load i8, i8** [[TMP54]], align 8			// CHECK1-NEXT: [[TMP55:%.]] = load i8, i8** [[TMP54]], align 8
	// CHECK1-NEXT: [[TMP56:%.]] = bitcast i8 [[TMP53]] to i32*			// CHECK1-NEXT: [[TMP56:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP57:%.]] = bitcast i8 [[TMP55]] to i32*			// CHECK1-NEXT: [[TMP57:%.]] = load i8, i8** [[TMP56]], align 8
	// CHECK1-NEXT: [[TMP58:%.]] = load i32, i32 [[TMP56]], align 4			// CHECK1-NEXT: [[TMP58:%.]] = bitcast i8 [[TMP55]] to i32*
	// CHECK1-NEXT: store i32 [[TMP58]], i32* [[TMP57]], align 4			// CHECK1-NEXT: [[TMP59:%.]] = bitcast i8 [[TMP57]] to i32*
	// CHECK1-NEXT: [[TMP59:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 1			// CHECK1-NEXT: [[TMP60:%.]] = load i32, i32 [[TMP58]], align 4
	// CHECK1-NEXT: [[TMP60:%.]] = load i8, i8** [[TMP59]], align 8			// CHECK1-NEXT: store i32 [[TMP60]], i32* [[TMP59]], align 4
	// CHECK1-NEXT: [[TMP61:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 1			// CHECK1-NEXT: [[TMP61:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 1
	// CHECK1-NEXT: [[TMP62:%.]] = load i8, i8** [[TMP61]], align 8			// CHECK1-NEXT: [[TMP62:%.]] = load i8, i8** [[TMP61]], align 8
	// CHECK1-NEXT: [[TMP63:%.]] = bitcast i8 [[TMP60]] to i16*			// CHECK1-NEXT: [[TMP63:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i64 0, i64 1
	// CHECK1-NEXT: [[TMP64:%.]] = bitcast i8 [[TMP62]] to i16*			// CHECK1-NEXT: [[TMP64:%.]] = load i8, i8** [[TMP63]], align 8
	// CHECK1-NEXT: [[TMP65:%.]] = load i16, i16 [[TMP63]], align 2			// CHECK1-NEXT: [[TMP65:%.]] = bitcast i8 [[TMP62]] to i16*
	// CHECK1-NEXT: store i16 [[TMP65]], i16* [[TMP64]], align 2			// CHECK1-NEXT: [[TMP66:%.]] = bitcast i8 [[TMP64]] to i16*
	// CHECK1-NEXT: br label [[IFCONT8:%.*]]			// CHECK1-NEXT: [[TMP67:%.]] = load i16, i16 [[TMP65]], align 2
	// CHECK1: else7:			// CHECK1-NEXT: store i16 [[TMP67]], i16* [[TMP66]], align 2
	// CHECK1-NEXT: br label [[IFCONT8]]			// CHECK1-NEXT: br label [[IFCONT7:%.*]]
	// CHECK1: ifcont8:			// CHECK1: else6:
				// CHECK1-NEXT: br label [[IFCONT7]]
				// CHECK1: ifcont7:
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func16			// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func16
	// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {			// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3]])			// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3]])
	// CHECK1-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8			// CHECK1-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8
	// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	// CHECK1-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK1-NEXT: [[TMP3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_TID2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK1-NEXT: [[TMP4:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK1-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[TMP4]], 31
	// CHECK1-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK1-NEXT: [[TMP5:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK1-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[TMP5]], 5
	// CHECK1-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8			// CHECK1-NEXT: [[TMP6:%.]] = load i8, i8** [[DOTADDR]], align 8
	// CHECK1-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [2 x i8]			// CHECK1-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to [2 x i8]
	// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK1-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK1-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK1-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK1-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK1: then:			// CHECK1: then:
	// CHECK1-NEXT: [[TMP5:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i64 0, i64 0			// CHECK1-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP6:%.]] = load i8, i8** [[TMP5]], align 8			// CHECK1-NEXT: [[TMP9:%.]] = load i8, i8** [[TMP8]], align 8
	// CHECK1-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to i32*			// CHECK1-NEXT: [[TMP10:%.]] = bitcast i8 [[TMP9]] to i32*
	// CHECK1-NEXT: [[TMP8:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK1-NEXT: [[TMP9:%.]] = load i32, i32 [[TMP7]], align 4			// CHECK1-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP10]], align 4
	// CHECK1-NEXT: store volatile i32 [[TMP9]], i32 addrspace(3)* [[TMP8]], align 4			// CHECK1-NEXT: store volatile i32 [[TMP12]], i32 addrspace(3)* [[TMP11]], align 4
	// CHECK1-NEXT: br label [[IFCONT:%.*]]			// CHECK1-NEXT: br label [[IFCONT:%.*]]
	// CHECK1: else:			// CHECK1: else:
	// CHECK1-NEXT: br label [[IFCONT]]			// CHECK1-NEXT: br label [[IFCONT]]
	// CHECK1: ifcont:			// CHECK1: ifcont:
	// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK1-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK1-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK1-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP10]]			// CHECK1-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[TMP3]], [[TMP13]]
	// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN2:%.]], label [[ELSE3:%.]]
	// CHECK1: then4:			// CHECK1: then2:
	// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK1-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK1-NEXT: [[TMP12:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i64 0, i64 0			// CHECK1-NEXT: [[TMP15:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP13:%.]] = load i8, i8** [[TMP12]], align 8			// CHECK1-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8
	// CHECK1-NEXT: [[TMP14:%.]] = bitcast i8 [[TMP13]] to i32*			// CHECK1-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*
	// CHECK1-NEXT: [[TMP15:%.]] = load volatile i32, i32 addrspace(3) [[TMP11]], align 4			// CHECK1-NEXT: [[TMP18:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4
	// CHECK1-NEXT: store i32 [[TMP15]], i32* [[TMP14]], align 4			// CHECK1-NEXT: store i32 [[TMP18]], i32* [[TMP17]], align 4
	// CHECK1-NEXT: br label [[IFCONT6:%.*]]			// CHECK1-NEXT: br label [[IFCONT4:%.*]]
	// CHECK1: else5:			// CHECK1: else3:
	// CHECK1-NEXT: br label [[IFCONT6]]			// CHECK1-NEXT: br label [[IFCONT4]]
	// CHECK1: ifcont6:			// CHECK1: ifcont4:
	// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK1-NEXT: [[WARP_MASTER7:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK1-NEXT: [[WARP_MASTER5:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK1-NEXT: br i1 [[WARP_MASTER7]], label [[THEN8:%.]], label [[ELSE9:%.]]			// CHECK1-NEXT: br i1 [[WARP_MASTER5]], label [[THEN6:%.]], label [[ELSE7:%.]]
	// CHECK1: then8:			// CHECK1: then6:
	// CHECK1-NEXT: [[TMP16:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i64 0, i64 1			// CHECK1-NEXT: [[TMP19:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i64 0, i64 1
	// CHECK1-NEXT: [[TMP17:%.]] = load i8, i8** [[TMP16]], align 8			// CHECK1-NEXT: [[TMP20:%.]] = load i8, i8** [[TMP19]], align 8
	// CHECK1-NEXT: [[TMP18:%.]] = bitcast i8 [[TMP17]] to i16*			// CHECK1-NEXT: [[TMP21:%.]] = bitcast i8 [[TMP20]] to i16*
	// CHECK1-NEXT: [[TMP19:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK1-NEXT: [[TMP22:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK1-NEXT: [[TMP20:%.]] = bitcast i32 addrspace(3) [[TMP19]] to i16 addrspace(3)*			// CHECK1-NEXT: [[TMP23:%.]] = bitcast i32 addrspace(3) [[TMP22]] to i16 addrspace(3)*
	// CHECK1-NEXT: [[TMP21:%.]] = load i16, i16 [[TMP18]], align 2			// CHECK1-NEXT: [[TMP24:%.]] = load i16, i16 [[TMP21]], align 2
	// CHECK1-NEXT: store volatile i16 [[TMP21]], i16 addrspace(3)* [[TMP20]], align 2			// CHECK1-NEXT: store volatile i16 [[TMP24]], i16 addrspace(3)* [[TMP23]], align 2
	// CHECK1-NEXT: br label [[IFCONT10:%.*]]			// CHECK1-NEXT: br label [[IFCONT8:%.*]]
	// CHECK1: else9:			// CHECK1: else7:
	// CHECK1-NEXT: br label [[IFCONT10]]			// CHECK1-NEXT: br label [[IFCONT8]]
	// CHECK1: ifcont10:			// CHECK1: ifcont8:
	// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK1-NEXT: [[TMP22:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK1-NEXT: [[TMP25:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK1-NEXT: [[IS_ACTIVE_THREAD11:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP22]]			// CHECK1-NEXT: [[IS_ACTIVE_THREAD9:%.*]] = icmp ult i32 [[TMP3]], [[TMP25]]
	// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD11]], label [[THEN12:%.]], label [[ELSE13:%.]]			// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD9]], label [[THEN10:%.]], label [[ELSE11:%.]]
	// CHECK1: then12:			// CHECK1: then10:
	// CHECK1-NEXT: [[TMP23:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK1-NEXT: [[TMP26:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK1-NEXT: [[TMP24:%.]] = bitcast i32 addrspace(3) [[TMP23]] to i16 addrspace(3)*			// CHECK1-NEXT: [[TMP27:%.]] = bitcast i32 addrspace(3) [[TMP26]] to i16 addrspace(3)*
	// CHECK1-NEXT: [[TMP25:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i64 0, i64 1			// CHECK1-NEXT: [[TMP28:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i64 0, i64 1
	// CHECK1-NEXT: [[TMP26:%.]] = load i8, i8** [[TMP25]], align 8			// CHECK1-NEXT: [[TMP29:%.]] = load i8, i8** [[TMP28]], align 8
	// CHECK1-NEXT: [[TMP27:%.]] = bitcast i8 [[TMP26]] to i16*			// CHECK1-NEXT: [[TMP30:%.]] = bitcast i8 [[TMP29]] to i16*
	// CHECK1-NEXT: [[TMP28:%.]] = load volatile i16, i16 addrspace(3) [[TMP24]], align 2			// CHECK1-NEXT: [[TMP31:%.]] = load volatile i16, i16 addrspace(3) [[TMP27]], align 2
	// CHECK1-NEXT: store i16 [[TMP28]], i16* [[TMP27]], align 2			// CHECK1-NEXT: store i16 [[TMP31]], i16* [[TMP30]], align 2
	// CHECK1-NEXT: br label [[IFCONT14:%.*]]			// CHECK1-NEXT: br label [[IFCONT12:%.*]]
	// CHECK1: else13:			// CHECK1: else11:
	// CHECK1-NEXT: br label [[IFCONT14]]			// CHECK1-NEXT: br label [[IFCONT12]]
	// CHECK1: ifcont14:			// CHECK1: ifcont12:
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_list_to_global_copy_func17			// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_list_to_global_copy_func17
	// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {			// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 8			// CHECK1-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 8
	// CHECK1-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 1			// CHECK1-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 1
	// CHECK1-NEXT: [[B:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_1]], %struct._globalized_locals_ty.1 [[TMP4]], i32 0, i32 1			// CHECK1-NEXT: [[B:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_1]], %struct._globalized_locals_ty.1 [[TMP4]], i32 0, i32 1
	// CHECK1-NEXT: [[TMP10:%.]] = getelementptr inbounds [1024 x i16], [1024 x i16] [[B]], i32 0, i32 [[TMP5]]			// CHECK1-NEXT: [[TMP10:%.]] = getelementptr inbounds [1024 x i16], [1024 x i16] [[B]], i32 0, i32 [[TMP5]]
	// CHECK1-NEXT: [[TMP11:%.]] = bitcast i16 [[TMP10]] to i8*			// CHECK1-NEXT: [[TMP11:%.]] = bitcast i16 [[TMP10]] to i8*
	// CHECK1-NEXT: store i8* [[TMP11]], i8** [[TMP9]], align 8			// CHECK1-NEXT: store i8* [[TMP11]], i8** [[TMP9]], align 8
	// CHECK1-NEXT: [[TMP12:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK1-NEXT: [[TMP12:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK1-NEXT: [[TMP13:%.]] = load i8, i8** [[DOTADDR2]], align 8			// CHECK1-NEXT: [[TMP13:%.]] = load i8, i8** [[DOTADDR2]], align 8
	// CHECK1-NEXT: call void @"_omp$reduction$reduction_func14"(i8* [[TMP12]], i8* [[TMP13]]) #[[ATTR4]]			// CHECK1-NEXT: call void @"_omp$reduction$reduction_func14"(i8* [[TMP12]], i8* [[TMP13]]) #[[ATTR3]]
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_global_to_list_copy_func19			// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_global_to_list_copy_func19
	// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {			// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 8			// CHECK1-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 8
	// CHECK1-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 1			// CHECK1-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 1
	// CHECK1-NEXT: [[B:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_1]], %struct._globalized_locals_ty.1 [[TMP4]], i32 0, i32 1			// CHECK1-NEXT: [[B:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_1]], %struct._globalized_locals_ty.1 [[TMP4]], i32 0, i32 1
	// CHECK1-NEXT: [[TMP10:%.]] = getelementptr inbounds [1024 x i16], [1024 x i16] [[B]], i32 0, i32 [[TMP5]]			// CHECK1-NEXT: [[TMP10:%.]] = getelementptr inbounds [1024 x i16], [1024 x i16] [[B]], i32 0, i32 [[TMP5]]
	// CHECK1-NEXT: [[TMP11:%.]] = bitcast i16 [[TMP10]] to i8*			// CHECK1-NEXT: [[TMP11:%.]] = bitcast i16 [[TMP10]] to i8*
	// CHECK1-NEXT: store i8* [[TMP11]], i8** [[TMP9]], align 8			// CHECK1-NEXT: store i8* [[TMP11]], i8** [[TMP9]], align 8
	// CHECK1-NEXT: [[TMP12:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK1-NEXT: [[TMP12:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK1-NEXT: [[TMP13:%.]] = load i8, i8** [[DOTADDR2]], align 8			// CHECK1-NEXT: [[TMP13:%.]] = load i8, i8** [[DOTADDR2]], align 8
	// CHECK1-NEXT: call void @"_omp$reduction$reduction_func14"(i8* [[TMP13]], i8* [[TMP12]]) #[[ATTR4]]			// CHECK1-NEXT: call void @"_omp$reduction$reduction_func14"(i8* [[TMP13]], i8* [[TMP12]]) #[[ATTR3]]
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l20			// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l20
	// CHECK2-SAME: (double* nonnull align 8 dereferenceable(8) [[E:%.*]]) #[[ATTR0:[0-9]+]] {			// CHECK2-SAME: (double* nonnull align 8 dereferenceable(8) [[E:%.*]]) #[[ATTR0:[0-9]+]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[E_ADDR:%.]] = alloca double, align 4			// CHECK2-NEXT: [[E_ADDR:%.]] = alloca double, align 4
	// CHECK2-NEXT: [[E1:%.*]] = alloca double, align 8			// CHECK2-NEXT: [[E1:%.*]] = alloca double, align 8
	// CHECK2-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: store double* [[E]], double** [[E_ADDR]], align 4			// CHECK2-NEXT: store double* [[E]], double** [[E_ADDR]], align 4
	// CHECK2-NEXT: [[TMP0:%.]] = load double, double** [[E_ADDR]], align 4			// CHECK2-NEXT: [[TMP0:%.]] = load double, double** [[E_ADDR]], align 4
	// CHECK2-NEXT: [[TMP1:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i8 1, i1 true, i1 true)			// CHECK2-NEXT: [[TMP1:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i8 1, i1 true, i1 true)
	// CHECK2-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP1]], -1			// CHECK2-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP1]], -1
	// CHECK2-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK2-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK2: user_code.entry:			// CHECK2: user_code.entry:
	// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK2-NEXT: [[TMP3:%.]] = load double, double [[TMP0]], align 8			// CHECK2-NEXT: [[TMP3:%.]] = load double, double [[TMP0]], align 8
	// CHECK2-NEXT: store double [[TMP3]], double* [[E1]], align 8			// CHECK2-NEXT: store double [[TMP3]], double* [[E1]], align 8
	// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK2-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK2-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK2-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], double* [[E1]]) #[[ATTR4:[0-9]+]]			// CHECK2-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], double* [[E1]]) #[[ATTR3:[0-9]+]]
	// CHECK2-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)			// CHECK2-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	// CHECK2: worker.exit:			// CHECK2: worker.exit:
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__			// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__
	// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], double nonnull align 8 dereferenceable(8) [[E:%.*]]) #[[ATTR0]] {			// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], double nonnull align 8 dereferenceable(8) [[E:%.*]]) #[[ATTR0]] {
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 4			// CHECK2-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 4
	// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0			// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to double*			// CHECK2-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to double*
	// CHECK2-NEXT: [[TMP13:%.]] = getelementptr double, double [[TMP12]], i32 1			// CHECK2-NEXT: [[TMP13:%.]] = getelementptr double, double [[TMP12]], i32 1
	// CHECK2-NEXT: [[TMP14:%.]] = bitcast double [[TMP13]] to i8*			// CHECK2-NEXT: [[TMP14:%.]] = bitcast double [[TMP13]] to i8*
	// CHECK2-NEXT: [[TMP15:%.]] = bitcast double [[TMP12]] to i64*			// CHECK2-NEXT: [[TMP15:%.]] = bitcast double [[TMP12]] to i64*
	// CHECK2-NEXT: [[TMP16:%.]] = bitcast double [[DOTOMP_REDUCTION_ELEMENT]] to i64*			// CHECK2-NEXT: [[TMP16:%.]] = bitcast double [[DOTOMP_REDUCTION_ELEMENT]] to i64*
	// CHECK2-NEXT: [[TMP17:%.]] = load i64, i64 [[TMP15]], align 8			// CHECK2-NEXT: [[TMP17:%.]] = load i64, i64 [[TMP15]], align 8
	// CHECK2-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK2-NEXT: [[TMP18:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK2-NEXT: [[TMP18:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK2-NEXT: [[TMP19:%.*]] = trunc i32 [[TMP18]] to i16
	// CHECK2-NEXT: [[TMP19:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP17]], i16 [[TMP7]], i16 [[TMP18]])			// CHECK2-NEXT: [[TMP20:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP17]], i16 [[TMP7]], i16 [[TMP19]])
	// CHECK2-NEXT: store i64 [[TMP19]], i64* [[TMP16]], align 8			// CHECK2-NEXT: store i64 [[TMP20]], i64* [[TMP16]], align 8
	// CHECK2-NEXT: [[TMP20:%.]] = getelementptr i64, i64 [[TMP15]], i32 1			// CHECK2-NEXT: [[TMP21:%.]] = getelementptr i64, i64 [[TMP15]], i32 1
	// CHECK2-NEXT: [[TMP21:%.]] = getelementptr i64, i64 [[TMP16]], i32 1			// CHECK2-NEXT: [[TMP22:%.]] = getelementptr i64, i64 [[TMP16]], i32 1
	// CHECK2-NEXT: [[TMP22:%.]] = bitcast double [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK2-NEXT: [[TMP23:%.]] = bitcast double [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	// CHECK2-NEXT: store i8* [[TMP22]], i8** [[TMP11]], align 4			// CHECK2-NEXT: store i8* [[TMP23]], i8** [[TMP11]], align 4
	// CHECK2-NEXT: [[TMP23:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK2-NEXT: [[TMP24:%.*]] = icmp eq i16 [[TMP8]], 0
	// CHECK2-NEXT: [[TMP24:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK2-NEXT: [[TMP25:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK2-NEXT: [[TMP25:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]			// CHECK2-NEXT: [[TMP26:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]
	// CHECK2-NEXT: [[TMP26:%.*]] = and i1 [[TMP24]], [[TMP25]]			// CHECK2-NEXT: [[TMP27:%.*]] = and i1 [[TMP25]], [[TMP26]]
	// CHECK2-NEXT: [[TMP27:%.*]] = icmp eq i16 [[TMP8]], 2			// CHECK2-NEXT: [[TMP28:%.*]] = icmp eq i16 [[TMP8]], 2
	// CHECK2-NEXT: [[TMP28:%.*]] = and i16 [[TMP6]], 1			// CHECK2-NEXT: [[TMP29:%.*]] = and i16 [[TMP6]], 1
	// CHECK2-NEXT: [[TMP29:%.*]] = icmp eq i16 [[TMP28]], 0			// CHECK2-NEXT: [[TMP30:%.*]] = icmp eq i16 [[TMP29]], 0
	// CHECK2-NEXT: [[TMP30:%.*]] = and i1 [[TMP27]], [[TMP29]]			// CHECK2-NEXT: [[TMP31:%.*]] = and i1 [[TMP28]], [[TMP30]]
	// CHECK2-NEXT: [[TMP31:%.*]] = icmp sgt i16 [[TMP7]], 0			// CHECK2-NEXT: [[TMP32:%.*]] = icmp sgt i16 [[TMP7]], 0
	// CHECK2-NEXT: [[TMP32:%.*]] = and i1 [[TMP30]], [[TMP31]]			// CHECK2-NEXT: [[TMP33:%.*]] = and i1 [[TMP31]], [[TMP32]]
	// CHECK2-NEXT: [[TMP33:%.*]] = or i1 [[TMP23]], [[TMP26]]			// CHECK2-NEXT: [[TMP34:%.*]] = or i1 [[TMP24]], [[TMP27]]
	// CHECK2-NEXT: [[TMP34:%.*]] = or i1 [[TMP33]], [[TMP32]]			// CHECK2-NEXT: [[TMP35:%.*]] = or i1 [[TMP34]], [[TMP33]]
	// CHECK2-NEXT: br i1 [[TMP34]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK2-NEXT: br i1 [[TMP35]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK2: then:			// CHECK2: then:
	// CHECK2-NEXT: [[TMP35:%.]] = bitcast [1 x i8]* [[TMP5]] to i8*			// CHECK2-NEXT: [[TMP36:%.]] = bitcast [1 x i8]* [[TMP5]] to i8*
	// CHECK2-NEXT: [[TMP36:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*			// CHECK2-NEXT: [[TMP37:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*
	// CHECK2-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP35]], i8* [[TMP36]]) #[[ATTR4]]			// CHECK2-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP36]], i8* [[TMP37]]) #[[ATTR3]]
	// CHECK2-NEXT: br label [[IFCONT:%.*]]			// CHECK2-NEXT: br label [[IFCONT:%.*]]
	// CHECK2: else:			// CHECK2: else:
	// CHECK2-NEXT: br label [[IFCONT]]			// CHECK2-NEXT: br label [[IFCONT]]
	// CHECK2: ifcont:			// CHECK2: ifcont:
	// CHECK2-NEXT: [[TMP37:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK2-NEXT: [[TMP38:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK2-NEXT: [[TMP38:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]			// CHECK2-NEXT: [[TMP39:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]
	// CHECK2-NEXT: [[TMP39:%.*]] = and i1 [[TMP37]], [[TMP38]]			// CHECK2-NEXT: [[TMP40:%.*]] = and i1 [[TMP38]], [[TMP39]]
	// CHECK2-NEXT: br i1 [[TMP39]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK2-NEXT: br i1 [[TMP40]], label [[THEN4:%.]], label [[ELSE5:%.]]
	// CHECK2: then4:			// CHECK2: then4:
	// CHECK2-NEXT: [[TMP40:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0			// CHECK2-NEXT: [[TMP41:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP41:%.]] = load i8, i8** [[TMP40]], align 4			// CHECK2-NEXT: [[TMP42:%.]] = load i8, i8** [[TMP41]], align 4
	// CHECK2-NEXT: [[TMP42:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP5]], i32 0, i32 0			// CHECK2-NEXT: [[TMP43:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP5]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP43:%.]] = load i8, i8** [[TMP42]], align 4			// CHECK2-NEXT: [[TMP44:%.]] = load i8, i8** [[TMP43]], align 4
	// CHECK2-NEXT: [[TMP44:%.]] = bitcast i8 [[TMP41]] to double*			// CHECK2-NEXT: [[TMP45:%.]] = bitcast i8 [[TMP42]] to double*
	// CHECK2-NEXT: [[TMP45:%.]] = bitcast i8 [[TMP43]] to double*			// CHECK2-NEXT: [[TMP46:%.]] = bitcast i8 [[TMP44]] to double*
	// CHECK2-NEXT: [[TMP46:%.]] = load double, double [[TMP44]], align 8			// CHECK2-NEXT: [[TMP47:%.]] = load double, double [[TMP45]], align 8
	// CHECK2-NEXT: store double [[TMP46]], double* [[TMP45]], align 8			// CHECK2-NEXT: store double [[TMP47]], double* [[TMP46]], align 8
	// CHECK2-NEXT: br label [[IFCONT6:%.*]]			// CHECK2-NEXT: br label [[IFCONT6:%.*]]
	// CHECK2: else5:			// CHECK2: else5:
	// CHECK2-NEXT: br label [[IFCONT6]]			// CHECK2-NEXT: br label [[IFCONT6]]
	// CHECK2: ifcont6:			// CHECK2: ifcont6:
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func			// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func
	// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {			// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 4			// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 4
	// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK2-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 4			// CHECK2-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 4
	// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	// CHECK2-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK2-NEXT: [[TMP3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_TID2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK2-NEXT: [[TMP4:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK2-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[TMP4]], 31
	// CHECK2-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK2-NEXT: [[TMP5:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK2-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[TMP5]], 5
	// CHECK2-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 4			// CHECK2-NEXT: [[TMP6:%.]] = load i8, i8** [[DOTADDR]], align 4
	// CHECK2-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]			// CHECK2-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to [1 x i8]
	// CHECK2-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4			// CHECK2-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4
	// CHECK2-NEXT: br label [[PRECOND:%.*]]			// CHECK2-NEXT: br label [[PRECOND:%.*]]
	// CHECK2: precond:			// CHECK2: precond:
	// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4			// CHECK2-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4
	// CHECK2-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 2			// CHECK2-NEXT: [[TMP9:%.*]] = icmp ult i32 [[TMP8]], 2
	// CHECK2-NEXT: br i1 [[TMP6]], label [[BODY:%.]], label [[EXIT:%.]]			// CHECK2-NEXT: br i1 [[TMP9]], label [[BODY:%.]], label [[EXIT:%.]]
	// CHECK2: body:			// CHECK2: body:
	// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2:[0-9]+]], i32 [[TMP2]])			// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2:[0-9]+]], i32 [[TMP2]])
	// CHECK2-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK2-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK2-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK2-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK2: then:			// CHECK2: then:
	// CHECK2-NEXT: [[TMP7:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i32 0, i32 0			// CHECK2-NEXT: [[TMP10:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP7]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP8:%.]] = load i8, i8** [[TMP7]], align 4			// CHECK2-NEXT: [[TMP11:%.]] = load i8, i8** [[TMP10]], align 4
	// CHECK2-NEXT: [[TMP9:%.]] = bitcast i8 [[TMP8]] to i32*			// CHECK2-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP11]] to i32*
	// CHECK2-NEXT: [[TMP10:%.]] = getelementptr i32, i32 [[TMP9]], i32 [[TMP5]]			// CHECK2-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i32 [[TMP8]]
	// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK2-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK2-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP10]], align 4			// CHECK2-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP13]], align 4
	// CHECK2-NEXT: store volatile i32 [[TMP12]], i32 addrspace(3)* [[TMP11]], align 4			// CHECK2-NEXT: store volatile i32 [[TMP15]], i32 addrspace(3)* [[TMP14]], align 4
	// CHECK2-NEXT: br label [[IFCONT:%.*]]			// CHECK2-NEXT: br label [[IFCONT:%.*]]
	// CHECK2: else:			// CHECK2: else:
	// CHECK2-NEXT: br label [[IFCONT]]			// CHECK2-NEXT: br label [[IFCONT]]
	// CHECK2: ifcont:			// CHECK2: ifcont:
	// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])			// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])
	// CHECK2-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK2-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK2-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]			// CHECK2-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[TMP3]], [[TMP16]]
	// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN2:%.]], label [[ELSE3:%.]]
	// CHECK2: then4:			// CHECK2: then2:
	// CHECK2-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK2-NEXT: [[TMP17:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK2-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i32 0, i32 0			// CHECK2-NEXT: [[TMP18:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP7]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 4			// CHECK2-NEXT: [[TMP19:%.]] = load i8, i8** [[TMP18]], align 4
	// CHECK2-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*			// CHECK2-NEXT: [[TMP20:%.]] = bitcast i8 [[TMP19]] to i32*
	// CHECK2-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]			// CHECK2-NEXT: [[TMP21:%.]] = getelementptr i32, i32 [[TMP20]], i32 [[TMP8]]
	// CHECK2-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4			// CHECK2-NEXT: [[TMP22:%.]] = load volatile i32, i32 addrspace(3) [[TMP17]], align 4
	// CHECK2-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4			// CHECK2-NEXT: store i32 [[TMP22]], i32* [[TMP21]], align 4
	// CHECK2-NEXT: br label [[IFCONT6:%.*]]			// CHECK2-NEXT: br label [[IFCONT4:%.*]]
	// CHECK2: else5:			// CHECK2: else3:
	// CHECK2-NEXT: br label [[IFCONT6]]			// CHECK2-NEXT: br label [[IFCONT4]]
	// CHECK2: ifcont6:			// CHECK2: ifcont4:
	// CHECK2-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1			// CHECK2-NEXT: [[TMP23:%.*]] = add nsw i32 [[TMP8]], 1
	// CHECK2-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4			// CHECK2-NEXT: store i32 [[TMP23]], i32* [[DOTCNT_ADDR]], align 4
	// CHECK2-NEXT: br label [[PRECOND]]			// CHECK2-NEXT: br label [[PRECOND]]
	// CHECK2: exit:			// CHECK2: exit:
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_list_to_global_copy_func			// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_list_to_global_copy_func
	// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {			// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	Show All 33 Lines
	// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK2-NEXT: [[TMP6:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 0			// CHECK2-NEXT: [[TMP6:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 0
	// CHECK2-NEXT: [[E:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP4]], i32 0, i32 0			// CHECK2-NEXT: [[E:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP4]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP7:%.]] = getelementptr inbounds [1024 x double], [1024 x double] [[E]], i32 0, i32 [[TMP5]]			// CHECK2-NEXT: [[TMP7:%.]] = getelementptr inbounds [1024 x double], [1024 x double] [[E]], i32 0, i32 [[TMP5]]
	// CHECK2-NEXT: [[TMP8:%.]] = bitcast double [[TMP7]] to i8*			// CHECK2-NEXT: [[TMP8:%.]] = bitcast double [[TMP7]] to i8*
	// CHECK2-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 4			// CHECK2-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 4
	// CHECK2-NEXT: [[TMP9:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK2-NEXT: [[TMP9:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK2-NEXT: [[TMP10:%.]] = load i8, i8** [[DOTADDR2]], align 4			// CHECK2-NEXT: [[TMP10:%.]] = load i8, i8** [[DOTADDR2]], align 4
	// CHECK2-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP9]], i8* [[TMP10]]) #[[ATTR4]]			// CHECK2-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP9]], i8* [[TMP10]]) #[[ATTR3]]
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_global_to_list_copy_func			// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_global_to_list_copy_func
	// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {			// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 4			// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 4
	// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	Show All 31 Lines
	// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK2-NEXT: [[TMP6:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 0			// CHECK2-NEXT: [[TMP6:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 0
	// CHECK2-NEXT: [[E:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP4]], i32 0, i32 0			// CHECK2-NEXT: [[E:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP4]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP7:%.]] = getelementptr inbounds [1024 x double], [1024 x double] [[E]], i32 0, i32 [[TMP5]]			// CHECK2-NEXT: [[TMP7:%.]] = getelementptr inbounds [1024 x double], [1024 x double] [[E]], i32 0, i32 [[TMP5]]
	// CHECK2-NEXT: [[TMP8:%.]] = bitcast double [[TMP7]] to i8*			// CHECK2-NEXT: [[TMP8:%.]] = bitcast double [[TMP7]] to i8*
	// CHECK2-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 4			// CHECK2-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 4
	// CHECK2-NEXT: [[TMP9:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK2-NEXT: [[TMP9:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK2-NEXT: [[TMP10:%.]] = load i8, i8** [[DOTADDR2]], align 4			// CHECK2-NEXT: [[TMP10:%.]] = load i8, i8** [[DOTADDR2]], align 4
	// CHECK2-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP10]], i8* [[TMP9]]) #[[ATTR4]]			// CHECK2-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP10]], i8* [[TMP9]]) #[[ATTR3]]
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l26			// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l26
	// CHECK2-SAME: (i32 [[C:%.]], i32 [[D:%.]]) #[[ATTR0]] {			// CHECK2-SAME: (i32 [[C:%.]], i32 [[D:%.]]) #[[ATTR0]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[C_ADDR:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[C_ADDR:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[D_ADDR:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[D_ADDR:%.*]] = alloca i32, align 4
	Show All 12 Lines
	// CHECK2-NEXT: store i8 [[TMP1]], i8* [[C2]], align 1			// CHECK2-NEXT: store i8 [[TMP1]], i8* [[C2]], align 1
	// CHECK2-NEXT: [[TMP2:%.]] = load float, float [[CONV1]], align 4			// CHECK2-NEXT: [[TMP2:%.]] = load float, float [[CONV1]], align 4
	// CHECK2-NEXT: [[D3:%.]] = call i8 @__kmpc_alloc_shared(i32 4)			// CHECK2-NEXT: [[D3:%.]] = call i8 @__kmpc_alloc_shared(i32 4)
	// CHECK2-NEXT: [[D_ON_STACK:%.]] = bitcast i8 [[D3]] to float*			// CHECK2-NEXT: [[D_ON_STACK:%.]] = bitcast i8 [[D3]] to float*
	// CHECK2-NEXT: store float [[TMP2]], float* [[D_ON_STACK]], align 4			// CHECK2-NEXT: store float [[TMP2]], float* [[D_ON_STACK]], align 4
	// CHECK2-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK2-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK2-NEXT: store i32 [[TMP3]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK2-NEXT: store i32 [[TMP3]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK2-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i8* [[C2]], float* [[D_ON_STACK]]) #[[ATTR4]]			// CHECK2-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i8* [[C2]], float* [[D_ON_STACK]]) #[[ATTR3]]
	// CHECK2-NEXT: call void @__kmpc_free_shared(i8* [[D3]], i32 4)			// CHECK2-NEXT: call void @__kmpc_free_shared(i8* [[D3]], i32 4)
	// CHECK2-NEXT: call void @__kmpc_free_shared(i8* [[C2]], i32 1)			// CHECK2-NEXT: call void @__kmpc_free_shared(i8* [[C2]], i32 1)
	// CHECK2-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)			// CHECK2-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	// CHECK2: worker.exit:			// CHECK2: worker.exit:
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: [[TMP7:%.]] = load i16, i16 [[DOTADDR2]], align 2			// CHECK2-NEXT: [[TMP7:%.]] = load i16, i16 [[DOTADDR2]], align 2
	// CHECK2-NEXT: [[TMP8:%.]] = load i16, i16 [[DOTADDR3]], align 2			// CHECK2-NEXT: [[TMP8:%.]] = load i16, i16 [[DOTADDR3]], align 2
	// CHECK2-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0			// CHECK2-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 4			// CHECK2-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 4
	// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0			// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP12:%.]] = getelementptr i8, i8 [[TMP10]], i32 1			// CHECK2-NEXT: [[TMP12:%.]] = getelementptr i8, i8 [[TMP10]], i32 1
	// CHECK2-NEXT: [[TMP13:%.]] = load i8, i8 [[TMP10]], align 1			// CHECK2-NEXT: [[TMP13:%.]] = load i8, i8 [[TMP10]], align 1
	// CHECK2-NEXT: [[TMP14:%.*]] = sext i8 [[TMP13]] to i32			// CHECK2-NEXT: [[TMP14:%.*]] = sext i8 [[TMP13]] to i32
	// CHECK2-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK2-NEXT: [[TMP15:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK2-NEXT: [[TMP15:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK2-NEXT: [[TMP16:%.*]] = trunc i32 [[TMP15]] to i16
	// CHECK2-NEXT: [[TMP16:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP14]], i16 [[TMP7]], i16 [[TMP15]])			// CHECK2-NEXT: [[TMP17:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP14]], i16 [[TMP7]], i16 [[TMP16]])
	// CHECK2-NEXT: [[TMP17:%.*]] = trunc i32 [[TMP16]] to i8			// CHECK2-NEXT: [[TMP18:%.*]] = trunc i32 [[TMP17]] to i8
	// CHECK2-NEXT: store i8 [[TMP17]], i8* [[DOTOMP_REDUCTION_ELEMENT]], align 1			// CHECK2-NEXT: store i8 [[TMP18]], i8* [[DOTOMP_REDUCTION_ELEMENT]], align 1
	// CHECK2-NEXT: [[TMP18:%.]] = getelementptr i8, i8 [[TMP10]], i32 1			// CHECK2-NEXT: [[TMP19:%.]] = getelementptr i8, i8 [[TMP10]], i32 1
	// CHECK2-NEXT: [[TMP19:%.]] = getelementptr i8, i8 [[DOTOMP_REDUCTION_ELEMENT]], i32 1			// CHECK2-NEXT: [[TMP20:%.]] = getelementptr i8, i8 [[DOTOMP_REDUCTION_ELEMENT]], i32 1
	// CHECK2-NEXT: store i8* [[DOTOMP_REDUCTION_ELEMENT]], i8** [[TMP11]], align 4			// CHECK2-NEXT: store i8* [[DOTOMP_REDUCTION_ELEMENT]], i8** [[TMP11]], align 4
	// CHECK2-NEXT: [[TMP20:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1			// CHECK2-NEXT: [[TMP21:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP21:%.]] = load i8, i8** [[TMP20]], align 4			// CHECK2-NEXT: [[TMP22:%.]] = load i8, i8** [[TMP21]], align 4
	// CHECK2-NEXT: [[TMP22:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1			// CHECK2-NEXT: [[TMP23:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP23:%.]] = bitcast i8 [[TMP21]] to float*			// CHECK2-NEXT: [[TMP24:%.]] = bitcast i8 [[TMP22]] to float*
	// CHECK2-NEXT: [[TMP24:%.]] = getelementptr float, float [[TMP23]], i32 1			// CHECK2-NEXT: [[TMP25:%.]] = getelementptr float, float [[TMP24]], i32 1
	// CHECK2-NEXT: [[TMP25:%.]] = bitcast float [[TMP24]] to i8*			// CHECK2-NEXT: [[TMP26:%.]] = bitcast float [[TMP25]] to i8*
	// CHECK2-NEXT: [[TMP26:%.]] = bitcast float [[TMP23]] to i32*			// CHECK2-NEXT: [[TMP27:%.]] = bitcast float [[TMP24]] to i32*
	// CHECK2-NEXT: [[TMP27:%.]] = bitcast float [[DOTOMP_REDUCTION_ELEMENT4]] to i32*			// CHECK2-NEXT: [[TMP28:%.]] = bitcast float [[DOTOMP_REDUCTION_ELEMENT4]] to i32*
	// CHECK2-NEXT: [[TMP28:%.]] = load i32, i32 [[TMP26]], align 4			// CHECK2-NEXT: [[TMP29:%.]] = load i32, i32 [[TMP27]], align 4
	// CHECK2-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK2-NEXT: [[TMP30:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK2-NEXT: [[TMP29:%.*]] = trunc i32 [[NVPTX_WARP_SIZE5]] to i16			// CHECK2-NEXT: [[TMP31:%.*]] = trunc i32 [[TMP30]] to i16
	// CHECK2-NEXT: [[TMP30:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP28]], i16 [[TMP7]], i16 [[TMP29]])			// CHECK2-NEXT: [[TMP32:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP29]], i16 [[TMP7]], i16 [[TMP31]])
	// CHECK2-NEXT: store i32 [[TMP30]], i32* [[TMP27]], align 4			// CHECK2-NEXT: store i32 [[TMP32]], i32* [[TMP28]], align 4
	// CHECK2-NEXT: [[TMP31:%.]] = getelementptr i32, i32 [[TMP26]], i32 1			// CHECK2-NEXT: [[TMP33:%.]] = getelementptr i32, i32 [[TMP27]], i32 1
	// CHECK2-NEXT: [[TMP32:%.]] = getelementptr i32, i32 [[TMP27]], i32 1			// CHECK2-NEXT: [[TMP34:%.]] = getelementptr i32, i32 [[TMP28]], i32 1
	// CHECK2-NEXT: [[TMP33:%.]] = bitcast float [[DOTOMP_REDUCTION_ELEMENT4]] to i8*			// CHECK2-NEXT: [[TMP35:%.]] = bitcast float [[DOTOMP_REDUCTION_ELEMENT4]] to i8*
	// CHECK2-NEXT: store i8* [[TMP33]], i8** [[TMP22]], align 4			// CHECK2-NEXT: store i8* [[TMP35]], i8** [[TMP23]], align 4
	// CHECK2-NEXT: [[TMP34:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK2-NEXT: [[TMP36:%.*]] = icmp eq i16 [[TMP8]], 0
	// CHECK2-NEXT: [[TMP35:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK2-NEXT: [[TMP37:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK2-NEXT: [[TMP36:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]			// CHECK2-NEXT: [[TMP38:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]
	// CHECK2-NEXT: [[TMP37:%.*]] = and i1 [[TMP35]], [[TMP36]]			// CHECK2-NEXT: [[TMP39:%.*]] = and i1 [[TMP37]], [[TMP38]]
	// CHECK2-NEXT: [[TMP38:%.*]] = icmp eq i16 [[TMP8]], 2			// CHECK2-NEXT: [[TMP40:%.*]] = icmp eq i16 [[TMP8]], 2
	// CHECK2-NEXT: [[TMP39:%.*]] = and i16 [[TMP6]], 1			// CHECK2-NEXT: [[TMP41:%.*]] = and i16 [[TMP6]], 1
	// CHECK2-NEXT: [[TMP40:%.*]] = icmp eq i16 [[TMP39]], 0			// CHECK2-NEXT: [[TMP42:%.*]] = icmp eq i16 [[TMP41]], 0
	// CHECK2-NEXT: [[TMP41:%.*]] = and i1 [[TMP38]], [[TMP40]]			// CHECK2-NEXT: [[TMP43:%.*]] = and i1 [[TMP40]], [[TMP42]]
	// CHECK2-NEXT: [[TMP42:%.*]] = icmp sgt i16 [[TMP7]], 0			// CHECK2-NEXT: [[TMP44:%.*]] = icmp sgt i16 [[TMP7]], 0
	// CHECK2-NEXT: [[TMP43:%.*]] = and i1 [[TMP41]], [[TMP42]]			// CHECK2-NEXT: [[TMP45:%.*]] = and i1 [[TMP43]], [[TMP44]]
	// CHECK2-NEXT: [[TMP44:%.*]] = or i1 [[TMP34]], [[TMP37]]			// CHECK2-NEXT: [[TMP46:%.*]] = or i1 [[TMP36]], [[TMP39]]
	// CHECK2-NEXT: [[TMP45:%.*]] = or i1 [[TMP44]], [[TMP43]]			// CHECK2-NEXT: [[TMP47:%.*]] = or i1 [[TMP46]], [[TMP45]]
	// CHECK2-NEXT: br i1 [[TMP45]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK2-NEXT: br i1 [[TMP47]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK2: then:			// CHECK2: then:
	// CHECK2-NEXT: [[TMP46:%.]] = bitcast [2 x i8]* [[TMP5]] to i8*			// CHECK2-NEXT: [[TMP48:%.]] = bitcast [2 x i8]* [[TMP5]] to i8*
	// CHECK2-NEXT: [[TMP47:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*			// CHECK2-NEXT: [[TMP49:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*
	// CHECK2-NEXT: call void @"_omp$reduction$reduction_func2"(i8* [[TMP46]], i8* [[TMP47]]) #[[ATTR4]]			// CHECK2-NEXT: call void @"_omp$reduction$reduction_func2"(i8* [[TMP48]], i8* [[TMP49]]) #[[ATTR3]]
	// CHECK2-NEXT: br label [[IFCONT:%.*]]			// CHECK2-NEXT: br label [[IFCONT:%.*]]
	// CHECK2: else:			// CHECK2: else:
	// CHECK2-NEXT: br label [[IFCONT]]			// CHECK2-NEXT: br label [[IFCONT]]
	// CHECK2: ifcont:			// CHECK2: ifcont:
	// CHECK2-NEXT: [[TMP48:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK2-NEXT: [[TMP50:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK2-NEXT: [[TMP49:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]			// CHECK2-NEXT: [[TMP51:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]
	// CHECK2-NEXT: [[TMP50:%.*]] = and i1 [[TMP48]], [[TMP49]]			// CHECK2-NEXT: [[TMP52:%.*]] = and i1 [[TMP50]], [[TMP51]]
	// CHECK2-NEXT: br i1 [[TMP50]], label [[THEN6:%.]], label [[ELSE7:%.]]			// CHECK2-NEXT: br i1 [[TMP52]], label [[THEN5:%.]], label [[ELSE6:%.]]
	// CHECK2: then6:			// CHECK2: then5:
	// CHECK2-NEXT: [[TMP51:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0			// CHECK2-NEXT: [[TMP53:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP52:%.]] = load i8, i8** [[TMP51]], align 4
	// CHECK2-NEXT: [[TMP53:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP54:%.]] = load i8, i8** [[TMP53]], align 4			// CHECK2-NEXT: [[TMP54:%.]] = load i8, i8** [[TMP53]], align 4
	// CHECK2-NEXT: [[TMP55:%.]] = load i8, i8 [[TMP52]], align 1			// CHECK2-NEXT: [[TMP55:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0
	// CHECK2-NEXT: store i8 [[TMP55]], i8* [[TMP54]], align 1			// CHECK2-NEXT: [[TMP56:%.]] = load i8, i8** [[TMP55]], align 4
	// CHECK2-NEXT: [[TMP56:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1			// CHECK2-NEXT: [[TMP57:%.]] = load i8, i8 [[TMP54]], align 1
	// CHECK2-NEXT: [[TMP57:%.]] = load i8, i8** [[TMP56]], align 4			// CHECK2-NEXT: store i8 [[TMP57]], i8* [[TMP56]], align 1
	// CHECK2-NEXT: [[TMP58:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1			// CHECK2-NEXT: [[TMP58:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP59:%.]] = load i8, i8** [[TMP58]], align 4			// CHECK2-NEXT: [[TMP59:%.]] = load i8, i8** [[TMP58]], align 4
	// CHECK2-NEXT: [[TMP60:%.]] = bitcast i8 [[TMP57]] to float*			// CHECK2-NEXT: [[TMP60:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP61:%.]] = bitcast i8 [[TMP59]] to float*			// CHECK2-NEXT: [[TMP61:%.]] = load i8, i8** [[TMP60]], align 4
	// CHECK2-NEXT: [[TMP62:%.]] = load float, float [[TMP60]], align 4			// CHECK2-NEXT: [[TMP62:%.]] = bitcast i8 [[TMP59]] to float*
	// CHECK2-NEXT: store float [[TMP62]], float* [[TMP61]], align 4			// CHECK2-NEXT: [[TMP63:%.]] = bitcast i8 [[TMP61]] to float*
	// CHECK2-NEXT: br label [[IFCONT8:%.*]]			// CHECK2-NEXT: [[TMP64:%.]] = load float, float [[TMP62]], align 4
	// CHECK2: else7:			// CHECK2-NEXT: store float [[TMP64]], float* [[TMP63]], align 4
	// CHECK2-NEXT: br label [[IFCONT8]]			// CHECK2-NEXT: br label [[IFCONT7:%.*]]
	// CHECK2: ifcont8:			// CHECK2: else6:
				// CHECK2-NEXT: br label [[IFCONT7]]
				// CHECK2: ifcont7:
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func4			// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func4
	// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {			// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 4			// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 4
	// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK2-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 4			// CHECK2-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 4
	// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	// CHECK2-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK2-NEXT: [[TMP3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_TID2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK2-NEXT: [[TMP4:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK2-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[TMP4]], 31
	// CHECK2-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK2-NEXT: [[TMP5:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK2-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[TMP5]], 5
	// CHECK2-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 4			// CHECK2-NEXT: [[TMP6:%.]] = load i8, i8** [[DOTADDR]], align 4
	// CHECK2-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [2 x i8]			// CHECK2-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to [2 x i8]
	// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])			// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])
	// CHECK2-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK2-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK2-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK2-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK2: then:			// CHECK2: then:
	// CHECK2-NEXT: [[TMP5:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 0			// CHECK2-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP6:%.]] = load i8, i8** [[TMP5]], align 4			// CHECK2-NEXT: [[TMP9:%.]] = load i8, i8** [[TMP8]], align 4
	// CHECK2-NEXT: [[TMP7:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK2-NEXT: [[TMP10:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK2-NEXT: [[TMP8:%.]] = bitcast i32 addrspace(3) [[TMP7]] to i8 addrspace(3)*			// CHECK2-NEXT: [[TMP11:%.]] = bitcast i32 addrspace(3) [[TMP10]] to i8 addrspace(3)*
	// CHECK2-NEXT: [[TMP9:%.]] = load i8, i8 [[TMP6]], align 1			// CHECK2-NEXT: [[TMP12:%.]] = load i8, i8 [[TMP9]], align 1
	// CHECK2-NEXT: store volatile i8 [[TMP9]], i8 addrspace(3)* [[TMP8]], align 1			// CHECK2-NEXT: store volatile i8 [[TMP12]], i8 addrspace(3)* [[TMP11]], align 1
	// CHECK2-NEXT: br label [[IFCONT:%.*]]			// CHECK2-NEXT: br label [[IFCONT:%.*]]
	// CHECK2: else:			// CHECK2: else:
	// CHECK2-NEXT: br label [[IFCONT]]			// CHECK2-NEXT: br label [[IFCONT]]
	// CHECK2: ifcont:			// CHECK2: ifcont:
	// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])			// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])
	// CHECK2-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK2-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK2-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP10]]			// CHECK2-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[TMP3]], [[TMP13]]
	// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN2:%.]], label [[ELSE3:%.]]
	// CHECK2: then4:			// CHECK2: then2:
	// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK2-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK2-NEXT: [[TMP12:%.]] = bitcast i32 addrspace(3) [[TMP11]] to i8 addrspace(3)*			// CHECK2-NEXT: [[TMP15:%.]] = bitcast i32 addrspace(3) [[TMP14]] to i8 addrspace(3)*
	// CHECK2-NEXT: [[TMP13:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 0			// CHECK2-NEXT: [[TMP16:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP14:%.]] = load i8, i8** [[TMP13]], align 4
	// CHECK2-NEXT: [[TMP15:%.]] = load volatile i8, i8 addrspace(3) [[TMP12]], align 1
	// CHECK2-NEXT: store i8 [[TMP15]], i8* [[TMP14]], align 1
	// CHECK2-NEXT: br label [[IFCONT6:%.*]]
	// CHECK2: else5:
	// CHECK2-NEXT: br label [[IFCONT6]]
	// CHECK2: ifcont6:
	// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])
	// CHECK2-NEXT: [[WARP_MASTER7:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK2-NEXT: br i1 [[WARP_MASTER7]], label [[THEN8:%.]], label [[ELSE9:%.]]
	// CHECK2: then8:
	// CHECK2-NEXT: [[TMP16:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP17:%.]] = load i8, i8** [[TMP16]], align 4			// CHECK2-NEXT: [[TMP17:%.]] = load i8, i8** [[TMP16]], align 4
	// CHECK2-NEXT: [[TMP18:%.]] = bitcast i8 [[TMP17]] to i32*			// CHECK2-NEXT: [[TMP18:%.]] = load volatile i8, i8 addrspace(3) [[TMP15]], align 1
	// CHECK2-NEXT: [[TMP19:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK2-NEXT: store i8 [[TMP18]], i8* [[TMP17]], align 1
	// CHECK2-NEXT: [[TMP20:%.]] = load i32, i32 [[TMP18]], align 4			// CHECK2-NEXT: br label [[IFCONT4:%.*]]
	// CHECK2-NEXT: store volatile i32 [[TMP20]], i32 addrspace(3)* [[TMP19]], align 4			// CHECK2: else3:
	// CHECK2-NEXT: br label [[IFCONT10:%.*]]			// CHECK2-NEXT: br label [[IFCONT4]]
	// CHECK2: else9:			// CHECK2: ifcont4:
	// CHECK2-NEXT: br label [[IFCONT10]]			// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])
	// CHECK2: ifcont10:			// CHECK2-NEXT: [[WARP_MASTER5:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
				// CHECK2-NEXT: br i1 [[WARP_MASTER5]], label [[THEN6:%.]], label [[ELSE7:%.]]
				// CHECK2: then6:
				// CHECK2-NEXT: [[TMP19:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 1
				// CHECK2-NEXT: [[TMP20:%.]] = load i8, i8** [[TMP19]], align 4
				// CHECK2-NEXT: [[TMP21:%.]] = bitcast i8 [[TMP20]] to i32*
				// CHECK2-NEXT: [[TMP22:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
				// CHECK2-NEXT: [[TMP23:%.]] = load i32, i32 [[TMP21]], align 4
				// CHECK2-NEXT: store volatile i32 [[TMP23]], i32 addrspace(3)* [[TMP22]], align 4
				// CHECK2-NEXT: br label [[IFCONT8:%.*]]
				// CHECK2: else7:
				// CHECK2-NEXT: br label [[IFCONT8]]
				// CHECK2: ifcont8:
	// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])			// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])
	// CHECK2-NEXT: [[TMP21:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK2-NEXT: [[TMP24:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK2-NEXT: [[IS_ACTIVE_THREAD11:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP21]]			// CHECK2-NEXT: [[IS_ACTIVE_THREAD9:%.*]] = icmp ult i32 [[TMP3]], [[TMP24]]
	// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD11]], label [[THEN12:%.]], label [[ELSE13:%.]]			// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD9]], label [[THEN10:%.]], label [[ELSE11:%.]]
	// CHECK2: then12:			// CHECK2: then10:
	// CHECK2-NEXT: [[TMP22:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK2-NEXT: [[TMP25:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK2-NEXT: [[TMP23:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 1			// CHECK2-NEXT: [[TMP26:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP24:%.]] = load i8, i8** [[TMP23]], align 4			// CHECK2-NEXT: [[TMP27:%.]] = load i8, i8** [[TMP26]], align 4
	// CHECK2-NEXT: [[TMP25:%.]] = bitcast i8 [[TMP24]] to i32*			// CHECK2-NEXT: [[TMP28:%.]] = bitcast i8 [[TMP27]] to i32*
	// CHECK2-NEXT: [[TMP26:%.]] = load volatile i32, i32 addrspace(3) [[TMP22]], align 4			// CHECK2-NEXT: [[TMP29:%.]] = load volatile i32, i32 addrspace(3) [[TMP25]], align 4
	// CHECK2-NEXT: store i32 [[TMP26]], i32* [[TMP25]], align 4			// CHECK2-NEXT: store i32 [[TMP29]], i32* [[TMP28]], align 4
	// CHECK2-NEXT: br label [[IFCONT14:%.*]]			// CHECK2-NEXT: br label [[IFCONT12:%.*]]
	// CHECK2: else13:			// CHECK2: else11:
	// CHECK2-NEXT: br label [[IFCONT14]]			// CHECK2-NEXT: br label [[IFCONT12]]
	// CHECK2: ifcont14:			// CHECK2: ifcont12:
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_list_to_global_copy_func5			// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_list_to_global_copy_func5
	// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {			// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 4			// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 4
	// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 4			// CHECK2-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 4
	// CHECK2-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 1			// CHECK2-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 1
	// CHECK2-NEXT: [[D:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_0]], %struct._globalized_locals_ty.0 [[TMP4]], i32 0, i32 1			// CHECK2-NEXT: [[D:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_0]], %struct._globalized_locals_ty.0 [[TMP4]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP9:%.]] = getelementptr inbounds [1024 x float], [1024 x float] [[D]], i32 0, i32 [[TMP5]]			// CHECK2-NEXT: [[TMP9:%.]] = getelementptr inbounds [1024 x float], [1024 x float] [[D]], i32 0, i32 [[TMP5]]
	// CHECK2-NEXT: [[TMP10:%.]] = bitcast float [[TMP9]] to i8*			// CHECK2-NEXT: [[TMP10:%.]] = bitcast float [[TMP9]] to i8*
	// CHECK2-NEXT: store i8* [[TMP10]], i8** [[TMP8]], align 4			// CHECK2-NEXT: store i8* [[TMP10]], i8** [[TMP8]], align 4
	// CHECK2-NEXT: [[TMP11:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK2-NEXT: [[TMP11:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK2-NEXT: [[TMP12:%.]] = load i8, i8** [[DOTADDR2]], align 4			// CHECK2-NEXT: [[TMP12:%.]] = load i8, i8** [[DOTADDR2]], align 4
	// CHECK2-NEXT: call void @"_omp$reduction$reduction_func2"(i8* [[TMP11]], i8* [[TMP12]]) #[[ATTR4]]			// CHECK2-NEXT: call void @"_omp$reduction$reduction_func2"(i8* [[TMP11]], i8* [[TMP12]]) #[[ATTR3]]
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_global_to_list_copy_func7			// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_global_to_list_copy_func7
	// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {			// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 4			// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 4
	// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 4			// CHECK2-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 4
	// CHECK2-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 1			// CHECK2-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 1
	// CHECK2-NEXT: [[D:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_0]], %struct._globalized_locals_ty.0 [[TMP4]], i32 0, i32 1			// CHECK2-NEXT: [[D:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_0]], %struct._globalized_locals_ty.0 [[TMP4]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP9:%.]] = getelementptr inbounds [1024 x float], [1024 x float] [[D]], i32 0, i32 [[TMP5]]			// CHECK2-NEXT: [[TMP9:%.]] = getelementptr inbounds [1024 x float], [1024 x float] [[D]], i32 0, i32 [[TMP5]]
	// CHECK2-NEXT: [[TMP10:%.]] = bitcast float [[TMP9]] to i8*			// CHECK2-NEXT: [[TMP10:%.]] = bitcast float [[TMP9]] to i8*
	// CHECK2-NEXT: store i8* [[TMP10]], i8** [[TMP8]], align 4			// CHECK2-NEXT: store i8* [[TMP10]], i8** [[TMP8]], align 4
	// CHECK2-NEXT: [[TMP11:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK2-NEXT: [[TMP11:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK2-NEXT: [[TMP12:%.]] = load i8, i8** [[DOTADDR2]], align 4			// CHECK2-NEXT: [[TMP12:%.]] = load i8, i8** [[DOTADDR2]], align 4
	// CHECK2-NEXT: call void @"_omp$reduction$reduction_func2"(i8* [[TMP12]], i8* [[TMP11]]) #[[ATTR4]]			// CHECK2-NEXT: call void @"_omp$reduction$reduction_func2"(i8* [[TMP12]], i8* [[TMP11]]) #[[ATTR3]]
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l33			// CHECK2-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l33
	// CHECK2-SAME: (i32 [[A:%.]], i32 [[B:%.]]) #[[ATTR0]] {			// CHECK2-SAME: (i32 [[A:%.]], i32 [[B:%.]]) #[[ATTR0]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[B_ADDR:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[B_ADDR:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4			// CHECK2-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
	// CHECK2-NEXT: store i32 [[B]], i32* [[B_ADDR]], align 4			// CHECK2-NEXT: store i32 [[B]], i32* [[B_ADDR]], align 4
	// CHECK2-NEXT: [[CONV:%.]] = bitcast i32 [[B_ADDR]] to i16*			// CHECK2-NEXT: [[CONV:%.]] = bitcast i32 [[B_ADDR]] to i16*
	// CHECK2-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 2, i1 false, i1 true)			// CHECK2-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 2, i1 false, i1 true)
	// CHECK2-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			// CHECK2-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	// CHECK2-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK2-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK2: user_code.entry:			// CHECK2: user_code.entry:
	// CHECK2-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3:[0-9]+]])			// CHECK2-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3:[0-9]+]])
	// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK2-NEXT: call void @__omp_outlined__9(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32* [[A_ADDR]], i16* [[CONV]]) #[[ATTR4]]			// CHECK2-NEXT: call void @__omp_outlined__9(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32* [[A_ADDR]], i16* [[CONV]]) #[[ATTR3]]
	// CHECK2-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 2, i1 true)			// CHECK2-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 2, i1 true)
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	// CHECK2: worker.exit:			// CHECK2: worker.exit:
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__9			// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__9
	// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[B:%.*]]) #[[ATTR0]] {			// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[B:%.*]]) #[[ATTR0]] {
	▲ Show 20 Lines • Show All 155 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: [[TMP8:%.]] = load i16, i16 [[DOTADDR3]], align 2			// CHECK2-NEXT: [[TMP8:%.]] = load i16, i16 [[DOTADDR3]], align 2
	// CHECK2-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0			// CHECK2-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 4			// CHECK2-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 4
	// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0			// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to i32*			// CHECK2-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to i32*
	// CHECK2-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i32 1			// CHECK2-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i32 1
	// CHECK2-NEXT: [[TMP14:%.]] = bitcast i32 [[TMP13]] to i8*			// CHECK2-NEXT: [[TMP14:%.]] = bitcast i32 [[TMP13]] to i8*
	// CHECK2-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP12]], align 4			// CHECK2-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP12]], align 4
	// CHECK2-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK2-NEXT: [[TMP16:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK2-NEXT: [[TMP16:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK2-NEXT: [[TMP17:%.*]] = trunc i32 [[TMP16]] to i16
	// CHECK2-NEXT: [[TMP17:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP15]], i16 [[TMP7]], i16 [[TMP16]])			// CHECK2-NEXT: [[TMP18:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP15]], i16 [[TMP7]], i16 [[TMP17]])
	// CHECK2-NEXT: store i32 [[TMP17]], i32* [[DOTOMP_REDUCTION_ELEMENT]], align 4			// CHECK2-NEXT: store i32 [[TMP18]], i32* [[DOTOMP_REDUCTION_ELEMENT]], align 4
	// CHECK2-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP12]], i32 1			// CHECK2-NEXT: [[TMP19:%.]] = getelementptr i32, i32 [[TMP12]], i32 1
	// CHECK2-NEXT: [[TMP19:%.]] = getelementptr i32, i32 [[DOTOMP_REDUCTION_ELEMENT]], i32 1			// CHECK2-NEXT: [[TMP20:%.]] = getelementptr i32, i32 [[DOTOMP_REDUCTION_ELEMENT]], i32 1
	// CHECK2-NEXT: [[TMP20:%.]] = bitcast i32 [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK2-NEXT: [[TMP21:%.]] = bitcast i32 [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	// CHECK2-NEXT: store i8* [[TMP20]], i8** [[TMP11]], align 4			// CHECK2-NEXT: store i8* [[TMP21]], i8** [[TMP11]], align 4
	// CHECK2-NEXT: [[TMP21:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1			// CHECK2-NEXT: [[TMP22:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP22:%.]] = load i8, i8** [[TMP21]], align 4			// CHECK2-NEXT: [[TMP23:%.]] = load i8, i8** [[TMP22]], align 4
	// CHECK2-NEXT: [[TMP23:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1			// CHECK2-NEXT: [[TMP24:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP24:%.]] = bitcast i8 [[TMP22]] to i16*			// CHECK2-NEXT: [[TMP25:%.]] = bitcast i8 [[TMP23]] to i16*
	// CHECK2-NEXT: [[TMP25:%.]] = getelementptr i16, i16 [[TMP24]], i32 1			// CHECK2-NEXT: [[TMP26:%.]] = getelementptr i16, i16 [[TMP25]], i32 1
	// CHECK2-NEXT: [[TMP26:%.]] = bitcast i16 [[TMP25]] to i8*			// CHECK2-NEXT: [[TMP27:%.]] = bitcast i16 [[TMP26]] to i8*
	// CHECK2-NEXT: [[TMP27:%.]] = load i16, i16 [[TMP24]], align 2			// CHECK2-NEXT: [[TMP28:%.]] = load i16, i16 [[TMP25]], align 2
	// CHECK2-NEXT: [[TMP28:%.*]] = sext i16 [[TMP27]] to i32			// CHECK2-NEXT: [[TMP29:%.*]] = sext i16 [[TMP28]] to i32
	// CHECK2-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK2-NEXT: [[TMP30:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK2-NEXT: [[TMP29:%.*]] = trunc i32 [[NVPTX_WARP_SIZE5]] to i16
	// CHECK2-NEXT: [[TMP30:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP28]], i16 [[TMP7]], i16 [[TMP29]])
	// CHECK2-NEXT: [[TMP31:%.*]] = trunc i32 [[TMP30]] to i16			// CHECK2-NEXT: [[TMP31:%.*]] = trunc i32 [[TMP30]] to i16
	// CHECK2-NEXT: store i16 [[TMP31]], i16* [[DOTOMP_REDUCTION_ELEMENT4]], align 2			// CHECK2-NEXT: [[TMP32:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP29]], i16 [[TMP7]], i16 [[TMP31]])
	// CHECK2-NEXT: [[TMP32:%.]] = getelementptr i16, i16 [[TMP24]], i32 1			// CHECK2-NEXT: [[TMP33:%.*]] = trunc i32 [[TMP32]] to i16
	// CHECK2-NEXT: [[TMP33:%.]] = getelementptr i16, i16 [[DOTOMP_REDUCTION_ELEMENT4]], i32 1			// CHECK2-NEXT: store i16 [[TMP33]], i16* [[DOTOMP_REDUCTION_ELEMENT4]], align 2
	// CHECK2-NEXT: [[TMP34:%.]] = bitcast i16 [[DOTOMP_REDUCTION_ELEMENT4]] to i8*			// CHECK2-NEXT: [[TMP34:%.]] = getelementptr i16, i16 [[TMP25]], i32 1
	// CHECK2-NEXT: store i8* [[TMP34]], i8** [[TMP23]], align 4			// CHECK2-NEXT: [[TMP35:%.]] = getelementptr i16, i16 [[DOTOMP_REDUCTION_ELEMENT4]], i32 1
	// CHECK2-NEXT: [[TMP35:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK2-NEXT: [[TMP36:%.]] = bitcast i16 [[DOTOMP_REDUCTION_ELEMENT4]] to i8*
	// CHECK2-NEXT: [[TMP36:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK2-NEXT: store i8* [[TMP36]], i8** [[TMP24]], align 4
	// CHECK2-NEXT: [[TMP37:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]			// CHECK2-NEXT: [[TMP37:%.*]] = icmp eq i16 [[TMP8]], 0
	// CHECK2-NEXT: [[TMP38:%.*]] = and i1 [[TMP36]], [[TMP37]]			// CHECK2-NEXT: [[TMP38:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK2-NEXT: [[TMP39:%.*]] = icmp eq i16 [[TMP8]], 2			// CHECK2-NEXT: [[TMP39:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]
	// CHECK2-NEXT: [[TMP40:%.*]] = and i16 [[TMP6]], 1			// CHECK2-NEXT: [[TMP40:%.*]] = and i1 [[TMP38]], [[TMP39]]
	// CHECK2-NEXT: [[TMP41:%.*]] = icmp eq i16 [[TMP40]], 0			// CHECK2-NEXT: [[TMP41:%.*]] = icmp eq i16 [[TMP8]], 2
	// CHECK2-NEXT: [[TMP42:%.*]] = and i1 [[TMP39]], [[TMP41]]			// CHECK2-NEXT: [[TMP42:%.*]] = and i16 [[TMP6]], 1
	// CHECK2-NEXT: [[TMP43:%.*]] = icmp sgt i16 [[TMP7]], 0			// CHECK2-NEXT: [[TMP43:%.*]] = icmp eq i16 [[TMP42]], 0
	// CHECK2-NEXT: [[TMP44:%.*]] = and i1 [[TMP42]], [[TMP43]]			// CHECK2-NEXT: [[TMP44:%.*]] = and i1 [[TMP41]], [[TMP43]]
	// CHECK2-NEXT: [[TMP45:%.*]] = or i1 [[TMP35]], [[TMP38]]			// CHECK2-NEXT: [[TMP45:%.*]] = icmp sgt i16 [[TMP7]], 0
	// CHECK2-NEXT: [[TMP46:%.*]] = or i1 [[TMP45]], [[TMP44]]			// CHECK2-NEXT: [[TMP46:%.*]] = and i1 [[TMP44]], [[TMP45]]
	// CHECK2-NEXT: br i1 [[TMP46]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK2-NEXT: [[TMP47:%.*]] = or i1 [[TMP37]], [[TMP40]]
				// CHECK2-NEXT: [[TMP48:%.*]] = or i1 [[TMP47]], [[TMP46]]
				// CHECK2-NEXT: br i1 [[TMP48]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK2: then:			// CHECK2: then:
	// CHECK2-NEXT: [[TMP47:%.]] = bitcast [2 x i8]* [[TMP5]] to i8*			// CHECK2-NEXT: [[TMP49:%.]] = bitcast [2 x i8]* [[TMP5]] to i8*
	// CHECK2-NEXT: [[TMP48:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*			// CHECK2-NEXT: [[TMP50:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*
	// CHECK2-NEXT: call void @"_omp$reduction$reduction_func11"(i8* [[TMP47]], i8* [[TMP48]]) #[[ATTR4]]			// CHECK2-NEXT: call void @"_omp$reduction$reduction_func11"(i8* [[TMP49]], i8* [[TMP50]]) #[[ATTR3]]
	// CHECK2-NEXT: br label [[IFCONT:%.*]]			// CHECK2-NEXT: br label [[IFCONT:%.*]]
	// CHECK2: else:			// CHECK2: else:
	// CHECK2-NEXT: br label [[IFCONT]]			// CHECK2-NEXT: br label [[IFCONT]]
	// CHECK2: ifcont:			// CHECK2: ifcont:
	// CHECK2-NEXT: [[TMP49:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK2-NEXT: [[TMP51:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK2-NEXT: [[TMP50:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]			// CHECK2-NEXT: [[TMP52:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]
	// CHECK2-NEXT: [[TMP51:%.*]] = and i1 [[TMP49]], [[TMP50]]			// CHECK2-NEXT: [[TMP53:%.*]] = and i1 [[TMP51]], [[TMP52]]
	// CHECK2-NEXT: br i1 [[TMP51]], label [[THEN6:%.]], label [[ELSE7:%.]]			// CHECK2-NEXT: br i1 [[TMP53]], label [[THEN5:%.]], label [[ELSE6:%.]]
	// CHECK2: then6:			// CHECK2: then5:
	// CHECK2-NEXT: [[TMP52:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0			// CHECK2-NEXT: [[TMP54:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP53:%.]] = load i8, i8** [[TMP52]], align 4
	// CHECK2-NEXT: [[TMP54:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP55:%.]] = load i8, i8** [[TMP54]], align 4			// CHECK2-NEXT: [[TMP55:%.]] = load i8, i8** [[TMP54]], align 4
	// CHECK2-NEXT: [[TMP56:%.]] = bitcast i8 [[TMP53]] to i32*			// CHECK2-NEXT: [[TMP56:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP57:%.]] = bitcast i8 [[TMP55]] to i32*			// CHECK2-NEXT: [[TMP57:%.]] = load i8, i8** [[TMP56]], align 4
	// CHECK2-NEXT: [[TMP58:%.]] = load i32, i32 [[TMP56]], align 4			// CHECK2-NEXT: [[TMP58:%.]] = bitcast i8 [[TMP55]] to i32*
	// CHECK2-NEXT: store i32 [[TMP58]], i32* [[TMP57]], align 4			// CHECK2-NEXT: [[TMP59:%.]] = bitcast i8 [[TMP57]] to i32*
	// CHECK2-NEXT: [[TMP59:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1			// CHECK2-NEXT: [[TMP60:%.]] = load i32, i32 [[TMP58]], align 4
	// CHECK2-NEXT: [[TMP60:%.]] = load i8, i8** [[TMP59]], align 4			// CHECK2-NEXT: store i32 [[TMP60]], i32* [[TMP59]], align 4
	// CHECK2-NEXT: [[TMP61:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1			// CHECK2-NEXT: [[TMP61:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP62:%.]] = load i8, i8** [[TMP61]], align 4			// CHECK2-NEXT: [[TMP62:%.]] = load i8, i8** [[TMP61]], align 4
	// CHECK2-NEXT: [[TMP63:%.]] = bitcast i8 [[TMP60]] to i16*			// CHECK2-NEXT: [[TMP63:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP64:%.]] = bitcast i8 [[TMP62]] to i16*			// CHECK2-NEXT: [[TMP64:%.]] = load i8, i8** [[TMP63]], align 4
	// CHECK2-NEXT: [[TMP65:%.]] = load i16, i16 [[TMP63]], align 2			// CHECK2-NEXT: [[TMP65:%.]] = bitcast i8 [[TMP62]] to i16*
	// CHECK2-NEXT: store i16 [[TMP65]], i16* [[TMP64]], align 2			// CHECK2-NEXT: [[TMP66:%.]] = bitcast i8 [[TMP64]] to i16*
	// CHECK2-NEXT: br label [[IFCONT8:%.*]]			// CHECK2-NEXT: [[TMP67:%.]] = load i16, i16 [[TMP65]], align 2
	// CHECK2: else7:			// CHECK2-NEXT: store i16 [[TMP67]], i16* [[TMP66]], align 2
	// CHECK2-NEXT: br label [[IFCONT8]]			// CHECK2-NEXT: br label [[IFCONT7:%.*]]
	// CHECK2: ifcont8:			// CHECK2: else6:
				// CHECK2-NEXT: br label [[IFCONT7]]
				// CHECK2: ifcont7:
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func13			// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func13
	// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {			// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 4			// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 4
	// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3]])			// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3]])
	// CHECK2-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 4			// CHECK2-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 4
	// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	// CHECK2-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK2-NEXT: [[TMP3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_TID2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK2-NEXT: [[TMP4:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK2-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[TMP4]], 31
	// CHECK2-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK2-NEXT: [[TMP5:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK2-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[TMP5]], 5
	// CHECK2-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 4			// CHECK2-NEXT: [[TMP6:%.]] = load i8, i8** [[DOTADDR]], align 4
	// CHECK2-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [2 x i8]			// CHECK2-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to [2 x i8]
	// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4:[0-9]+]], i32 [[TMP2]])			// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4:[0-9]+]], i32 [[TMP2]])
	// CHECK2-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK2-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK2-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK2-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK2: then:			// CHECK2: then:
	// CHECK2-NEXT: [[TMP5:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 0			// CHECK2-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP6:%.]] = load i8, i8** [[TMP5]], align 4			// CHECK2-NEXT: [[TMP9:%.]] = load i8, i8** [[TMP8]], align 4
	// CHECK2-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to i32*			// CHECK2-NEXT: [[TMP10:%.]] = bitcast i8 [[TMP9]] to i32*
	// CHECK2-NEXT: [[TMP8:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK2-NEXT: [[TMP9:%.]] = load i32, i32 [[TMP7]], align 4			// CHECK2-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP10]], align 4
	// CHECK2-NEXT: store volatile i32 [[TMP9]], i32 addrspace(3)* [[TMP8]], align 4			// CHECK2-NEXT: store volatile i32 [[TMP12]], i32 addrspace(3)* [[TMP11]], align 4
	// CHECK2-NEXT: br label [[IFCONT:%.*]]			// CHECK2-NEXT: br label [[IFCONT:%.*]]
	// CHECK2: else:			// CHECK2: else:
	// CHECK2-NEXT: br label [[IFCONT]]			// CHECK2-NEXT: br label [[IFCONT]]
	// CHECK2: ifcont:			// CHECK2: ifcont:
	// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK2-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK2-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK2-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP10]]			// CHECK2-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[TMP3]], [[TMP13]]
	// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN2:%.]], label [[ELSE3:%.]]
	// CHECK2: then4:			// CHECK2: then2:
	// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK2-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK2-NEXT: [[TMP12:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 0			// CHECK2-NEXT: [[TMP15:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP13:%.]] = load i8, i8** [[TMP12]], align 4			// CHECK2-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 4
	// CHECK2-NEXT: [[TMP14:%.]] = bitcast i8 [[TMP13]] to i32*			// CHECK2-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*
	// CHECK2-NEXT: [[TMP15:%.]] = load volatile i32, i32 addrspace(3) [[TMP11]], align 4			// CHECK2-NEXT: [[TMP18:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4
	// CHECK2-NEXT: store i32 [[TMP15]], i32* [[TMP14]], align 4			// CHECK2-NEXT: store i32 [[TMP18]], i32* [[TMP17]], align 4
	// CHECK2-NEXT: br label [[IFCONT6:%.*]]			// CHECK2-NEXT: br label [[IFCONT4:%.*]]
	// CHECK2: else5:			// CHECK2: else3:
	// CHECK2-NEXT: br label [[IFCONT6]]			// CHECK2-NEXT: br label [[IFCONT4]]
	// CHECK2: ifcont6:			// CHECK2: ifcont4:
	// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK2-NEXT: [[WARP_MASTER7:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK2-NEXT: [[WARP_MASTER5:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK2-NEXT: br i1 [[WARP_MASTER7]], label [[THEN8:%.]], label [[ELSE9:%.]]			// CHECK2-NEXT: br i1 [[WARP_MASTER5]], label [[THEN6:%.]], label [[ELSE7:%.]]
	// CHECK2: then8:			// CHECK2: then6:
	// CHECK2-NEXT: [[TMP16:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 1			// CHECK2-NEXT: [[TMP19:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP17:%.]] = load i8, i8** [[TMP16]], align 4			// CHECK2-NEXT: [[TMP20:%.]] = load i8, i8** [[TMP19]], align 4
	// CHECK2-NEXT: [[TMP18:%.]] = bitcast i8 [[TMP17]] to i16*			// CHECK2-NEXT: [[TMP21:%.]] = bitcast i8 [[TMP20]] to i16*
	// CHECK2-NEXT: [[TMP19:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK2-NEXT: [[TMP22:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK2-NEXT: [[TMP20:%.]] = bitcast i32 addrspace(3) [[TMP19]] to i16 addrspace(3)*			// CHECK2-NEXT: [[TMP23:%.]] = bitcast i32 addrspace(3) [[TMP22]] to i16 addrspace(3)*
	// CHECK2-NEXT: [[TMP21:%.]] = load i16, i16 [[TMP18]], align 2			// CHECK2-NEXT: [[TMP24:%.]] = load i16, i16 [[TMP21]], align 2
	// CHECK2-NEXT: store volatile i16 [[TMP21]], i16 addrspace(3)* [[TMP20]], align 2			// CHECK2-NEXT: store volatile i16 [[TMP24]], i16 addrspace(3)* [[TMP23]], align 2
	// CHECK2-NEXT: br label [[IFCONT10:%.*]]			// CHECK2-NEXT: br label [[IFCONT8:%.*]]
	// CHECK2: else9:			// CHECK2: else7:
	// CHECK2-NEXT: br label [[IFCONT10]]			// CHECK2-NEXT: br label [[IFCONT8]]
	// CHECK2: ifcont10:			// CHECK2: ifcont8:
	// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK2-NEXT: [[TMP22:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK2-NEXT: [[TMP25:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK2-NEXT: [[IS_ACTIVE_THREAD11:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP22]]			// CHECK2-NEXT: [[IS_ACTIVE_THREAD9:%.*]] = icmp ult i32 [[TMP3]], [[TMP25]]
	// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD11]], label [[THEN12:%.]], label [[ELSE13:%.]]			// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD9]], label [[THEN10:%.]], label [[ELSE11:%.]]
	// CHECK2: then12:			// CHECK2: then10:
	// CHECK2-NEXT: [[TMP23:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK2-NEXT: [[TMP26:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK2-NEXT: [[TMP24:%.]] = bitcast i32 addrspace(3) [[TMP23]] to i16 addrspace(3)*			// CHECK2-NEXT: [[TMP27:%.]] = bitcast i32 addrspace(3) [[TMP26]] to i16 addrspace(3)*
	// CHECK2-NEXT: [[TMP25:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 1			// CHECK2-NEXT: [[TMP28:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP26:%.]] = load i8, i8** [[TMP25]], align 4			// CHECK2-NEXT: [[TMP29:%.]] = load i8, i8** [[TMP28]], align 4
	// CHECK2-NEXT: [[TMP27:%.]] = bitcast i8 [[TMP26]] to i16*			// CHECK2-NEXT: [[TMP30:%.]] = bitcast i8 [[TMP29]] to i16*
	// CHECK2-NEXT: [[TMP28:%.]] = load volatile i16, i16 addrspace(3) [[TMP24]], align 2			// CHECK2-NEXT: [[TMP31:%.]] = load volatile i16, i16 addrspace(3) [[TMP27]], align 2
	// CHECK2-NEXT: store i16 [[TMP28]], i16* [[TMP27]], align 2			// CHECK2-NEXT: store i16 [[TMP31]], i16* [[TMP30]], align 2
	// CHECK2-NEXT: br label [[IFCONT14:%.*]]			// CHECK2-NEXT: br label [[IFCONT12:%.*]]
	// CHECK2: else13:			// CHECK2: else11:
	// CHECK2-NEXT: br label [[IFCONT14]]			// CHECK2-NEXT: br label [[IFCONT12]]
	// CHECK2: ifcont14:			// CHECK2: ifcont12:
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_shuffle_and_reduce_func15			// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_shuffle_and_reduce_func15
	// CHECK2-SAME: (i8* [[TMP0:%.]], i16 signext [[TMP1:%.]], i16 signext [[TMP2:%.]], i16 signext [[TMP3:%.]]) #[[ATTR2]] {			// CHECK2-SAME: (i8* [[TMP0:%.]], i16 signext [[TMP1:%.]], i16 signext [[TMP2:%.]], i16 signext [[TMP3:%.]]) #[[ATTR2]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 4			// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 4
	// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i16, align 2			// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i16, align 2
	Show All 13 Lines
	// CHECK2-NEXT: [[TMP8:%.]] = load i16, i16 [[DOTADDR3]], align 2			// CHECK2-NEXT: [[TMP8:%.]] = load i16, i16 [[DOTADDR3]], align 2
	// CHECK2-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0			// CHECK2-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 4			// CHECK2-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 4
	// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0			// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to i32*			// CHECK2-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to i32*
	// CHECK2-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i32 1			// CHECK2-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i32 1
	// CHECK2-NEXT: [[TMP14:%.]] = bitcast i32 [[TMP13]] to i8*			// CHECK2-NEXT: [[TMP14:%.]] = bitcast i32 [[TMP13]] to i8*
	// CHECK2-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP12]], align 4			// CHECK2-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP12]], align 4
	// CHECK2-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK2-NEXT: [[TMP16:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK2-NEXT: [[TMP16:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK2-NEXT: [[TMP17:%.*]] = trunc i32 [[TMP16]] to i16
	// CHECK2-NEXT: [[TMP17:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP15]], i16 [[TMP7]], i16 [[TMP16]])			// CHECK2-NEXT: [[TMP18:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP15]], i16 [[TMP7]], i16 [[TMP17]])
	// CHECK2-NEXT: store i32 [[TMP17]], i32* [[DOTOMP_REDUCTION_ELEMENT]], align 4			// CHECK2-NEXT: store i32 [[TMP18]], i32* [[DOTOMP_REDUCTION_ELEMENT]], align 4
	// CHECK2-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP12]], i32 1			// CHECK2-NEXT: [[TMP19:%.]] = getelementptr i32, i32 [[TMP12]], i32 1
	// CHECK2-NEXT: [[TMP19:%.]] = getelementptr i32, i32 [[DOTOMP_REDUCTION_ELEMENT]], i32 1			// CHECK2-NEXT: [[TMP20:%.]] = getelementptr i32, i32 [[DOTOMP_REDUCTION_ELEMENT]], i32 1
	// CHECK2-NEXT: [[TMP20:%.]] = bitcast i32 [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK2-NEXT: [[TMP21:%.]] = bitcast i32 [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	// CHECK2-NEXT: store i8* [[TMP20]], i8** [[TMP11]], align 4			// CHECK2-NEXT: store i8* [[TMP21]], i8** [[TMP11]], align 4
	// CHECK2-NEXT: [[TMP21:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1			// CHECK2-NEXT: [[TMP22:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP22:%.]] = load i8, i8** [[TMP21]], align 4			// CHECK2-NEXT: [[TMP23:%.]] = load i8, i8** [[TMP22]], align 4
	// CHECK2-NEXT: [[TMP23:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1			// CHECK2-NEXT: [[TMP24:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP24:%.]] = bitcast i8 [[TMP22]] to i16*			// CHECK2-NEXT: [[TMP25:%.]] = bitcast i8 [[TMP23]] to i16*
	// CHECK2-NEXT: [[TMP25:%.]] = getelementptr i16, i16 [[TMP24]], i32 1			// CHECK2-NEXT: [[TMP26:%.]] = getelementptr i16, i16 [[TMP25]], i32 1
	// CHECK2-NEXT: [[TMP26:%.]] = bitcast i16 [[TMP25]] to i8*			// CHECK2-NEXT: [[TMP27:%.]] = bitcast i16 [[TMP26]] to i8*
	// CHECK2-NEXT: [[TMP27:%.]] = load i16, i16 [[TMP24]], align 2			// CHECK2-NEXT: [[TMP28:%.]] = load i16, i16 [[TMP25]], align 2
	// CHECK2-NEXT: [[TMP28:%.*]] = sext i16 [[TMP27]] to i32			// CHECK2-NEXT: [[TMP29:%.*]] = sext i16 [[TMP28]] to i32
	// CHECK2-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK2-NEXT: [[TMP30:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK2-NEXT: [[TMP29:%.*]] = trunc i32 [[NVPTX_WARP_SIZE5]] to i16
	// CHECK2-NEXT: [[TMP30:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP28]], i16 [[TMP7]], i16 [[TMP29]])
	// CHECK2-NEXT: [[TMP31:%.*]] = trunc i32 [[TMP30]] to i16			// CHECK2-NEXT: [[TMP31:%.*]] = trunc i32 [[TMP30]] to i16
	// CHECK2-NEXT: store i16 [[TMP31]], i16* [[DOTOMP_REDUCTION_ELEMENT4]], align 2			// CHECK2-NEXT: [[TMP32:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP29]], i16 [[TMP7]], i16 [[TMP31]])
	// CHECK2-NEXT: [[TMP32:%.]] = getelementptr i16, i16 [[TMP24]], i32 1			// CHECK2-NEXT: [[TMP33:%.*]] = trunc i32 [[TMP32]] to i16
	// CHECK2-NEXT: [[TMP33:%.]] = getelementptr i16, i16 [[DOTOMP_REDUCTION_ELEMENT4]], i32 1			// CHECK2-NEXT: store i16 [[TMP33]], i16* [[DOTOMP_REDUCTION_ELEMENT4]], align 2
	// CHECK2-NEXT: [[TMP34:%.]] = bitcast i16 [[DOTOMP_REDUCTION_ELEMENT4]] to i8*			// CHECK2-NEXT: [[TMP34:%.]] = getelementptr i16, i16 [[TMP25]], i32 1
	// CHECK2-NEXT: store i8* [[TMP34]], i8** [[TMP23]], align 4			// CHECK2-NEXT: [[TMP35:%.]] = getelementptr i16, i16 [[DOTOMP_REDUCTION_ELEMENT4]], i32 1
	// CHECK2-NEXT: [[TMP35:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK2-NEXT: [[TMP36:%.]] = bitcast i16 [[DOTOMP_REDUCTION_ELEMENT4]] to i8*
	// CHECK2-NEXT: [[TMP36:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK2-NEXT: store i8* [[TMP36]], i8** [[TMP24]], align 4
	// CHECK2-NEXT: [[TMP37:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]			// CHECK2-NEXT: [[TMP37:%.*]] = icmp eq i16 [[TMP8]], 0
	// CHECK2-NEXT: [[TMP38:%.*]] = and i1 [[TMP36]], [[TMP37]]			// CHECK2-NEXT: [[TMP38:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK2-NEXT: [[TMP39:%.*]] = icmp eq i16 [[TMP8]], 2			// CHECK2-NEXT: [[TMP39:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]
	// CHECK2-NEXT: [[TMP40:%.*]] = and i16 [[TMP6]], 1			// CHECK2-NEXT: [[TMP40:%.*]] = and i1 [[TMP38]], [[TMP39]]
	// CHECK2-NEXT: [[TMP41:%.*]] = icmp eq i16 [[TMP40]], 0			// CHECK2-NEXT: [[TMP41:%.*]] = icmp eq i16 [[TMP8]], 2
	// CHECK2-NEXT: [[TMP42:%.*]] = and i1 [[TMP39]], [[TMP41]]			// CHECK2-NEXT: [[TMP42:%.*]] = and i16 [[TMP6]], 1
	// CHECK2-NEXT: [[TMP43:%.*]] = icmp sgt i16 [[TMP7]], 0			// CHECK2-NEXT: [[TMP43:%.*]] = icmp eq i16 [[TMP42]], 0
	// CHECK2-NEXT: [[TMP44:%.*]] = and i1 [[TMP42]], [[TMP43]]			// CHECK2-NEXT: [[TMP44:%.*]] = and i1 [[TMP41]], [[TMP43]]
	// CHECK2-NEXT: [[TMP45:%.*]] = or i1 [[TMP35]], [[TMP38]]			// CHECK2-NEXT: [[TMP45:%.*]] = icmp sgt i16 [[TMP7]], 0
	// CHECK2-NEXT: [[TMP46:%.*]] = or i1 [[TMP45]], [[TMP44]]			// CHECK2-NEXT: [[TMP46:%.*]] = and i1 [[TMP44]], [[TMP45]]
	// CHECK2-NEXT: br i1 [[TMP46]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK2-NEXT: [[TMP47:%.*]] = or i1 [[TMP37]], [[TMP40]]
				// CHECK2-NEXT: [[TMP48:%.*]] = or i1 [[TMP47]], [[TMP46]]
				// CHECK2-NEXT: br i1 [[TMP48]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK2: then:			// CHECK2: then:
	// CHECK2-NEXT: [[TMP47:%.]] = bitcast [2 x i8]* [[TMP5]] to i8*			// CHECK2-NEXT: [[TMP49:%.]] = bitcast [2 x i8]* [[TMP5]] to i8*
	// CHECK2-NEXT: [[TMP48:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*			// CHECK2-NEXT: [[TMP50:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*
	// CHECK2-NEXT: call void @"_omp$reduction$reduction_func14"(i8* [[TMP47]], i8* [[TMP48]]) #[[ATTR4]]			// CHECK2-NEXT: call void @"_omp$reduction$reduction_func14"(i8* [[TMP49]], i8* [[TMP50]]) #[[ATTR3]]
	// CHECK2-NEXT: br label [[IFCONT:%.*]]			// CHECK2-NEXT: br label [[IFCONT:%.*]]
	// CHECK2: else:			// CHECK2: else:
	// CHECK2-NEXT: br label [[IFCONT]]			// CHECK2-NEXT: br label [[IFCONT]]
	// CHECK2: ifcont:			// CHECK2: ifcont:
	// CHECK2-NEXT: [[TMP49:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK2-NEXT: [[TMP51:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK2-NEXT: [[TMP50:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]			// CHECK2-NEXT: [[TMP52:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]
	// CHECK2-NEXT: [[TMP51:%.*]] = and i1 [[TMP49]], [[TMP50]]			// CHECK2-NEXT: [[TMP53:%.*]] = and i1 [[TMP51]], [[TMP52]]
	// CHECK2-NEXT: br i1 [[TMP51]], label [[THEN6:%.]], label [[ELSE7:%.]]			// CHECK2-NEXT: br i1 [[TMP53]], label [[THEN5:%.]], label [[ELSE6:%.]]
	// CHECK2: then6:			// CHECK2: then5:
	// CHECK2-NEXT: [[TMP52:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0			// CHECK2-NEXT: [[TMP54:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP53:%.]] = load i8, i8** [[TMP52]], align 4
	// CHECK2-NEXT: [[TMP54:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP55:%.]] = load i8, i8** [[TMP54]], align 4			// CHECK2-NEXT: [[TMP55:%.]] = load i8, i8** [[TMP54]], align 4
	// CHECK2-NEXT: [[TMP56:%.]] = bitcast i8 [[TMP53]] to i32*			// CHECK2-NEXT: [[TMP56:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP57:%.]] = bitcast i8 [[TMP55]] to i32*			// CHECK2-NEXT: [[TMP57:%.]] = load i8, i8** [[TMP56]], align 4
	// CHECK2-NEXT: [[TMP58:%.]] = load i32, i32 [[TMP56]], align 4			// CHECK2-NEXT: [[TMP58:%.]] = bitcast i8 [[TMP55]] to i32*
	// CHECK2-NEXT: store i32 [[TMP58]], i32* [[TMP57]], align 4			// CHECK2-NEXT: [[TMP59:%.]] = bitcast i8 [[TMP57]] to i32*
	// CHECK2-NEXT: [[TMP59:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1			// CHECK2-NEXT: [[TMP60:%.]] = load i32, i32 [[TMP58]], align 4
	// CHECK2-NEXT: [[TMP60:%.]] = load i8, i8** [[TMP59]], align 4			// CHECK2-NEXT: store i32 [[TMP60]], i32* [[TMP59]], align 4
	// CHECK2-NEXT: [[TMP61:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1			// CHECK2-NEXT: [[TMP61:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP62:%.]] = load i8, i8** [[TMP61]], align 4			// CHECK2-NEXT: [[TMP62:%.]] = load i8, i8** [[TMP61]], align 4
	// CHECK2-NEXT: [[TMP63:%.]] = bitcast i8 [[TMP60]] to i16*			// CHECK2-NEXT: [[TMP63:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP64:%.]] = bitcast i8 [[TMP62]] to i16*			// CHECK2-NEXT: [[TMP64:%.]] = load i8, i8** [[TMP63]], align 4
	// CHECK2-NEXT: [[TMP65:%.]] = load i16, i16 [[TMP63]], align 2			// CHECK2-NEXT: [[TMP65:%.]] = bitcast i8 [[TMP62]] to i16*
	// CHECK2-NEXT: store i16 [[TMP65]], i16* [[TMP64]], align 2			// CHECK2-NEXT: [[TMP66:%.]] = bitcast i8 [[TMP64]] to i16*
	// CHECK2-NEXT: br label [[IFCONT8:%.*]]			// CHECK2-NEXT: [[TMP67:%.]] = load i16, i16 [[TMP65]], align 2
	// CHECK2: else7:			// CHECK2-NEXT: store i16 [[TMP67]], i16* [[TMP66]], align 2
	// CHECK2-NEXT: br label [[IFCONT8]]			// CHECK2-NEXT: br label [[IFCONT7:%.*]]
	// CHECK2: ifcont8:			// CHECK2: else6:
				// CHECK2-NEXT: br label [[IFCONT7]]
				// CHECK2: ifcont7:
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func16			// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func16
	// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {			// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 4			// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 4
	// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3]])			// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3]])
	// CHECK2-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 4			// CHECK2-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 4
	// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	// CHECK2-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK2-NEXT: [[TMP3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_TID2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK2-NEXT: [[TMP4:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK2-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[TMP4]], 31
	// CHECK2-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK2-NEXT: [[TMP5:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK2-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[TMP5]], 5
	// CHECK2-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 4			// CHECK2-NEXT: [[TMP6:%.]] = load i8, i8** [[DOTADDR]], align 4
	// CHECK2-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [2 x i8]			// CHECK2-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to [2 x i8]
	// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK2-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK2-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK2-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK2-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK2: then:			// CHECK2: then:
	// CHECK2-NEXT: [[TMP5:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 0			// CHECK2-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP6:%.]] = load i8, i8** [[TMP5]], align 4			// CHECK2-NEXT: [[TMP9:%.]] = load i8, i8** [[TMP8]], align 4
	// CHECK2-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to i32*			// CHECK2-NEXT: [[TMP10:%.]] = bitcast i8 [[TMP9]] to i32*
	// CHECK2-NEXT: [[TMP8:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK2-NEXT: [[TMP9:%.]] = load i32, i32 [[TMP7]], align 4			// CHECK2-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP10]], align 4
	// CHECK2-NEXT: store volatile i32 [[TMP9]], i32 addrspace(3)* [[TMP8]], align 4			// CHECK2-NEXT: store volatile i32 [[TMP12]], i32 addrspace(3)* [[TMP11]], align 4
	// CHECK2-NEXT: br label [[IFCONT:%.*]]			// CHECK2-NEXT: br label [[IFCONT:%.*]]
	// CHECK2: else:			// CHECK2: else:
	// CHECK2-NEXT: br label [[IFCONT]]			// CHECK2-NEXT: br label [[IFCONT]]
	// CHECK2: ifcont:			// CHECK2: ifcont:
	// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK2-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK2-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK2-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP10]]			// CHECK2-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[TMP3]], [[TMP13]]
	// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN2:%.]], label [[ELSE3:%.]]
	// CHECK2: then4:			// CHECK2: then2:
	// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK2-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK2-NEXT: [[TMP12:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 0			// CHECK2-NEXT: [[TMP15:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP13:%.]] = load i8, i8** [[TMP12]], align 4			// CHECK2-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 4
	// CHECK2-NEXT: [[TMP14:%.]] = bitcast i8 [[TMP13]] to i32*			// CHECK2-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*
	// CHECK2-NEXT: [[TMP15:%.]] = load volatile i32, i32 addrspace(3) [[TMP11]], align 4			// CHECK2-NEXT: [[TMP18:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4
	// CHECK2-NEXT: store i32 [[TMP15]], i32* [[TMP14]], align 4			// CHECK2-NEXT: store i32 [[TMP18]], i32* [[TMP17]], align 4
	// CHECK2-NEXT: br label [[IFCONT6:%.*]]			// CHECK2-NEXT: br label [[IFCONT4:%.*]]
	// CHECK2: else5:			// CHECK2: else3:
	// CHECK2-NEXT: br label [[IFCONT6]]			// CHECK2-NEXT: br label [[IFCONT4]]
	// CHECK2: ifcont6:			// CHECK2: ifcont4:
	// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK2-NEXT: [[WARP_MASTER7:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK2-NEXT: [[WARP_MASTER5:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK2-NEXT: br i1 [[WARP_MASTER7]], label [[THEN8:%.]], label [[ELSE9:%.]]			// CHECK2-NEXT: br i1 [[WARP_MASTER5]], label [[THEN6:%.]], label [[ELSE7:%.]]
	// CHECK2: then8:			// CHECK2: then6:
	// CHECK2-NEXT: [[TMP16:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 1			// CHECK2-NEXT: [[TMP19:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP17:%.]] = load i8, i8** [[TMP16]], align 4			// CHECK2-NEXT: [[TMP20:%.]] = load i8, i8** [[TMP19]], align 4
	// CHECK2-NEXT: [[TMP18:%.]] = bitcast i8 [[TMP17]] to i16*			// CHECK2-NEXT: [[TMP21:%.]] = bitcast i8 [[TMP20]] to i16*
	// CHECK2-NEXT: [[TMP19:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK2-NEXT: [[TMP22:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK2-NEXT: [[TMP20:%.]] = bitcast i32 addrspace(3) [[TMP19]] to i16 addrspace(3)*			// CHECK2-NEXT: [[TMP23:%.]] = bitcast i32 addrspace(3) [[TMP22]] to i16 addrspace(3)*
	// CHECK2-NEXT: [[TMP21:%.]] = load i16, i16 [[TMP18]], align 2			// CHECK2-NEXT: [[TMP24:%.]] = load i16, i16 [[TMP21]], align 2
	// CHECK2-NEXT: store volatile i16 [[TMP21]], i16 addrspace(3)* [[TMP20]], align 2			// CHECK2-NEXT: store volatile i16 [[TMP24]], i16 addrspace(3)* [[TMP23]], align 2
	// CHECK2-NEXT: br label [[IFCONT10:%.*]]			// CHECK2-NEXT: br label [[IFCONT8:%.*]]
	// CHECK2: else9:			// CHECK2: else7:
	// CHECK2-NEXT: br label [[IFCONT10]]			// CHECK2-NEXT: br label [[IFCONT8]]
	// CHECK2: ifcont10:			// CHECK2: ifcont8:
	// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK2-NEXT: [[TMP22:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK2-NEXT: [[TMP25:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK2-NEXT: [[IS_ACTIVE_THREAD11:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP22]]			// CHECK2-NEXT: [[IS_ACTIVE_THREAD9:%.*]] = icmp ult i32 [[TMP3]], [[TMP25]]
	// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD11]], label [[THEN12:%.]], label [[ELSE13:%.]]			// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD9]], label [[THEN10:%.]], label [[ELSE11:%.]]
	// CHECK2: then12:			// CHECK2: then10:
	// CHECK2-NEXT: [[TMP23:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK2-NEXT: [[TMP26:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK2-NEXT: [[TMP24:%.]] = bitcast i32 addrspace(3) [[TMP23]] to i16 addrspace(3)*			// CHECK2-NEXT: [[TMP27:%.]] = bitcast i32 addrspace(3) [[TMP26]] to i16 addrspace(3)*
	// CHECK2-NEXT: [[TMP25:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 1			// CHECK2-NEXT: [[TMP28:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP26:%.]] = load i8, i8** [[TMP25]], align 4			// CHECK2-NEXT: [[TMP29:%.]] = load i8, i8** [[TMP28]], align 4
	// CHECK2-NEXT: [[TMP27:%.]] = bitcast i8 [[TMP26]] to i16*			// CHECK2-NEXT: [[TMP30:%.]] = bitcast i8 [[TMP29]] to i16*
	// CHECK2-NEXT: [[TMP28:%.]] = load volatile i16, i16 addrspace(3) [[TMP24]], align 2			// CHECK2-NEXT: [[TMP31:%.]] = load volatile i16, i16 addrspace(3) [[TMP27]], align 2
	// CHECK2-NEXT: store i16 [[TMP28]], i16* [[TMP27]], align 2			// CHECK2-NEXT: store i16 [[TMP31]], i16* [[TMP30]], align 2
	// CHECK2-NEXT: br label [[IFCONT14:%.*]]			// CHECK2-NEXT: br label [[IFCONT12:%.*]]
	// CHECK2: else13:			// CHECK2: else11:
	// CHECK2-NEXT: br label [[IFCONT14]]			// CHECK2-NEXT: br label [[IFCONT12]]
	// CHECK2: ifcont14:			// CHECK2: ifcont12:
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_list_to_global_copy_func17			// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_list_to_global_copy_func17
	// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {			// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 4			// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 4
	// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 4			// CHECK2-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 4
	// CHECK2-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 1			// CHECK2-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 1
	// CHECK2-NEXT: [[B:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_1]], %struct._globalized_locals_ty.1 [[TMP4]], i32 0, i32 1			// CHECK2-NEXT: [[B:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_1]], %struct._globalized_locals_ty.1 [[TMP4]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP10:%.]] = getelementptr inbounds [1024 x i16], [1024 x i16] [[B]], i32 0, i32 [[TMP5]]			// CHECK2-NEXT: [[TMP10:%.]] = getelementptr inbounds [1024 x i16], [1024 x i16] [[B]], i32 0, i32 [[TMP5]]
	// CHECK2-NEXT: [[TMP11:%.]] = bitcast i16 [[TMP10]] to i8*			// CHECK2-NEXT: [[TMP11:%.]] = bitcast i16 [[TMP10]] to i8*
	// CHECK2-NEXT: store i8* [[TMP11]], i8** [[TMP9]], align 4			// CHECK2-NEXT: store i8* [[TMP11]], i8** [[TMP9]], align 4
	// CHECK2-NEXT: [[TMP12:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK2-NEXT: [[TMP12:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK2-NEXT: [[TMP13:%.]] = load i8, i8** [[DOTADDR2]], align 4			// CHECK2-NEXT: [[TMP13:%.]] = load i8, i8** [[DOTADDR2]], align 4
	// CHECK2-NEXT: call void @"_omp$reduction$reduction_func14"(i8* [[TMP12]], i8* [[TMP13]]) #[[ATTR4]]			// CHECK2-NEXT: call void @"_omp$reduction$reduction_func14"(i8* [[TMP12]], i8* [[TMP13]]) #[[ATTR3]]
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_global_to_list_copy_func19			// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_global_to_list_copy_func19
	// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {			// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 4			// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 4
	// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 4			// CHECK2-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 4
	// CHECK2-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 1			// CHECK2-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 1
	// CHECK2-NEXT: [[B:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_1]], %struct._globalized_locals_ty.1 [[TMP4]], i32 0, i32 1			// CHECK2-NEXT: [[B:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_1]], %struct._globalized_locals_ty.1 [[TMP4]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP10:%.]] = getelementptr inbounds [1024 x i16], [1024 x i16] [[B]], i32 0, i32 [[TMP5]]			// CHECK2-NEXT: [[TMP10:%.]] = getelementptr inbounds [1024 x i16], [1024 x i16] [[B]], i32 0, i32 [[TMP5]]
	// CHECK2-NEXT: [[TMP11:%.]] = bitcast i16 [[TMP10]] to i8*			// CHECK2-NEXT: [[TMP11:%.]] = bitcast i16 [[TMP10]] to i8*
	// CHECK2-NEXT: store i8* [[TMP11]], i8** [[TMP9]], align 4			// CHECK2-NEXT: store i8* [[TMP11]], i8** [[TMP9]], align 4
	// CHECK2-NEXT: [[TMP12:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK2-NEXT: [[TMP12:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK2-NEXT: [[TMP13:%.]] = load i8, i8** [[DOTADDR2]], align 4			// CHECK2-NEXT: [[TMP13:%.]] = load i8, i8** [[DOTADDR2]], align 4
	// CHECK2-NEXT: call void @"_omp$reduction$reduction_func14"(i8* [[TMP13]], i8* [[TMP12]]) #[[ATTR4]]			// CHECK2-NEXT: call void @"_omp$reduction$reduction_func14"(i8* [[TMP13]], i8* [[TMP12]]) #[[ATTR3]]
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l20			// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l20
	// CHECK3-SAME: (double* nonnull align 8 dereferenceable(8) [[E:%.*]]) #[[ATTR0:[0-9]+]] {			// CHECK3-SAME: (double* nonnull align 8 dereferenceable(8) [[E:%.*]]) #[[ATTR0:[0-9]+]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[E_ADDR:%.]] = alloca double, align 4			// CHECK3-NEXT: [[E_ADDR:%.]] = alloca double, align 4
	// CHECK3-NEXT: [[E1:%.*]] = alloca double, align 8			// CHECK3-NEXT: [[E1:%.*]] = alloca double, align 8
	// CHECK3-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: store double* [[E]], double** [[E_ADDR]], align 4			// CHECK3-NEXT: store double* [[E]], double** [[E_ADDR]], align 4
	// CHECK3-NEXT: [[TMP0:%.]] = load double, double** [[E_ADDR]], align 4			// CHECK3-NEXT: [[TMP0:%.]] = load double, double** [[E_ADDR]], align 4
	// CHECK3-NEXT: [[TMP1:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i8 1, i1 true, i1 true)			// CHECK3-NEXT: [[TMP1:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i8 1, i1 true, i1 true)
	// CHECK3-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP1]], -1			// CHECK3-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP1]], -1
	// CHECK3-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK3-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK3: user_code.entry:			// CHECK3: user_code.entry:
	// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK3-NEXT: [[TMP3:%.]] = load double, double [[TMP0]], align 8			// CHECK3-NEXT: [[TMP3:%.]] = load double, double [[TMP0]], align 8
	// CHECK3-NEXT: store double [[TMP3]], double* [[E1]], align 8			// CHECK3-NEXT: store double [[TMP3]], double* [[E1]], align 8
	// CHECK3-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK3-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK3-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK3-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK3-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], double* [[E1]]) #[[ATTR4:[0-9]+]]			// CHECK3-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], double* [[E1]]) #[[ATTR3:[0-9]+]]
	// CHECK3-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)			// CHECK3-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	// CHECK3: worker.exit:			// CHECK3: worker.exit:
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__			// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__
	// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], double nonnull align 8 dereferenceable(8) [[E:%.*]]) #[[ATTR0]] {			// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], double nonnull align 8 dereferenceable(8) [[E:%.*]]) #[[ATTR0]] {
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 4			// CHECK3-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 4
	// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0			// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to double*			// CHECK3-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to double*
	// CHECK3-NEXT: [[TMP13:%.]] = getelementptr double, double [[TMP12]], i32 1			// CHECK3-NEXT: [[TMP13:%.]] = getelementptr double, double [[TMP12]], i32 1
	// CHECK3-NEXT: [[TMP14:%.]] = bitcast double [[TMP13]] to i8*			// CHECK3-NEXT: [[TMP14:%.]] = bitcast double [[TMP13]] to i8*
	// CHECK3-NEXT: [[TMP15:%.]] = bitcast double [[TMP12]] to i64*			// CHECK3-NEXT: [[TMP15:%.]] = bitcast double [[TMP12]] to i64*
	// CHECK3-NEXT: [[TMP16:%.]] = bitcast double [[DOTOMP_REDUCTION_ELEMENT]] to i64*			// CHECK3-NEXT: [[TMP16:%.]] = bitcast double [[DOTOMP_REDUCTION_ELEMENT]] to i64*
	// CHECK3-NEXT: [[TMP17:%.]] = load i64, i64 [[TMP15]], align 8			// CHECK3-NEXT: [[TMP17:%.]] = load i64, i64 [[TMP15]], align 8
	// CHECK3-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK3-NEXT: [[TMP18:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK3-NEXT: [[TMP18:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK3-NEXT: [[TMP19:%.*]] = trunc i32 [[TMP18]] to i16
	// CHECK3-NEXT: [[TMP19:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP17]], i16 [[TMP7]], i16 [[TMP18]])			// CHECK3-NEXT: [[TMP20:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP17]], i16 [[TMP7]], i16 [[TMP19]])
	// CHECK3-NEXT: store i64 [[TMP19]], i64* [[TMP16]], align 8			// CHECK3-NEXT: store i64 [[TMP20]], i64* [[TMP16]], align 8
	// CHECK3-NEXT: [[TMP20:%.]] = getelementptr i64, i64 [[TMP15]], i32 1			// CHECK3-NEXT: [[TMP21:%.]] = getelementptr i64, i64 [[TMP15]], i32 1
	// CHECK3-NEXT: [[TMP21:%.]] = getelementptr i64, i64 [[TMP16]], i32 1			// CHECK3-NEXT: [[TMP22:%.]] = getelementptr i64, i64 [[TMP16]], i32 1
	// CHECK3-NEXT: [[TMP22:%.]] = bitcast double [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK3-NEXT: [[TMP23:%.]] = bitcast double [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	// CHECK3-NEXT: store i8* [[TMP22]], i8** [[TMP11]], align 4			// CHECK3-NEXT: store i8* [[TMP23]], i8** [[TMP11]], align 4
	// CHECK3-NEXT: [[TMP23:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK3-NEXT: [[TMP24:%.*]] = icmp eq i16 [[TMP8]], 0
	// CHECK3-NEXT: [[TMP24:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK3-NEXT: [[TMP25:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK3-NEXT: [[TMP25:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]			// CHECK3-NEXT: [[TMP26:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]
	// CHECK3-NEXT: [[TMP26:%.*]] = and i1 [[TMP24]], [[TMP25]]			// CHECK3-NEXT: [[TMP27:%.*]] = and i1 [[TMP25]], [[TMP26]]
	// CHECK3-NEXT: [[TMP27:%.*]] = icmp eq i16 [[TMP8]], 2			// CHECK3-NEXT: [[TMP28:%.*]] = icmp eq i16 [[TMP8]], 2
	// CHECK3-NEXT: [[TMP28:%.*]] = and i16 [[TMP6]], 1			// CHECK3-NEXT: [[TMP29:%.*]] = and i16 [[TMP6]], 1
	// CHECK3-NEXT: [[TMP29:%.*]] = icmp eq i16 [[TMP28]], 0			// CHECK3-NEXT: [[TMP30:%.*]] = icmp eq i16 [[TMP29]], 0
	// CHECK3-NEXT: [[TMP30:%.*]] = and i1 [[TMP27]], [[TMP29]]			// CHECK3-NEXT: [[TMP31:%.*]] = and i1 [[TMP28]], [[TMP30]]
	// CHECK3-NEXT: [[TMP31:%.*]] = icmp sgt i16 [[TMP7]], 0			// CHECK3-NEXT: [[TMP32:%.*]] = icmp sgt i16 [[TMP7]], 0
	// CHECK3-NEXT: [[TMP32:%.*]] = and i1 [[TMP30]], [[TMP31]]			// CHECK3-NEXT: [[TMP33:%.*]] = and i1 [[TMP31]], [[TMP32]]
	// CHECK3-NEXT: [[TMP33:%.*]] = or i1 [[TMP23]], [[TMP26]]			// CHECK3-NEXT: [[TMP34:%.*]] = or i1 [[TMP24]], [[TMP27]]
	// CHECK3-NEXT: [[TMP34:%.*]] = or i1 [[TMP33]], [[TMP32]]			// CHECK3-NEXT: [[TMP35:%.*]] = or i1 [[TMP34]], [[TMP33]]
	// CHECK3-NEXT: br i1 [[TMP34]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK3-NEXT: br i1 [[TMP35]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK3: then:			// CHECK3: then:
	// CHECK3-NEXT: [[TMP35:%.]] = bitcast [1 x i8]* [[TMP5]] to i8*			// CHECK3-NEXT: [[TMP36:%.]] = bitcast [1 x i8]* [[TMP5]] to i8*
	// CHECK3-NEXT: [[TMP36:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*			// CHECK3-NEXT: [[TMP37:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*
	// CHECK3-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP35]], i8* [[TMP36]]) #[[ATTR4]]			// CHECK3-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP36]], i8* [[TMP37]]) #[[ATTR3]]
	// CHECK3-NEXT: br label [[IFCONT:%.*]]			// CHECK3-NEXT: br label [[IFCONT:%.*]]
	// CHECK3: else:			// CHECK3: else:
	// CHECK3-NEXT: br label [[IFCONT]]			// CHECK3-NEXT: br label [[IFCONT]]
	// CHECK3: ifcont:			// CHECK3: ifcont:
	// CHECK3-NEXT: [[TMP37:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK3-NEXT: [[TMP38:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK3-NEXT: [[TMP38:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]			// CHECK3-NEXT: [[TMP39:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]
	// CHECK3-NEXT: [[TMP39:%.*]] = and i1 [[TMP37]], [[TMP38]]			// CHECK3-NEXT: [[TMP40:%.*]] = and i1 [[TMP38]], [[TMP39]]
	// CHECK3-NEXT: br i1 [[TMP39]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK3-NEXT: br i1 [[TMP40]], label [[THEN4:%.]], label [[ELSE5:%.]]
	// CHECK3: then4:			// CHECK3: then4:
	// CHECK3-NEXT: [[TMP40:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0			// CHECK3-NEXT: [[TMP41:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP41:%.]] = load i8, i8** [[TMP40]], align 4			// CHECK3-NEXT: [[TMP42:%.]] = load i8, i8** [[TMP41]], align 4
	// CHECK3-NEXT: [[TMP42:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP5]], i32 0, i32 0			// CHECK3-NEXT: [[TMP43:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP5]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP43:%.]] = load i8, i8** [[TMP42]], align 4			// CHECK3-NEXT: [[TMP44:%.]] = load i8, i8** [[TMP43]], align 4
	// CHECK3-NEXT: [[TMP44:%.]] = bitcast i8 [[TMP41]] to double*			// CHECK3-NEXT: [[TMP45:%.]] = bitcast i8 [[TMP42]] to double*
	// CHECK3-NEXT: [[TMP45:%.]] = bitcast i8 [[TMP43]] to double*			// CHECK3-NEXT: [[TMP46:%.]] = bitcast i8 [[TMP44]] to double*
	// CHECK3-NEXT: [[TMP46:%.]] = load double, double [[TMP44]], align 8			// CHECK3-NEXT: [[TMP47:%.]] = load double, double [[TMP45]], align 8
	// CHECK3-NEXT: store double [[TMP46]], double* [[TMP45]], align 8			// CHECK3-NEXT: store double [[TMP47]], double* [[TMP46]], align 8
	// CHECK3-NEXT: br label [[IFCONT6:%.*]]			// CHECK3-NEXT: br label [[IFCONT6:%.*]]
	// CHECK3: else5:			// CHECK3: else5:
	// CHECK3-NEXT: br label [[IFCONT6]]			// CHECK3-NEXT: br label [[IFCONT6]]
	// CHECK3: ifcont6:			// CHECK3: ifcont6:
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func			// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func
	// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {			// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 4			// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 4
	// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK3-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 4			// CHECK3-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 4
	// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	// CHECK3-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK3-NEXT: [[TMP3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_TID2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK3-NEXT: [[TMP4:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK3-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[TMP4]], 31
	// CHECK3-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK3-NEXT: [[TMP5:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK3-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[TMP5]], 5
	// CHECK3-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 4			// CHECK3-NEXT: [[TMP6:%.]] = load i8, i8** [[DOTADDR]], align 4
	// CHECK3-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]			// CHECK3-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to [1 x i8]
	// CHECK3-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4			// CHECK3-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4
	// CHECK3-NEXT: br label [[PRECOND:%.*]]			// CHECK3-NEXT: br label [[PRECOND:%.*]]
	// CHECK3: precond:			// CHECK3: precond:
	// CHECK3-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4			// CHECK3-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4
	// CHECK3-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 2			// CHECK3-NEXT: [[TMP9:%.*]] = icmp ult i32 [[TMP8]], 2
	// CHECK3-NEXT: br i1 [[TMP6]], label [[BODY:%.]], label [[EXIT:%.]]			// CHECK3-NEXT: br i1 [[TMP9]], label [[BODY:%.]], label [[EXIT:%.]]
	// CHECK3: body:			// CHECK3: body:
	// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2:[0-9]+]], i32 [[TMP2]])			// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2:[0-9]+]], i32 [[TMP2]])
	// CHECK3-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK3-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK3-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK3-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK3: then:			// CHECK3: then:
	// CHECK3-NEXT: [[TMP7:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i32 0, i32 0			// CHECK3-NEXT: [[TMP10:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP7]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP8:%.]] = load i8, i8** [[TMP7]], align 4			// CHECK3-NEXT: [[TMP11:%.]] = load i8, i8** [[TMP10]], align 4
	// CHECK3-NEXT: [[TMP9:%.]] = bitcast i8 [[TMP8]] to i32*			// CHECK3-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP11]] to i32*
	// CHECK3-NEXT: [[TMP10:%.]] = getelementptr i32, i32 [[TMP9]], i32 [[TMP5]]			// CHECK3-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i32 [[TMP8]]
	// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK3-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK3-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP10]], align 4			// CHECK3-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP13]], align 4
	// CHECK3-NEXT: store volatile i32 [[TMP12]], i32 addrspace(3)* [[TMP11]], align 4			// CHECK3-NEXT: store volatile i32 [[TMP15]], i32 addrspace(3)* [[TMP14]], align 4
	// CHECK3-NEXT: br label [[IFCONT:%.*]]			// CHECK3-NEXT: br label [[IFCONT:%.*]]
	// CHECK3: else:			// CHECK3: else:
	// CHECK3-NEXT: br label [[IFCONT]]			// CHECK3-NEXT: br label [[IFCONT]]
	// CHECK3: ifcont:			// CHECK3: ifcont:
	// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])			// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])
	// CHECK3-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK3-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK3-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]			// CHECK3-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[TMP3]], [[TMP16]]
	// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN2:%.]], label [[ELSE3:%.]]
	// CHECK3: then4:			// CHECK3: then2:
	// CHECK3-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK3-NEXT: [[TMP17:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK3-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i32 0, i32 0			// CHECK3-NEXT: [[TMP18:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP7]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 4			// CHECK3-NEXT: [[TMP19:%.]] = load i8, i8** [[TMP18]], align 4
	// CHECK3-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*			// CHECK3-NEXT: [[TMP20:%.]] = bitcast i8 [[TMP19]] to i32*
	// CHECK3-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]			// CHECK3-NEXT: [[TMP21:%.]] = getelementptr i32, i32 [[TMP20]], i32 [[TMP8]]
	// CHECK3-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4			// CHECK3-NEXT: [[TMP22:%.]] = load volatile i32, i32 addrspace(3) [[TMP17]], align 4
	// CHECK3-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4			// CHECK3-NEXT: store i32 [[TMP22]], i32* [[TMP21]], align 4
	// CHECK3-NEXT: br label [[IFCONT6:%.*]]			// CHECK3-NEXT: br label [[IFCONT4:%.*]]
	// CHECK3: else5:			// CHECK3: else3:
	// CHECK3-NEXT: br label [[IFCONT6]]			// CHECK3-NEXT: br label [[IFCONT4]]
	// CHECK3: ifcont6:			// CHECK3: ifcont4:
	// CHECK3-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1			// CHECK3-NEXT: [[TMP23:%.*]] = add nsw i32 [[TMP8]], 1
	// CHECK3-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4			// CHECK3-NEXT: store i32 [[TMP23]], i32* [[DOTCNT_ADDR]], align 4
	// CHECK3-NEXT: br label [[PRECOND]]			// CHECK3-NEXT: br label [[PRECOND]]
	// CHECK3: exit:			// CHECK3: exit:
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_list_to_global_copy_func			// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_list_to_global_copy_func
	// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {			// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	Show All 33 Lines
	// CHECK3-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK3-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK3-NEXT: [[TMP6:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 0			// CHECK3-NEXT: [[TMP6:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 0
	// CHECK3-NEXT: [[E:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP4]], i32 0, i32 0			// CHECK3-NEXT: [[E:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP4]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP7:%.]] = getelementptr inbounds [2048 x double], [2048 x double] [[E]], i32 0, i32 [[TMP5]]			// CHECK3-NEXT: [[TMP7:%.]] = getelementptr inbounds [2048 x double], [2048 x double] [[E]], i32 0, i32 [[TMP5]]
	// CHECK3-NEXT: [[TMP8:%.]] = bitcast double [[TMP7]] to i8*			// CHECK3-NEXT: [[TMP8:%.]] = bitcast double [[TMP7]] to i8*
	// CHECK3-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 4			// CHECK3-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 4
	// CHECK3-NEXT: [[TMP9:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK3-NEXT: [[TMP9:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK3-NEXT: [[TMP10:%.]] = load i8, i8** [[DOTADDR2]], align 4			// CHECK3-NEXT: [[TMP10:%.]] = load i8, i8** [[DOTADDR2]], align 4
	// CHECK3-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP9]], i8* [[TMP10]]) #[[ATTR4]]			// CHECK3-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP9]], i8* [[TMP10]]) #[[ATTR3]]
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_global_to_list_copy_func			// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_global_to_list_copy_func
	// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {			// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 4			// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 4
	// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	Show All 31 Lines
	// CHECK3-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK3-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK3-NEXT: [[TMP6:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 0			// CHECK3-NEXT: [[TMP6:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 0
	// CHECK3-NEXT: [[E:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP4]], i32 0, i32 0			// CHECK3-NEXT: [[E:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY:%.]], %struct._globalized_locals_ty* [[TMP4]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP7:%.]] = getelementptr inbounds [2048 x double], [2048 x double] [[E]], i32 0, i32 [[TMP5]]			// CHECK3-NEXT: [[TMP7:%.]] = getelementptr inbounds [2048 x double], [2048 x double] [[E]], i32 0, i32 [[TMP5]]
	// CHECK3-NEXT: [[TMP8:%.]] = bitcast double [[TMP7]] to i8*			// CHECK3-NEXT: [[TMP8:%.]] = bitcast double [[TMP7]] to i8*
	// CHECK3-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 4			// CHECK3-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 4
	// CHECK3-NEXT: [[TMP9:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK3-NEXT: [[TMP9:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK3-NEXT: [[TMP10:%.]] = load i8, i8** [[DOTADDR2]], align 4			// CHECK3-NEXT: [[TMP10:%.]] = load i8, i8** [[DOTADDR2]], align 4
	// CHECK3-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP10]], i8* [[TMP9]]) #[[ATTR4]]			// CHECK3-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP10]], i8* [[TMP9]]) #[[ATTR3]]
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l26			// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l26
	// CHECK3-SAME: (i32 [[C:%.]], i32 [[D:%.]]) #[[ATTR0]] {			// CHECK3-SAME: (i32 [[C:%.]], i32 [[D:%.]]) #[[ATTR0]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[C_ADDR:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[C_ADDR:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[D_ADDR:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[D_ADDR:%.*]] = alloca i32, align 4
	Show All 12 Lines
	// CHECK3-NEXT: store i8 [[TMP1]], i8* [[C2]], align 1			// CHECK3-NEXT: store i8 [[TMP1]], i8* [[C2]], align 1
	// CHECK3-NEXT: [[TMP2:%.]] = load float, float [[CONV1]], align 4			// CHECK3-NEXT: [[TMP2:%.]] = load float, float [[CONV1]], align 4
	// CHECK3-NEXT: [[D3:%.]] = call i8 @__kmpc_alloc_shared(i32 4)			// CHECK3-NEXT: [[D3:%.]] = call i8 @__kmpc_alloc_shared(i32 4)
	// CHECK3-NEXT: [[D_ON_STACK:%.]] = bitcast i8 [[D3]] to float*			// CHECK3-NEXT: [[D_ON_STACK:%.]] = bitcast i8 [[D3]] to float*
	// CHECK3-NEXT: store float [[TMP2]], float* [[D_ON_STACK]], align 4			// CHECK3-NEXT: store float [[TMP2]], float* [[D_ON_STACK]], align 4
	// CHECK3-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK3-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK3-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK3-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK3-NEXT: store i32 [[TMP3]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK3-NEXT: store i32 [[TMP3]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK3-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i8* [[C2]], float* [[D_ON_STACK]]) #[[ATTR4]]			// CHECK3-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i8* [[C2]], float* [[D_ON_STACK]]) #[[ATTR3]]
	// CHECK3-NEXT: call void @__kmpc_free_shared(i8* [[D3]], i32 4)			// CHECK3-NEXT: call void @__kmpc_free_shared(i8* [[D3]], i32 4)
	// CHECK3-NEXT: call void @__kmpc_free_shared(i8* [[C2]], i32 1)			// CHECK3-NEXT: call void @__kmpc_free_shared(i8* [[C2]], i32 1)
	// CHECK3-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)			// CHECK3-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	// CHECK3: worker.exit:			// CHECK3: worker.exit:
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: [[TMP7:%.]] = load i16, i16 [[DOTADDR2]], align 2			// CHECK3-NEXT: [[TMP7:%.]] = load i16, i16 [[DOTADDR2]], align 2
	// CHECK3-NEXT: [[TMP8:%.]] = load i16, i16 [[DOTADDR3]], align 2			// CHECK3-NEXT: [[TMP8:%.]] = load i16, i16 [[DOTADDR3]], align 2
	// CHECK3-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0			// CHECK3-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 4			// CHECK3-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 4
	// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0			// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP12:%.]] = getelementptr i8, i8 [[TMP10]], i32 1			// CHECK3-NEXT: [[TMP12:%.]] = getelementptr i8, i8 [[TMP10]], i32 1
	// CHECK3-NEXT: [[TMP13:%.]] = load i8, i8 [[TMP10]], align 1			// CHECK3-NEXT: [[TMP13:%.]] = load i8, i8 [[TMP10]], align 1
	// CHECK3-NEXT: [[TMP14:%.*]] = sext i8 [[TMP13]] to i32			// CHECK3-NEXT: [[TMP14:%.*]] = sext i8 [[TMP13]] to i32
	// CHECK3-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK3-NEXT: [[TMP15:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK3-NEXT: [[TMP15:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK3-NEXT: [[TMP16:%.*]] = trunc i32 [[TMP15]] to i16
	// CHECK3-NEXT: [[TMP16:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP14]], i16 [[TMP7]], i16 [[TMP15]])			// CHECK3-NEXT: [[TMP17:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP14]], i16 [[TMP7]], i16 [[TMP16]])
	// CHECK3-NEXT: [[TMP17:%.*]] = trunc i32 [[TMP16]] to i8			// CHECK3-NEXT: [[TMP18:%.*]] = trunc i32 [[TMP17]] to i8
	// CHECK3-NEXT: store i8 [[TMP17]], i8* [[DOTOMP_REDUCTION_ELEMENT]], align 1			// CHECK3-NEXT: store i8 [[TMP18]], i8* [[DOTOMP_REDUCTION_ELEMENT]], align 1
	// CHECK3-NEXT: [[TMP18:%.]] = getelementptr i8, i8 [[TMP10]], i32 1			// CHECK3-NEXT: [[TMP19:%.]] = getelementptr i8, i8 [[TMP10]], i32 1
	// CHECK3-NEXT: [[TMP19:%.]] = getelementptr i8, i8 [[DOTOMP_REDUCTION_ELEMENT]], i32 1			// CHECK3-NEXT: [[TMP20:%.]] = getelementptr i8, i8 [[DOTOMP_REDUCTION_ELEMENT]], i32 1
	// CHECK3-NEXT: store i8* [[DOTOMP_REDUCTION_ELEMENT]], i8** [[TMP11]], align 4			// CHECK3-NEXT: store i8* [[DOTOMP_REDUCTION_ELEMENT]], i8** [[TMP11]], align 4
	// CHECK3-NEXT: [[TMP20:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1			// CHECK3-NEXT: [[TMP21:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP21:%.]] = load i8, i8** [[TMP20]], align 4			// CHECK3-NEXT: [[TMP22:%.]] = load i8, i8** [[TMP21]], align 4
	// CHECK3-NEXT: [[TMP22:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1			// CHECK3-NEXT: [[TMP23:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP23:%.]] = bitcast i8 [[TMP21]] to float*			// CHECK3-NEXT: [[TMP24:%.]] = bitcast i8 [[TMP22]] to float*
	// CHECK3-NEXT: [[TMP24:%.]] = getelementptr float, float [[TMP23]], i32 1			// CHECK3-NEXT: [[TMP25:%.]] = getelementptr float, float [[TMP24]], i32 1
	// CHECK3-NEXT: [[TMP25:%.]] = bitcast float [[TMP24]] to i8*			// CHECK3-NEXT: [[TMP26:%.]] = bitcast float [[TMP25]] to i8*
	// CHECK3-NEXT: [[TMP26:%.]] = bitcast float [[TMP23]] to i32*			// CHECK3-NEXT: [[TMP27:%.]] = bitcast float [[TMP24]] to i32*
	// CHECK3-NEXT: [[TMP27:%.]] = bitcast float [[DOTOMP_REDUCTION_ELEMENT4]] to i32*			// CHECK3-NEXT: [[TMP28:%.]] = bitcast float [[DOTOMP_REDUCTION_ELEMENT4]] to i32*
	// CHECK3-NEXT: [[TMP28:%.]] = load i32, i32 [[TMP26]], align 4			// CHECK3-NEXT: [[TMP29:%.]] = load i32, i32 [[TMP27]], align 4
	// CHECK3-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK3-NEXT: [[TMP30:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK3-NEXT: [[TMP29:%.*]] = trunc i32 [[NVPTX_WARP_SIZE5]] to i16			// CHECK3-NEXT: [[TMP31:%.*]] = trunc i32 [[TMP30]] to i16
	// CHECK3-NEXT: [[TMP30:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP28]], i16 [[TMP7]], i16 [[TMP29]])			// CHECK3-NEXT: [[TMP32:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP29]], i16 [[TMP7]], i16 [[TMP31]])
	// CHECK3-NEXT: store i32 [[TMP30]], i32* [[TMP27]], align 4			// CHECK3-NEXT: store i32 [[TMP32]], i32* [[TMP28]], align 4
	// CHECK3-NEXT: [[TMP31:%.]] = getelementptr i32, i32 [[TMP26]], i32 1			// CHECK3-NEXT: [[TMP33:%.]] = getelementptr i32, i32 [[TMP27]], i32 1
	// CHECK3-NEXT: [[TMP32:%.]] = getelementptr i32, i32 [[TMP27]], i32 1			// CHECK3-NEXT: [[TMP34:%.]] = getelementptr i32, i32 [[TMP28]], i32 1
	// CHECK3-NEXT: [[TMP33:%.]] = bitcast float [[DOTOMP_REDUCTION_ELEMENT4]] to i8*			// CHECK3-NEXT: [[TMP35:%.]] = bitcast float [[DOTOMP_REDUCTION_ELEMENT4]] to i8*
	// CHECK3-NEXT: store i8* [[TMP33]], i8** [[TMP22]], align 4			// CHECK3-NEXT: store i8* [[TMP35]], i8** [[TMP23]], align 4
	// CHECK3-NEXT: [[TMP34:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK3-NEXT: [[TMP36:%.*]] = icmp eq i16 [[TMP8]], 0
	// CHECK3-NEXT: [[TMP35:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK3-NEXT: [[TMP37:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK3-NEXT: [[TMP36:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]			// CHECK3-NEXT: [[TMP38:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]
	// CHECK3-NEXT: [[TMP37:%.*]] = and i1 [[TMP35]], [[TMP36]]			// CHECK3-NEXT: [[TMP39:%.*]] = and i1 [[TMP37]], [[TMP38]]
	// CHECK3-NEXT: [[TMP38:%.*]] = icmp eq i16 [[TMP8]], 2			// CHECK3-NEXT: [[TMP40:%.*]] = icmp eq i16 [[TMP8]], 2
	// CHECK3-NEXT: [[TMP39:%.*]] = and i16 [[TMP6]], 1			// CHECK3-NEXT: [[TMP41:%.*]] = and i16 [[TMP6]], 1
	// CHECK3-NEXT: [[TMP40:%.*]] = icmp eq i16 [[TMP39]], 0			// CHECK3-NEXT: [[TMP42:%.*]] = icmp eq i16 [[TMP41]], 0
	// CHECK3-NEXT: [[TMP41:%.*]] = and i1 [[TMP38]], [[TMP40]]			// CHECK3-NEXT: [[TMP43:%.*]] = and i1 [[TMP40]], [[TMP42]]
	// CHECK3-NEXT: [[TMP42:%.*]] = icmp sgt i16 [[TMP7]], 0			// CHECK3-NEXT: [[TMP44:%.*]] = icmp sgt i16 [[TMP7]], 0
	// CHECK3-NEXT: [[TMP43:%.*]] = and i1 [[TMP41]], [[TMP42]]			// CHECK3-NEXT: [[TMP45:%.*]] = and i1 [[TMP43]], [[TMP44]]
	// CHECK3-NEXT: [[TMP44:%.*]] = or i1 [[TMP34]], [[TMP37]]			// CHECK3-NEXT: [[TMP46:%.*]] = or i1 [[TMP36]], [[TMP39]]
	// CHECK3-NEXT: [[TMP45:%.*]] = or i1 [[TMP44]], [[TMP43]]			// CHECK3-NEXT: [[TMP47:%.*]] = or i1 [[TMP46]], [[TMP45]]
	// CHECK3-NEXT: br i1 [[TMP45]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK3-NEXT: br i1 [[TMP47]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK3: then:			// CHECK3: then:
	// CHECK3-NEXT: [[TMP46:%.]] = bitcast [2 x i8]* [[TMP5]] to i8*			// CHECK3-NEXT: [[TMP48:%.]] = bitcast [2 x i8]* [[TMP5]] to i8*
	// CHECK3-NEXT: [[TMP47:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*			// CHECK3-NEXT: [[TMP49:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*
	// CHECK3-NEXT: call void @"_omp$reduction$reduction_func2"(i8* [[TMP46]], i8* [[TMP47]]) #[[ATTR4]]			// CHECK3-NEXT: call void @"_omp$reduction$reduction_func2"(i8* [[TMP48]], i8* [[TMP49]]) #[[ATTR3]]
	// CHECK3-NEXT: br label [[IFCONT:%.*]]			// CHECK3-NEXT: br label [[IFCONT:%.*]]
	// CHECK3: else:			// CHECK3: else:
	// CHECK3-NEXT: br label [[IFCONT]]			// CHECK3-NEXT: br label [[IFCONT]]
	// CHECK3: ifcont:			// CHECK3: ifcont:
	// CHECK3-NEXT: [[TMP48:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK3-NEXT: [[TMP50:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK3-NEXT: [[TMP49:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]			// CHECK3-NEXT: [[TMP51:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]
	// CHECK3-NEXT: [[TMP50:%.*]] = and i1 [[TMP48]], [[TMP49]]			// CHECK3-NEXT: [[TMP52:%.*]] = and i1 [[TMP50]], [[TMP51]]
	// CHECK3-NEXT: br i1 [[TMP50]], label [[THEN6:%.]], label [[ELSE7:%.]]			// CHECK3-NEXT: br i1 [[TMP52]], label [[THEN5:%.]], label [[ELSE6:%.]]
	// CHECK3: then6:			// CHECK3: then5:
	// CHECK3-NEXT: [[TMP51:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0			// CHECK3-NEXT: [[TMP53:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP52:%.]] = load i8, i8** [[TMP51]], align 4
	// CHECK3-NEXT: [[TMP53:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP54:%.]] = load i8, i8** [[TMP53]], align 4			// CHECK3-NEXT: [[TMP54:%.]] = load i8, i8** [[TMP53]], align 4
	// CHECK3-NEXT: [[TMP55:%.]] = load i8, i8 [[TMP52]], align 1			// CHECK3-NEXT: [[TMP55:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0
	// CHECK3-NEXT: store i8 [[TMP55]], i8* [[TMP54]], align 1			// CHECK3-NEXT: [[TMP56:%.]] = load i8, i8** [[TMP55]], align 4
	// CHECK3-NEXT: [[TMP56:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1			// CHECK3-NEXT: [[TMP57:%.]] = load i8, i8 [[TMP54]], align 1
	// CHECK3-NEXT: [[TMP57:%.]] = load i8, i8** [[TMP56]], align 4			// CHECK3-NEXT: store i8 [[TMP57]], i8* [[TMP56]], align 1
	// CHECK3-NEXT: [[TMP58:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1			// CHECK3-NEXT: [[TMP58:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP59:%.]] = load i8, i8** [[TMP58]], align 4			// CHECK3-NEXT: [[TMP59:%.]] = load i8, i8** [[TMP58]], align 4
	// CHECK3-NEXT: [[TMP60:%.]] = bitcast i8 [[TMP57]] to float*			// CHECK3-NEXT: [[TMP60:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP61:%.]] = bitcast i8 [[TMP59]] to float*			// CHECK3-NEXT: [[TMP61:%.]] = load i8, i8** [[TMP60]], align 4
	// CHECK3-NEXT: [[TMP62:%.]] = load float, float [[TMP60]], align 4			// CHECK3-NEXT: [[TMP62:%.]] = bitcast i8 [[TMP59]] to float*
	// CHECK3-NEXT: store float [[TMP62]], float* [[TMP61]], align 4			// CHECK3-NEXT: [[TMP63:%.]] = bitcast i8 [[TMP61]] to float*
	// CHECK3-NEXT: br label [[IFCONT8:%.*]]			// CHECK3-NEXT: [[TMP64:%.]] = load float, float [[TMP62]], align 4
	// CHECK3: else7:			// CHECK3-NEXT: store float [[TMP64]], float* [[TMP63]], align 4
	// CHECK3-NEXT: br label [[IFCONT8]]			// CHECK3-NEXT: br label [[IFCONT7:%.*]]
	// CHECK3: ifcont8:			// CHECK3: else6:
				// CHECK3-NEXT: br label [[IFCONT7]]
				// CHECK3: ifcont7:
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func4			// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func4
	// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {			// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 4			// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 4
	// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK3-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 4			// CHECK3-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 4
	// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	// CHECK3-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK3-NEXT: [[TMP3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_TID2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK3-NEXT: [[TMP4:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK3-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[TMP4]], 31
	// CHECK3-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK3-NEXT: [[TMP5:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK3-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[TMP5]], 5
	// CHECK3-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 4			// CHECK3-NEXT: [[TMP6:%.]] = load i8, i8** [[DOTADDR]], align 4
	// CHECK3-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [2 x i8]			// CHECK3-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to [2 x i8]
	// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])			// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])
	// CHECK3-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK3-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK3-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK3-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK3: then:			// CHECK3: then:
	// CHECK3-NEXT: [[TMP5:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 0			// CHECK3-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP6:%.]] = load i8, i8** [[TMP5]], align 4			// CHECK3-NEXT: [[TMP9:%.]] = load i8, i8** [[TMP8]], align 4
	// CHECK3-NEXT: [[TMP7:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK3-NEXT: [[TMP10:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK3-NEXT: [[TMP8:%.]] = bitcast i32 addrspace(3) [[TMP7]] to i8 addrspace(3)*			// CHECK3-NEXT: [[TMP11:%.]] = bitcast i32 addrspace(3) [[TMP10]] to i8 addrspace(3)*
	// CHECK3-NEXT: [[TMP9:%.]] = load i8, i8 [[TMP6]], align 1			// CHECK3-NEXT: [[TMP12:%.]] = load i8, i8 [[TMP9]], align 1
	// CHECK3-NEXT: store volatile i8 [[TMP9]], i8 addrspace(3)* [[TMP8]], align 1			// CHECK3-NEXT: store volatile i8 [[TMP12]], i8 addrspace(3)* [[TMP11]], align 1
	// CHECK3-NEXT: br label [[IFCONT:%.*]]			// CHECK3-NEXT: br label [[IFCONT:%.*]]
	// CHECK3: else:			// CHECK3: else:
	// CHECK3-NEXT: br label [[IFCONT]]			// CHECK3-NEXT: br label [[IFCONT]]
	// CHECK3: ifcont:			// CHECK3: ifcont:
	// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])			// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])
	// CHECK3-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK3-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK3-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP10]]			// CHECK3-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[TMP3]], [[TMP13]]
	// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN2:%.]], label [[ELSE3:%.]]
	// CHECK3: then4:			// CHECK3: then2:
	// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK3-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK3-NEXT: [[TMP12:%.]] = bitcast i32 addrspace(3) [[TMP11]] to i8 addrspace(3)*			// CHECK3-NEXT: [[TMP15:%.]] = bitcast i32 addrspace(3) [[TMP14]] to i8 addrspace(3)*
	// CHECK3-NEXT: [[TMP13:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 0			// CHECK3-NEXT: [[TMP16:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP14:%.]] = load i8, i8** [[TMP13]], align 4
	// CHECK3-NEXT: [[TMP15:%.]] = load volatile i8, i8 addrspace(3) [[TMP12]], align 1
	// CHECK3-NEXT: store i8 [[TMP15]], i8* [[TMP14]], align 1
	// CHECK3-NEXT: br label [[IFCONT6:%.*]]
	// CHECK3: else5:
	// CHECK3-NEXT: br label [[IFCONT6]]
	// CHECK3: ifcont6:
	// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])
	// CHECK3-NEXT: [[WARP_MASTER7:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK3-NEXT: br i1 [[WARP_MASTER7]], label [[THEN8:%.]], label [[ELSE9:%.]]
	// CHECK3: then8:
	// CHECK3-NEXT: [[TMP16:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP17:%.]] = load i8, i8** [[TMP16]], align 4			// CHECK3-NEXT: [[TMP17:%.]] = load i8, i8** [[TMP16]], align 4
	// CHECK3-NEXT: [[TMP18:%.]] = bitcast i8 [[TMP17]] to i32*			// CHECK3-NEXT: [[TMP18:%.]] = load volatile i8, i8 addrspace(3) [[TMP15]], align 1
	// CHECK3-NEXT: [[TMP19:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK3-NEXT: store i8 [[TMP18]], i8* [[TMP17]], align 1
	// CHECK3-NEXT: [[TMP20:%.]] = load i32, i32 [[TMP18]], align 4			// CHECK3-NEXT: br label [[IFCONT4:%.*]]
	// CHECK3-NEXT: store volatile i32 [[TMP20]], i32 addrspace(3)* [[TMP19]], align 4			// CHECK3: else3:
	// CHECK3-NEXT: br label [[IFCONT10:%.*]]			// CHECK3-NEXT: br label [[IFCONT4]]
	// CHECK3: else9:			// CHECK3: ifcont4:
	// CHECK3-NEXT: br label [[IFCONT10]]			// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])
	// CHECK3: ifcont10:			// CHECK3-NEXT: [[WARP_MASTER5:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
				// CHECK3-NEXT: br i1 [[WARP_MASTER5]], label [[THEN6:%.]], label [[ELSE7:%.]]
				// CHECK3: then6:
				// CHECK3-NEXT: [[TMP19:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 1
				// CHECK3-NEXT: [[TMP20:%.]] = load i8, i8** [[TMP19]], align 4
				// CHECK3-NEXT: [[TMP21:%.]] = bitcast i8 [[TMP20]] to i32*
				// CHECK3-NEXT: [[TMP22:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
				// CHECK3-NEXT: [[TMP23:%.]] = load i32, i32 [[TMP21]], align 4
				// CHECK3-NEXT: store volatile i32 [[TMP23]], i32 addrspace(3)* [[TMP22]], align 4
				// CHECK3-NEXT: br label [[IFCONT8:%.*]]
				// CHECK3: else7:
				// CHECK3-NEXT: br label [[IFCONT8]]
				// CHECK3: ifcont8:
	// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])			// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB2]], i32 [[TMP2]])
	// CHECK3-NEXT: [[TMP21:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK3-NEXT: [[TMP24:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK3-NEXT: [[IS_ACTIVE_THREAD11:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP21]]			// CHECK3-NEXT: [[IS_ACTIVE_THREAD9:%.*]] = icmp ult i32 [[TMP3]], [[TMP24]]
	// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD11]], label [[THEN12:%.]], label [[ELSE13:%.]]			// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD9]], label [[THEN10:%.]], label [[ELSE11:%.]]
	// CHECK3: then12:			// CHECK3: then10:
	// CHECK3-NEXT: [[TMP22:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK3-NEXT: [[TMP25:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK3-NEXT: [[TMP23:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 1			// CHECK3-NEXT: [[TMP26:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP24:%.]] = load i8, i8** [[TMP23]], align 4			// CHECK3-NEXT: [[TMP27:%.]] = load i8, i8** [[TMP26]], align 4
	// CHECK3-NEXT: [[TMP25:%.]] = bitcast i8 [[TMP24]] to i32*			// CHECK3-NEXT: [[TMP28:%.]] = bitcast i8 [[TMP27]] to i32*
	// CHECK3-NEXT: [[TMP26:%.]] = load volatile i32, i32 addrspace(3) [[TMP22]], align 4			// CHECK3-NEXT: [[TMP29:%.]] = load volatile i32, i32 addrspace(3) [[TMP25]], align 4
	// CHECK3-NEXT: store i32 [[TMP26]], i32* [[TMP25]], align 4			// CHECK3-NEXT: store i32 [[TMP29]], i32* [[TMP28]], align 4
	// CHECK3-NEXT: br label [[IFCONT14:%.*]]			// CHECK3-NEXT: br label [[IFCONT12:%.*]]
	// CHECK3: else13:			// CHECK3: else11:
	// CHECK3-NEXT: br label [[IFCONT14]]			// CHECK3-NEXT: br label [[IFCONT12]]
	// CHECK3: ifcont14:			// CHECK3: ifcont12:
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_list_to_global_copy_func5			// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_list_to_global_copy_func5
	// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {			// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 4			// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 4
	// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 4			// CHECK3-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 4
	// CHECK3-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 1			// CHECK3-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 1
	// CHECK3-NEXT: [[D:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_0]], %struct._globalized_locals_ty.0 [[TMP4]], i32 0, i32 1			// CHECK3-NEXT: [[D:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_0]], %struct._globalized_locals_ty.0 [[TMP4]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP9:%.]] = getelementptr inbounds [2048 x float], [2048 x float] [[D]], i32 0, i32 [[TMP5]]			// CHECK3-NEXT: [[TMP9:%.]] = getelementptr inbounds [2048 x float], [2048 x float] [[D]], i32 0, i32 [[TMP5]]
	// CHECK3-NEXT: [[TMP10:%.]] = bitcast float [[TMP9]] to i8*			// CHECK3-NEXT: [[TMP10:%.]] = bitcast float [[TMP9]] to i8*
	// CHECK3-NEXT: store i8* [[TMP10]], i8** [[TMP8]], align 4			// CHECK3-NEXT: store i8* [[TMP10]], i8** [[TMP8]], align 4
	// CHECK3-NEXT: [[TMP11:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK3-NEXT: [[TMP11:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK3-NEXT: [[TMP12:%.]] = load i8, i8** [[DOTADDR2]], align 4			// CHECK3-NEXT: [[TMP12:%.]] = load i8, i8** [[DOTADDR2]], align 4
	// CHECK3-NEXT: call void @"_omp$reduction$reduction_func2"(i8* [[TMP11]], i8* [[TMP12]]) #[[ATTR4]]			// CHECK3-NEXT: call void @"_omp$reduction$reduction_func2"(i8* [[TMP11]], i8* [[TMP12]]) #[[ATTR3]]
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_global_to_list_copy_func7			// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_global_to_list_copy_func7
	// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {			// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 4			// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 4
	// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 4			// CHECK3-NEXT: store i8* [[TMP7]], i8** [[TMP6]], align 4
	// CHECK3-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 1			// CHECK3-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 1
	// CHECK3-NEXT: [[D:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_0]], %struct._globalized_locals_ty.0 [[TMP4]], i32 0, i32 1			// CHECK3-NEXT: [[D:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_0]], %struct._globalized_locals_ty.0 [[TMP4]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP9:%.]] = getelementptr inbounds [2048 x float], [2048 x float] [[D]], i32 0, i32 [[TMP5]]			// CHECK3-NEXT: [[TMP9:%.]] = getelementptr inbounds [2048 x float], [2048 x float] [[D]], i32 0, i32 [[TMP5]]
	// CHECK3-NEXT: [[TMP10:%.]] = bitcast float [[TMP9]] to i8*			// CHECK3-NEXT: [[TMP10:%.]] = bitcast float [[TMP9]] to i8*
	// CHECK3-NEXT: store i8* [[TMP10]], i8** [[TMP8]], align 4			// CHECK3-NEXT: store i8* [[TMP10]], i8** [[TMP8]], align 4
	// CHECK3-NEXT: [[TMP11:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK3-NEXT: [[TMP11:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK3-NEXT: [[TMP12:%.]] = load i8, i8** [[DOTADDR2]], align 4			// CHECK3-NEXT: [[TMP12:%.]] = load i8, i8** [[DOTADDR2]], align 4
	// CHECK3-NEXT: call void @"_omp$reduction$reduction_func2"(i8* [[TMP12]], i8* [[TMP11]]) #[[ATTR4]]			// CHECK3-NEXT: call void @"_omp$reduction$reduction_func2"(i8* [[TMP12]], i8* [[TMP11]]) #[[ATTR3]]
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l33			// CHECK3-LABEL: define {{[^@]+}}@{{__omp_offloading_[0-9a-z]+_[0-9a-z]+}}__Z9ftemplateIcET_i_l33
	// CHECK3-SAME: (i32 [[A:%.]], i32 [[B:%.]]) #[[ATTR0]] {			// CHECK3-SAME: (i32 [[A:%.]], i32 [[B:%.]]) #[[ATTR0]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[B_ADDR:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[B_ADDR:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4			// CHECK3-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
	// CHECK3-NEXT: store i32 [[B]], i32* [[B_ADDR]], align 4			// CHECK3-NEXT: store i32 [[B]], i32* [[B_ADDR]], align 4
	// CHECK3-NEXT: [[CONV:%.]] = bitcast i32 [[B_ADDR]] to i16*			// CHECK3-NEXT: [[CONV:%.]] = bitcast i32 [[B_ADDR]] to i16*
	// CHECK3-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 2, i1 false, i1 true)			// CHECK3-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 2, i1 false, i1 true)
	// CHECK3-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			// CHECK3-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	// CHECK3-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK3-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK3: user_code.entry:			// CHECK3: user_code.entry:
	// CHECK3-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3:[0-9]+]])			// CHECK3-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3:[0-9]+]])
	// CHECK3-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK3-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK3-NEXT: call void @__omp_outlined__9(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32* [[A_ADDR]], i16* [[CONV]]) #[[ATTR4]]			// CHECK3-NEXT: call void @__omp_outlined__9(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32* [[A_ADDR]], i16* [[CONV]]) #[[ATTR3]]
	// CHECK3-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 2, i1 true)			// CHECK3-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 2, i1 true)
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	// CHECK3: worker.exit:			// CHECK3: worker.exit:
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__9			// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__9
	// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[B:%.*]]) #[[ATTR0]] {			// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[A:%.]], i16 nonnull align 2 dereferenceable(2) [[B:%.*]]) #[[ATTR0]] {
	▲ Show 20 Lines • Show All 155 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: [[TMP8:%.]] = load i16, i16 [[DOTADDR3]], align 2			// CHECK3-NEXT: [[TMP8:%.]] = load i16, i16 [[DOTADDR3]], align 2
	// CHECK3-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0			// CHECK3-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 4			// CHECK3-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 4
	// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0			// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to i32*			// CHECK3-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to i32*
	// CHECK3-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i32 1			// CHECK3-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i32 1
	// CHECK3-NEXT: [[TMP14:%.]] = bitcast i32 [[TMP13]] to i8*			// CHECK3-NEXT: [[TMP14:%.]] = bitcast i32 [[TMP13]] to i8*
	// CHECK3-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP12]], align 4			// CHECK3-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP12]], align 4
	// CHECK3-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK3-NEXT: [[TMP16:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK3-NEXT: [[TMP16:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK3-NEXT: [[TMP17:%.*]] = trunc i32 [[TMP16]] to i16
	// CHECK3-NEXT: [[TMP17:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP15]], i16 [[TMP7]], i16 [[TMP16]])			// CHECK3-NEXT: [[TMP18:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP15]], i16 [[TMP7]], i16 [[TMP17]])
	// CHECK3-NEXT: store i32 [[TMP17]], i32* [[DOTOMP_REDUCTION_ELEMENT]], align 4			// CHECK3-NEXT: store i32 [[TMP18]], i32* [[DOTOMP_REDUCTION_ELEMENT]], align 4
	// CHECK3-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP12]], i32 1			// CHECK3-NEXT: [[TMP19:%.]] = getelementptr i32, i32 [[TMP12]], i32 1
	// CHECK3-NEXT: [[TMP19:%.]] = getelementptr i32, i32 [[DOTOMP_REDUCTION_ELEMENT]], i32 1			// CHECK3-NEXT: [[TMP20:%.]] = getelementptr i32, i32 [[DOTOMP_REDUCTION_ELEMENT]], i32 1
	// CHECK3-NEXT: [[TMP20:%.]] = bitcast i32 [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK3-NEXT: [[TMP21:%.]] = bitcast i32 [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	// CHECK3-NEXT: store i8* [[TMP20]], i8** [[TMP11]], align 4			// CHECK3-NEXT: store i8* [[TMP21]], i8** [[TMP11]], align 4
	// CHECK3-NEXT: [[TMP21:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1			// CHECK3-NEXT: [[TMP22:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP22:%.]] = load i8, i8** [[TMP21]], align 4			// CHECK3-NEXT: [[TMP23:%.]] = load i8, i8** [[TMP22]], align 4
	// CHECK3-NEXT: [[TMP23:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1			// CHECK3-NEXT: [[TMP24:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP24:%.]] = bitcast i8 [[TMP22]] to i16*			// CHECK3-NEXT: [[TMP25:%.]] = bitcast i8 [[TMP23]] to i16*
	// CHECK3-NEXT: [[TMP25:%.]] = getelementptr i16, i16 [[TMP24]], i32 1			// CHECK3-NEXT: [[TMP26:%.]] = getelementptr i16, i16 [[TMP25]], i32 1
	// CHECK3-NEXT: [[TMP26:%.]] = bitcast i16 [[TMP25]] to i8*			// CHECK3-NEXT: [[TMP27:%.]] = bitcast i16 [[TMP26]] to i8*
	// CHECK3-NEXT: [[TMP27:%.]] = load i16, i16 [[TMP24]], align 2			// CHECK3-NEXT: [[TMP28:%.]] = load i16, i16 [[TMP25]], align 2
	// CHECK3-NEXT: [[TMP28:%.*]] = sext i16 [[TMP27]] to i32			// CHECK3-NEXT: [[TMP29:%.*]] = sext i16 [[TMP28]] to i32
	// CHECK3-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK3-NEXT: [[TMP30:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK3-NEXT: [[TMP29:%.*]] = trunc i32 [[NVPTX_WARP_SIZE5]] to i16
	// CHECK3-NEXT: [[TMP30:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP28]], i16 [[TMP7]], i16 [[TMP29]])
	// CHECK3-NEXT: [[TMP31:%.*]] = trunc i32 [[TMP30]] to i16			// CHECK3-NEXT: [[TMP31:%.*]] = trunc i32 [[TMP30]] to i16
	// CHECK3-NEXT: store i16 [[TMP31]], i16* [[DOTOMP_REDUCTION_ELEMENT4]], align 2			// CHECK3-NEXT: [[TMP32:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP29]], i16 [[TMP7]], i16 [[TMP31]])
	// CHECK3-NEXT: [[TMP32:%.]] = getelementptr i16, i16 [[TMP24]], i32 1			// CHECK3-NEXT: [[TMP33:%.*]] = trunc i32 [[TMP32]] to i16
	// CHECK3-NEXT: [[TMP33:%.]] = getelementptr i16, i16 [[DOTOMP_REDUCTION_ELEMENT4]], i32 1			// CHECK3-NEXT: store i16 [[TMP33]], i16* [[DOTOMP_REDUCTION_ELEMENT4]], align 2
	// CHECK3-NEXT: [[TMP34:%.]] = bitcast i16 [[DOTOMP_REDUCTION_ELEMENT4]] to i8*			// CHECK3-NEXT: [[TMP34:%.]] = getelementptr i16, i16 [[TMP25]], i32 1
	// CHECK3-NEXT: store i8* [[TMP34]], i8** [[TMP23]], align 4			// CHECK3-NEXT: [[TMP35:%.]] = getelementptr i16, i16 [[DOTOMP_REDUCTION_ELEMENT4]], i32 1
	// CHECK3-NEXT: [[TMP35:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK3-NEXT: [[TMP36:%.]] = bitcast i16 [[DOTOMP_REDUCTION_ELEMENT4]] to i8*
	// CHECK3-NEXT: [[TMP36:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK3-NEXT: store i8* [[TMP36]], i8** [[TMP24]], align 4
	// CHECK3-NEXT: [[TMP37:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]			// CHECK3-NEXT: [[TMP37:%.*]] = icmp eq i16 [[TMP8]], 0
	// CHECK3-NEXT: [[TMP38:%.*]] = and i1 [[TMP36]], [[TMP37]]			// CHECK3-NEXT: [[TMP38:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK3-NEXT: [[TMP39:%.*]] = icmp eq i16 [[TMP8]], 2			// CHECK3-NEXT: [[TMP39:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]
	// CHECK3-NEXT: [[TMP40:%.*]] = and i16 [[TMP6]], 1			// CHECK3-NEXT: [[TMP40:%.*]] = and i1 [[TMP38]], [[TMP39]]
	// CHECK3-NEXT: [[TMP41:%.*]] = icmp eq i16 [[TMP40]], 0			// CHECK3-NEXT: [[TMP41:%.*]] = icmp eq i16 [[TMP8]], 2
	// CHECK3-NEXT: [[TMP42:%.*]] = and i1 [[TMP39]], [[TMP41]]			// CHECK3-NEXT: [[TMP42:%.*]] = and i16 [[TMP6]], 1
	// CHECK3-NEXT: [[TMP43:%.*]] = icmp sgt i16 [[TMP7]], 0			// CHECK3-NEXT: [[TMP43:%.*]] = icmp eq i16 [[TMP42]], 0
	// CHECK3-NEXT: [[TMP44:%.*]] = and i1 [[TMP42]], [[TMP43]]			// CHECK3-NEXT: [[TMP44:%.*]] = and i1 [[TMP41]], [[TMP43]]
	// CHECK3-NEXT: [[TMP45:%.*]] = or i1 [[TMP35]], [[TMP38]]			// CHECK3-NEXT: [[TMP45:%.*]] = icmp sgt i16 [[TMP7]], 0
	// CHECK3-NEXT: [[TMP46:%.*]] = or i1 [[TMP45]], [[TMP44]]			// CHECK3-NEXT: [[TMP46:%.*]] = and i1 [[TMP44]], [[TMP45]]
	// CHECK3-NEXT: br i1 [[TMP46]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK3-NEXT: [[TMP47:%.*]] = or i1 [[TMP37]], [[TMP40]]
				// CHECK3-NEXT: [[TMP48:%.*]] = or i1 [[TMP47]], [[TMP46]]
				// CHECK3-NEXT: br i1 [[TMP48]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK3: then:			// CHECK3: then:
	// CHECK3-NEXT: [[TMP47:%.]] = bitcast [2 x i8]* [[TMP5]] to i8*			// CHECK3-NEXT: [[TMP49:%.]] = bitcast [2 x i8]* [[TMP5]] to i8*
	// CHECK3-NEXT: [[TMP48:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*			// CHECK3-NEXT: [[TMP50:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*
	// CHECK3-NEXT: call void @"_omp$reduction$reduction_func11"(i8* [[TMP47]], i8* [[TMP48]]) #[[ATTR4]]			// CHECK3-NEXT: call void @"_omp$reduction$reduction_func11"(i8* [[TMP49]], i8* [[TMP50]]) #[[ATTR3]]
	// CHECK3-NEXT: br label [[IFCONT:%.*]]			// CHECK3-NEXT: br label [[IFCONT:%.*]]
	// CHECK3: else:			// CHECK3: else:
	// CHECK3-NEXT: br label [[IFCONT]]			// CHECK3-NEXT: br label [[IFCONT]]
	// CHECK3: ifcont:			// CHECK3: ifcont:
	// CHECK3-NEXT: [[TMP49:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK3-NEXT: [[TMP51:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK3-NEXT: [[TMP50:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]			// CHECK3-NEXT: [[TMP52:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]
	// CHECK3-NEXT: [[TMP51:%.*]] = and i1 [[TMP49]], [[TMP50]]			// CHECK3-NEXT: [[TMP53:%.*]] = and i1 [[TMP51]], [[TMP52]]
	// CHECK3-NEXT: br i1 [[TMP51]], label [[THEN6:%.]], label [[ELSE7:%.]]			// CHECK3-NEXT: br i1 [[TMP53]], label [[THEN5:%.]], label [[ELSE6:%.]]
	// CHECK3: then6:			// CHECK3: then5:
	// CHECK3-NEXT: [[TMP52:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0			// CHECK3-NEXT: [[TMP54:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP53:%.]] = load i8, i8** [[TMP52]], align 4
	// CHECK3-NEXT: [[TMP54:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP55:%.]] = load i8, i8** [[TMP54]], align 4			// CHECK3-NEXT: [[TMP55:%.]] = load i8, i8** [[TMP54]], align 4
	// CHECK3-NEXT: [[TMP56:%.]] = bitcast i8 [[TMP53]] to i32*			// CHECK3-NEXT: [[TMP56:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP57:%.]] = bitcast i8 [[TMP55]] to i32*			// CHECK3-NEXT: [[TMP57:%.]] = load i8, i8** [[TMP56]], align 4
	// CHECK3-NEXT: [[TMP58:%.]] = load i32, i32 [[TMP56]], align 4			// CHECK3-NEXT: [[TMP58:%.]] = bitcast i8 [[TMP55]] to i32*
	// CHECK3-NEXT: store i32 [[TMP58]], i32* [[TMP57]], align 4			// CHECK3-NEXT: [[TMP59:%.]] = bitcast i8 [[TMP57]] to i32*
	// CHECK3-NEXT: [[TMP59:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1			// CHECK3-NEXT: [[TMP60:%.]] = load i32, i32 [[TMP58]], align 4
	// CHECK3-NEXT: [[TMP60:%.]] = load i8, i8** [[TMP59]], align 4			// CHECK3-NEXT: store i32 [[TMP60]], i32* [[TMP59]], align 4
	// CHECK3-NEXT: [[TMP61:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1			// CHECK3-NEXT: [[TMP61:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP62:%.]] = load i8, i8** [[TMP61]], align 4			// CHECK3-NEXT: [[TMP62:%.]] = load i8, i8** [[TMP61]], align 4
	// CHECK3-NEXT: [[TMP63:%.]] = bitcast i8 [[TMP60]] to i16*			// CHECK3-NEXT: [[TMP63:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP64:%.]] = bitcast i8 [[TMP62]] to i16*			// CHECK3-NEXT: [[TMP64:%.]] = load i8, i8** [[TMP63]], align 4
	// CHECK3-NEXT: [[TMP65:%.]] = load i16, i16 [[TMP63]], align 2			// CHECK3-NEXT: [[TMP65:%.]] = bitcast i8 [[TMP62]] to i16*
	// CHECK3-NEXT: store i16 [[TMP65]], i16* [[TMP64]], align 2			// CHECK3-NEXT: [[TMP66:%.]] = bitcast i8 [[TMP64]] to i16*
	// CHECK3-NEXT: br label [[IFCONT8:%.*]]			// CHECK3-NEXT: [[TMP67:%.]] = load i16, i16 [[TMP65]], align 2
	// CHECK3: else7:			// CHECK3-NEXT: store i16 [[TMP67]], i16* [[TMP66]], align 2
	// CHECK3-NEXT: br label [[IFCONT8]]			// CHECK3-NEXT: br label [[IFCONT7:%.*]]
	// CHECK3: ifcont8:			// CHECK3: else6:
				// CHECK3-NEXT: br label [[IFCONT7]]
				// CHECK3: ifcont7:
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func13			// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func13
	// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {			// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 4			// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 4
	// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3]])			// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3]])
	// CHECK3-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 4			// CHECK3-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 4
	// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	// CHECK3-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK3-NEXT: [[TMP3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_TID2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK3-NEXT: [[TMP4:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK3-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[TMP4]], 31
	// CHECK3-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK3-NEXT: [[TMP5:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK3-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[TMP5]], 5
	// CHECK3-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 4			// CHECK3-NEXT: [[TMP6:%.]] = load i8, i8** [[DOTADDR]], align 4
	// CHECK3-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [2 x i8]			// CHECK3-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to [2 x i8]
	// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4:[0-9]+]], i32 [[TMP2]])			// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4:[0-9]+]], i32 [[TMP2]])
	// CHECK3-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK3-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK3-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK3-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK3: then:			// CHECK3: then:
	// CHECK3-NEXT: [[TMP5:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 0			// CHECK3-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP6:%.]] = load i8, i8** [[TMP5]], align 4			// CHECK3-NEXT: [[TMP9:%.]] = load i8, i8** [[TMP8]], align 4
	// CHECK3-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to i32*			// CHECK3-NEXT: [[TMP10:%.]] = bitcast i8 [[TMP9]] to i32*
	// CHECK3-NEXT: [[TMP8:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK3-NEXT: [[TMP9:%.]] = load i32, i32 [[TMP7]], align 4			// CHECK3-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP10]], align 4
	// CHECK3-NEXT: store volatile i32 [[TMP9]], i32 addrspace(3)* [[TMP8]], align 4			// CHECK3-NEXT: store volatile i32 [[TMP12]], i32 addrspace(3)* [[TMP11]], align 4
	// CHECK3-NEXT: br label [[IFCONT:%.*]]			// CHECK3-NEXT: br label [[IFCONT:%.*]]
	// CHECK3: else:			// CHECK3: else:
	// CHECK3-NEXT: br label [[IFCONT]]			// CHECK3-NEXT: br label [[IFCONT]]
	// CHECK3: ifcont:			// CHECK3: ifcont:
	// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK3-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK3-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK3-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP10]]			// CHECK3-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[TMP3]], [[TMP13]]
	// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN2:%.]], label [[ELSE3:%.]]
	// CHECK3: then4:			// CHECK3: then2:
	// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK3-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK3-NEXT: [[TMP12:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 0			// CHECK3-NEXT: [[TMP15:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP13:%.]] = load i8, i8** [[TMP12]], align 4			// CHECK3-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 4
	// CHECK3-NEXT: [[TMP14:%.]] = bitcast i8 [[TMP13]] to i32*			// CHECK3-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*
	// CHECK3-NEXT: [[TMP15:%.]] = load volatile i32, i32 addrspace(3) [[TMP11]], align 4			// CHECK3-NEXT: [[TMP18:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4
	// CHECK3-NEXT: store i32 [[TMP15]], i32* [[TMP14]], align 4			// CHECK3-NEXT: store i32 [[TMP18]], i32* [[TMP17]], align 4
	// CHECK3-NEXT: br label [[IFCONT6:%.*]]			// CHECK3-NEXT: br label [[IFCONT4:%.*]]
	// CHECK3: else5:			// CHECK3: else3:
	// CHECK3-NEXT: br label [[IFCONT6]]			// CHECK3-NEXT: br label [[IFCONT4]]
	// CHECK3: ifcont6:			// CHECK3: ifcont4:
	// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK3-NEXT: [[WARP_MASTER7:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK3-NEXT: [[WARP_MASTER5:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK3-NEXT: br i1 [[WARP_MASTER7]], label [[THEN8:%.]], label [[ELSE9:%.]]			// CHECK3-NEXT: br i1 [[WARP_MASTER5]], label [[THEN6:%.]], label [[ELSE7:%.]]
	// CHECK3: then8:			// CHECK3: then6:
	// CHECK3-NEXT: [[TMP16:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 1			// CHECK3-NEXT: [[TMP19:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP17:%.]] = load i8, i8** [[TMP16]], align 4			// CHECK3-NEXT: [[TMP20:%.]] = load i8, i8** [[TMP19]], align 4
	// CHECK3-NEXT: [[TMP18:%.]] = bitcast i8 [[TMP17]] to i16*			// CHECK3-NEXT: [[TMP21:%.]] = bitcast i8 [[TMP20]] to i16*
	// CHECK3-NEXT: [[TMP19:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK3-NEXT: [[TMP22:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK3-NEXT: [[TMP20:%.]] = bitcast i32 addrspace(3) [[TMP19]] to i16 addrspace(3)*			// CHECK3-NEXT: [[TMP23:%.]] = bitcast i32 addrspace(3) [[TMP22]] to i16 addrspace(3)*
	// CHECK3-NEXT: [[TMP21:%.]] = load i16, i16 [[TMP18]], align 2			// CHECK3-NEXT: [[TMP24:%.]] = load i16, i16 [[TMP21]], align 2
	// CHECK3-NEXT: store volatile i16 [[TMP21]], i16 addrspace(3)* [[TMP20]], align 2			// CHECK3-NEXT: store volatile i16 [[TMP24]], i16 addrspace(3)* [[TMP23]], align 2
	// CHECK3-NEXT: br label [[IFCONT10:%.*]]			// CHECK3-NEXT: br label [[IFCONT8:%.*]]
	// CHECK3: else9:			// CHECK3: else7:
	// CHECK3-NEXT: br label [[IFCONT10]]			// CHECK3-NEXT: br label [[IFCONT8]]
	// CHECK3: ifcont10:			// CHECK3: ifcont8:
	// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK3-NEXT: [[TMP22:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK3-NEXT: [[TMP25:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK3-NEXT: [[IS_ACTIVE_THREAD11:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP22]]			// CHECK3-NEXT: [[IS_ACTIVE_THREAD9:%.*]] = icmp ult i32 [[TMP3]], [[TMP25]]
	// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD11]], label [[THEN12:%.]], label [[ELSE13:%.]]			// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD9]], label [[THEN10:%.]], label [[ELSE11:%.]]
	// CHECK3: then12:			// CHECK3: then10:
	// CHECK3-NEXT: [[TMP23:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK3-NEXT: [[TMP26:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK3-NEXT: [[TMP24:%.]] = bitcast i32 addrspace(3) [[TMP23]] to i16 addrspace(3)*			// CHECK3-NEXT: [[TMP27:%.]] = bitcast i32 addrspace(3) [[TMP26]] to i16 addrspace(3)*
	// CHECK3-NEXT: [[TMP25:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 1			// CHECK3-NEXT: [[TMP28:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP26:%.]] = load i8, i8** [[TMP25]], align 4			// CHECK3-NEXT: [[TMP29:%.]] = load i8, i8** [[TMP28]], align 4
	// CHECK3-NEXT: [[TMP27:%.]] = bitcast i8 [[TMP26]] to i16*			// CHECK3-NEXT: [[TMP30:%.]] = bitcast i8 [[TMP29]] to i16*
	// CHECK3-NEXT: [[TMP28:%.]] = load volatile i16, i16 addrspace(3) [[TMP24]], align 2			// CHECK3-NEXT: [[TMP31:%.]] = load volatile i16, i16 addrspace(3) [[TMP27]], align 2
	// CHECK3-NEXT: store i16 [[TMP28]], i16* [[TMP27]], align 2			// CHECK3-NEXT: store i16 [[TMP31]], i16* [[TMP30]], align 2
	// CHECK3-NEXT: br label [[IFCONT14:%.*]]			// CHECK3-NEXT: br label [[IFCONT12:%.*]]
	// CHECK3: else13:			// CHECK3: else11:
	// CHECK3-NEXT: br label [[IFCONT14]]			// CHECK3-NEXT: br label [[IFCONT12]]
	// CHECK3: ifcont14:			// CHECK3: ifcont12:
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_shuffle_and_reduce_func15			// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_shuffle_and_reduce_func15
	// CHECK3-SAME: (i8* [[TMP0:%.]], i16 signext [[TMP1:%.]], i16 signext [[TMP2:%.]], i16 signext [[TMP3:%.]]) #[[ATTR2]] {			// CHECK3-SAME: (i8* [[TMP0:%.]], i16 signext [[TMP1:%.]], i16 signext [[TMP2:%.]], i16 signext [[TMP3:%.]]) #[[ATTR2]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 4			// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 4
	// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i16, align 2			// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i16, align 2
	Show All 13 Lines
	// CHECK3-NEXT: [[TMP8:%.]] = load i16, i16 [[DOTADDR3]], align 2			// CHECK3-NEXT: [[TMP8:%.]] = load i16, i16 [[DOTADDR3]], align 2
	// CHECK3-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0			// CHECK3-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 4			// CHECK3-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 4
	// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0			// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to i32*			// CHECK3-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to i32*
	// CHECK3-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i32 1			// CHECK3-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i32 1
	// CHECK3-NEXT: [[TMP14:%.]] = bitcast i32 [[TMP13]] to i8*			// CHECK3-NEXT: [[TMP14:%.]] = bitcast i32 [[TMP13]] to i8*
	// CHECK3-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP12]], align 4			// CHECK3-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP12]], align 4
	// CHECK3-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK3-NEXT: [[TMP16:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK3-NEXT: [[TMP16:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK3-NEXT: [[TMP17:%.*]] = trunc i32 [[TMP16]] to i16
	// CHECK3-NEXT: [[TMP17:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP15]], i16 [[TMP7]], i16 [[TMP16]])			// CHECK3-NEXT: [[TMP18:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP15]], i16 [[TMP7]], i16 [[TMP17]])
	// CHECK3-NEXT: store i32 [[TMP17]], i32* [[DOTOMP_REDUCTION_ELEMENT]], align 4			// CHECK3-NEXT: store i32 [[TMP18]], i32* [[DOTOMP_REDUCTION_ELEMENT]], align 4
	// CHECK3-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP12]], i32 1			// CHECK3-NEXT: [[TMP19:%.]] = getelementptr i32, i32 [[TMP12]], i32 1
	// CHECK3-NEXT: [[TMP19:%.]] = getelementptr i32, i32 [[DOTOMP_REDUCTION_ELEMENT]], i32 1			// CHECK3-NEXT: [[TMP20:%.]] = getelementptr i32, i32 [[DOTOMP_REDUCTION_ELEMENT]], i32 1
	// CHECK3-NEXT: [[TMP20:%.]] = bitcast i32 [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK3-NEXT: [[TMP21:%.]] = bitcast i32 [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	// CHECK3-NEXT: store i8* [[TMP20]], i8** [[TMP11]], align 4			// CHECK3-NEXT: store i8* [[TMP21]], i8** [[TMP11]], align 4
	// CHECK3-NEXT: [[TMP21:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1			// CHECK3-NEXT: [[TMP22:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP22:%.]] = load i8, i8** [[TMP21]], align 4			// CHECK3-NEXT: [[TMP23:%.]] = load i8, i8** [[TMP22]], align 4
	// CHECK3-NEXT: [[TMP23:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1			// CHECK3-NEXT: [[TMP24:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP24:%.]] = bitcast i8 [[TMP22]] to i16*			// CHECK3-NEXT: [[TMP25:%.]] = bitcast i8 [[TMP23]] to i16*
	// CHECK3-NEXT: [[TMP25:%.]] = getelementptr i16, i16 [[TMP24]], i32 1			// CHECK3-NEXT: [[TMP26:%.]] = getelementptr i16, i16 [[TMP25]], i32 1
	// CHECK3-NEXT: [[TMP26:%.]] = bitcast i16 [[TMP25]] to i8*			// CHECK3-NEXT: [[TMP27:%.]] = bitcast i16 [[TMP26]] to i8*
	// CHECK3-NEXT: [[TMP27:%.]] = load i16, i16 [[TMP24]], align 2			// CHECK3-NEXT: [[TMP28:%.]] = load i16, i16 [[TMP25]], align 2
	// CHECK3-NEXT: [[TMP28:%.*]] = sext i16 [[TMP27]] to i32			// CHECK3-NEXT: [[TMP29:%.*]] = sext i16 [[TMP28]] to i32
	// CHECK3-NEXT: [[NVPTX_WARP_SIZE5:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()			// CHECK3-NEXT: [[TMP30:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK3-NEXT: [[TMP29:%.*]] = trunc i32 [[NVPTX_WARP_SIZE5]] to i16
	// CHECK3-NEXT: [[TMP30:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP28]], i16 [[TMP7]], i16 [[TMP29]])
	// CHECK3-NEXT: [[TMP31:%.*]] = trunc i32 [[TMP30]] to i16			// CHECK3-NEXT: [[TMP31:%.*]] = trunc i32 [[TMP30]] to i16
	// CHECK3-NEXT: store i16 [[TMP31]], i16* [[DOTOMP_REDUCTION_ELEMENT4]], align 2			// CHECK3-NEXT: [[TMP32:%.*]] = call i32 @__kmpc_shuffle_int32(i32 [[TMP29]], i16 [[TMP7]], i16 [[TMP31]])
	// CHECK3-NEXT: [[TMP32:%.]] = getelementptr i16, i16 [[TMP24]], i32 1			// CHECK3-NEXT: [[TMP33:%.*]] = trunc i32 [[TMP32]] to i16
	// CHECK3-NEXT: [[TMP33:%.]] = getelementptr i16, i16 [[DOTOMP_REDUCTION_ELEMENT4]], i32 1			// CHECK3-NEXT: store i16 [[TMP33]], i16* [[DOTOMP_REDUCTION_ELEMENT4]], align 2
	// CHECK3-NEXT: [[TMP34:%.]] = bitcast i16 [[DOTOMP_REDUCTION_ELEMENT4]] to i8*			// CHECK3-NEXT: [[TMP34:%.]] = getelementptr i16, i16 [[TMP25]], i32 1
	// CHECK3-NEXT: store i8* [[TMP34]], i8** [[TMP23]], align 4			// CHECK3-NEXT: [[TMP35:%.]] = getelementptr i16, i16 [[DOTOMP_REDUCTION_ELEMENT4]], i32 1
	// CHECK3-NEXT: [[TMP35:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK3-NEXT: [[TMP36:%.]] = bitcast i16 [[DOTOMP_REDUCTION_ELEMENT4]] to i8*
	// CHECK3-NEXT: [[TMP36:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK3-NEXT: store i8* [[TMP36]], i8** [[TMP24]], align 4
	// CHECK3-NEXT: [[TMP37:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]			// CHECK3-NEXT: [[TMP37:%.*]] = icmp eq i16 [[TMP8]], 0
	// CHECK3-NEXT: [[TMP38:%.*]] = and i1 [[TMP36]], [[TMP37]]			// CHECK3-NEXT: [[TMP38:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK3-NEXT: [[TMP39:%.*]] = icmp eq i16 [[TMP8]], 2			// CHECK3-NEXT: [[TMP39:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]
	// CHECK3-NEXT: [[TMP40:%.*]] = and i16 [[TMP6]], 1			// CHECK3-NEXT: [[TMP40:%.*]] = and i1 [[TMP38]], [[TMP39]]
	// CHECK3-NEXT: [[TMP41:%.*]] = icmp eq i16 [[TMP40]], 0			// CHECK3-NEXT: [[TMP41:%.*]] = icmp eq i16 [[TMP8]], 2
	// CHECK3-NEXT: [[TMP42:%.*]] = and i1 [[TMP39]], [[TMP41]]			// CHECK3-NEXT: [[TMP42:%.*]] = and i16 [[TMP6]], 1
	// CHECK3-NEXT: [[TMP43:%.*]] = icmp sgt i16 [[TMP7]], 0			// CHECK3-NEXT: [[TMP43:%.*]] = icmp eq i16 [[TMP42]], 0
	// CHECK3-NEXT: [[TMP44:%.*]] = and i1 [[TMP42]], [[TMP43]]			// CHECK3-NEXT: [[TMP44:%.*]] = and i1 [[TMP41]], [[TMP43]]
	// CHECK3-NEXT: [[TMP45:%.*]] = or i1 [[TMP35]], [[TMP38]]			// CHECK3-NEXT: [[TMP45:%.*]] = icmp sgt i16 [[TMP7]], 0
	// CHECK3-NEXT: [[TMP46:%.*]] = or i1 [[TMP45]], [[TMP44]]			// CHECK3-NEXT: [[TMP46:%.*]] = and i1 [[TMP44]], [[TMP45]]
	// CHECK3-NEXT: br i1 [[TMP46]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK3-NEXT: [[TMP47:%.*]] = or i1 [[TMP37]], [[TMP40]]
				// CHECK3-NEXT: [[TMP48:%.*]] = or i1 [[TMP47]], [[TMP46]]
				// CHECK3-NEXT: br i1 [[TMP48]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK3: then:			// CHECK3: then:
	// CHECK3-NEXT: [[TMP47:%.]] = bitcast [2 x i8]* [[TMP5]] to i8*			// CHECK3-NEXT: [[TMP49:%.]] = bitcast [2 x i8]* [[TMP5]] to i8*
	// CHECK3-NEXT: [[TMP48:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*			// CHECK3-NEXT: [[TMP50:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*
	// CHECK3-NEXT: call void @"_omp$reduction$reduction_func14"(i8* [[TMP47]], i8* [[TMP48]]) #[[ATTR4]]			// CHECK3-NEXT: call void @"_omp$reduction$reduction_func14"(i8* [[TMP49]], i8* [[TMP50]]) #[[ATTR3]]
	// CHECK3-NEXT: br label [[IFCONT:%.*]]			// CHECK3-NEXT: br label [[IFCONT:%.*]]
	// CHECK3: else:			// CHECK3: else:
	// CHECK3-NEXT: br label [[IFCONT]]			// CHECK3-NEXT: br label [[IFCONT]]
	// CHECK3: ifcont:			// CHECK3: ifcont:
	// CHECK3-NEXT: [[TMP49:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK3-NEXT: [[TMP51:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK3-NEXT: [[TMP50:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]			// CHECK3-NEXT: [[TMP52:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]
	// CHECK3-NEXT: [[TMP51:%.*]] = and i1 [[TMP49]], [[TMP50]]			// CHECK3-NEXT: [[TMP53:%.*]] = and i1 [[TMP51]], [[TMP52]]
	// CHECK3-NEXT: br i1 [[TMP51]], label [[THEN6:%.]], label [[ELSE7:%.]]			// CHECK3-NEXT: br i1 [[TMP53]], label [[THEN5:%.]], label [[ELSE6:%.]]
	// CHECK3: then6:			// CHECK3: then5:
	// CHECK3-NEXT: [[TMP52:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0			// CHECK3-NEXT: [[TMP54:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP53:%.]] = load i8, i8** [[TMP52]], align 4
	// CHECK3-NEXT: [[TMP54:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP55:%.]] = load i8, i8** [[TMP54]], align 4			// CHECK3-NEXT: [[TMP55:%.]] = load i8, i8** [[TMP54]], align 4
	// CHECK3-NEXT: [[TMP56:%.]] = bitcast i8 [[TMP53]] to i32*			// CHECK3-NEXT: [[TMP56:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP57:%.]] = bitcast i8 [[TMP55]] to i32*			// CHECK3-NEXT: [[TMP57:%.]] = load i8, i8** [[TMP56]], align 4
	// CHECK3-NEXT: [[TMP58:%.]] = load i32, i32 [[TMP56]], align 4			// CHECK3-NEXT: [[TMP58:%.]] = bitcast i8 [[TMP55]] to i32*
	// CHECK3-NEXT: store i32 [[TMP58]], i32* [[TMP57]], align 4			// CHECK3-NEXT: [[TMP59:%.]] = bitcast i8 [[TMP57]] to i32*
	// CHECK3-NEXT: [[TMP59:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1			// CHECK3-NEXT: [[TMP60:%.]] = load i32, i32 [[TMP58]], align 4
	// CHECK3-NEXT: [[TMP60:%.]] = load i8, i8** [[TMP59]], align 4			// CHECK3-NEXT: store i32 [[TMP60]], i32* [[TMP59]], align 4
	// CHECK3-NEXT: [[TMP61:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1			// CHECK3-NEXT: [[TMP61:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP62:%.]] = load i8, i8** [[TMP61]], align 4			// CHECK3-NEXT: [[TMP62:%.]] = load i8, i8** [[TMP61]], align 4
	// CHECK3-NEXT: [[TMP63:%.]] = bitcast i8 [[TMP60]] to i16*			// CHECK3-NEXT: [[TMP63:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP5]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP64:%.]] = bitcast i8 [[TMP62]] to i16*			// CHECK3-NEXT: [[TMP64:%.]] = load i8, i8** [[TMP63]], align 4
	// CHECK3-NEXT: [[TMP65:%.]] = load i16, i16 [[TMP63]], align 2			// CHECK3-NEXT: [[TMP65:%.]] = bitcast i8 [[TMP62]] to i16*
	// CHECK3-NEXT: store i16 [[TMP65]], i16* [[TMP64]], align 2			// CHECK3-NEXT: [[TMP66:%.]] = bitcast i8 [[TMP64]] to i16*
	// CHECK3-NEXT: br label [[IFCONT8:%.*]]			// CHECK3-NEXT: [[TMP67:%.]] = load i16, i16 [[TMP65]], align 2
	// CHECK3: else7:			// CHECK3-NEXT: store i16 [[TMP67]], i16* [[TMP66]], align 2
	// CHECK3-NEXT: br label [[IFCONT8]]			// CHECK3-NEXT: br label [[IFCONT7:%.*]]
	// CHECK3: ifcont8:			// CHECK3: else6:
				// CHECK3-NEXT: br label [[IFCONT7]]
				// CHECK3: ifcont7:
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func16			// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func16
	// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {			// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR2]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 4			// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 4
	// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3]])			// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3]])
	// CHECK3-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 4			// CHECK3-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 4
	// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4			// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4
	// CHECK3-NEXT: [[NVPTX_TID:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK3-NEXT: [[TMP3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_TID2:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK3-NEXT: [[TMP4:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK3-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[TMP4]], 31
	// CHECK3-NEXT: [[NVPTX_TID3:%.*]] = call i32 @llvm.nvvm.read.ptx.sreg.tid.x()			// CHECK3-NEXT: [[TMP5:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK3-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[TMP5]], 5
	// CHECK3-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 4			// CHECK3-NEXT: [[TMP6:%.]] = load i8, i8** [[DOTADDR]], align 4
	// CHECK3-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [2 x i8]			// CHECK3-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to [2 x i8]
	// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK3-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK3-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK3-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK3-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK3: then:			// CHECK3: then:
	// CHECK3-NEXT: [[TMP5:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 0			// CHECK3-NEXT: [[TMP8:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP6:%.]] = load i8, i8** [[TMP5]], align 4			// CHECK3-NEXT: [[TMP9:%.]] = load i8, i8** [[TMP8]], align 4
	// CHECK3-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to i32*			// CHECK3-NEXT: [[TMP10:%.]] = bitcast i8 [[TMP9]] to i32*
	// CHECK3-NEXT: [[TMP8:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK3-NEXT: [[TMP9:%.]] = load i32, i32 [[TMP7]], align 4			// CHECK3-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP10]], align 4
	// CHECK3-NEXT: store volatile i32 [[TMP9]], i32 addrspace(3)* [[TMP8]], align 4			// CHECK3-NEXT: store volatile i32 [[TMP12]], i32 addrspace(3)* [[TMP11]], align 4
	// CHECK3-NEXT: br label [[IFCONT:%.*]]			// CHECK3-NEXT: br label [[IFCONT:%.*]]
	// CHECK3: else:			// CHECK3: else:
	// CHECK3-NEXT: br label [[IFCONT]]			// CHECK3-NEXT: br label [[IFCONT]]
	// CHECK3: ifcont:			// CHECK3: ifcont:
	// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK3-NEXT: [[TMP10:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK3-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK3-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP10]]			// CHECK3-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[TMP3]], [[TMP13]]
	// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN2:%.]], label [[ELSE3:%.]]
	// CHECK3: then4:			// CHECK3: then2:
	// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK3-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK3-NEXT: [[TMP12:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 0			// CHECK3-NEXT: [[TMP15:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP13:%.]] = load i8, i8** [[TMP12]], align 4			// CHECK3-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 4
	// CHECK3-NEXT: [[TMP14:%.]] = bitcast i8 [[TMP13]] to i32*			// CHECK3-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*
	// CHECK3-NEXT: [[TMP15:%.]] = load volatile i32, i32 addrspace(3) [[TMP11]], align 4			// CHECK3-NEXT: [[TMP18:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4
	// CHECK3-NEXT: store i32 [[TMP15]], i32* [[TMP14]], align 4			// CHECK3-NEXT: store i32 [[TMP18]], i32* [[TMP17]], align 4
	// CHECK3-NEXT: br label [[IFCONT6:%.*]]			// CHECK3-NEXT: br label [[IFCONT4:%.*]]
	// CHECK3: else5:			// CHECK3: else3:
	// CHECK3-NEXT: br label [[IFCONT6]]			// CHECK3-NEXT: br label [[IFCONT4]]
	// CHECK3: ifcont6:			// CHECK3: ifcont4:
	// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK3-NEXT: [[WARP_MASTER7:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK3-NEXT: [[WARP_MASTER5:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK3-NEXT: br i1 [[WARP_MASTER7]], label [[THEN8:%.]], label [[ELSE9:%.]]			// CHECK3-NEXT: br i1 [[WARP_MASTER5]], label [[THEN6:%.]], label [[ELSE7:%.]]
	// CHECK3: then8:			// CHECK3: then6:
	// CHECK3-NEXT: [[TMP16:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 1			// CHECK3-NEXT: [[TMP19:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP17:%.]] = load i8, i8** [[TMP16]], align 4			// CHECK3-NEXT: [[TMP20:%.]] = load i8, i8** [[TMP19]], align 4
	// CHECK3-NEXT: [[TMP18:%.]] = bitcast i8 [[TMP17]] to i16*			// CHECK3-NEXT: [[TMP21:%.]] = bitcast i8 [[TMP20]] to i16*
	// CHECK3-NEXT: [[TMP19:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK3-NEXT: [[TMP22:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK3-NEXT: [[TMP20:%.]] = bitcast i32 addrspace(3) [[TMP19]] to i16 addrspace(3)*			// CHECK3-NEXT: [[TMP23:%.]] = bitcast i32 addrspace(3) [[TMP22]] to i16 addrspace(3)*
	// CHECK3-NEXT: [[TMP21:%.]] = load i16, i16 [[TMP18]], align 2			// CHECK3-NEXT: [[TMP24:%.]] = load i16, i16 [[TMP21]], align 2
	// CHECK3-NEXT: store volatile i16 [[TMP21]], i16 addrspace(3)* [[TMP20]], align 2			// CHECK3-NEXT: store volatile i16 [[TMP24]], i16 addrspace(3)* [[TMP23]], align 2
	// CHECK3-NEXT: br label [[IFCONT10:%.*]]			// CHECK3-NEXT: br label [[IFCONT8:%.*]]
	// CHECK3: else9:			// CHECK3: else7:
	// CHECK3-NEXT: br label [[IFCONT10]]			// CHECK3-NEXT: br label [[IFCONT8]]
	// CHECK3: ifcont10:			// CHECK3: ifcont8:
	// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK3-NEXT: [[TMP22:%.]] = load i32, i32 [[DOTADDR1]], align 4			// CHECK3-NEXT: [[TMP25:%.]] = load i32, i32 [[DOTADDR1]], align 4
	// CHECK3-NEXT: [[IS_ACTIVE_THREAD11:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP22]]			// CHECK3-NEXT: [[IS_ACTIVE_THREAD9:%.*]] = icmp ult i32 [[TMP3]], [[TMP25]]
	// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD11]], label [[THEN12:%.]], label [[ELSE13:%.]]			// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD9]], label [[THEN10:%.]], label [[ELSE11:%.]]
	// CHECK3: then12:			// CHECK3: then10:
	// CHECK3-NEXT: [[TMP23:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK3-NEXT: [[TMP26:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK3-NEXT: [[TMP24:%.]] = bitcast i32 addrspace(3) [[TMP23]] to i16 addrspace(3)*			// CHECK3-NEXT: [[TMP27:%.]] = bitcast i32 addrspace(3) [[TMP26]] to i16 addrspace(3)*
	// CHECK3-NEXT: [[TMP25:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP4]], i32 0, i32 1			// CHECK3-NEXT: [[TMP28:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[TMP7]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP26:%.]] = load i8, i8** [[TMP25]], align 4			// CHECK3-NEXT: [[TMP29:%.]] = load i8, i8** [[TMP28]], align 4
	// CHECK3-NEXT: [[TMP27:%.]] = bitcast i8 [[TMP26]] to i16*			// CHECK3-NEXT: [[TMP30:%.]] = bitcast i8 [[TMP29]] to i16*
	// CHECK3-NEXT: [[TMP28:%.]] = load volatile i16, i16 addrspace(3) [[TMP24]], align 2			// CHECK3-NEXT: [[TMP31:%.]] = load volatile i16, i16 addrspace(3) [[TMP27]], align 2
	// CHECK3-NEXT: store i16 [[TMP28]], i16* [[TMP27]], align 2			// CHECK3-NEXT: store i16 [[TMP31]], i16* [[TMP30]], align 2
	// CHECK3-NEXT: br label [[IFCONT14:%.*]]			// CHECK3-NEXT: br label [[IFCONT12:%.*]]
	// CHECK3: else13:			// CHECK3: else11:
	// CHECK3-NEXT: br label [[IFCONT14]]			// CHECK3-NEXT: br label [[IFCONT12]]
	// CHECK3: ifcont14:			// CHECK3: ifcont12:
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_list_to_global_copy_func17			// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_list_to_global_copy_func17
	// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {			// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 4			// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 4
	// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 4			// CHECK3-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 4
	// CHECK3-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 1			// CHECK3-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 1
	// CHECK3-NEXT: [[B:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_1]], %struct._globalized_locals_ty.1 [[TMP4]], i32 0, i32 1			// CHECK3-NEXT: [[B:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_1]], %struct._globalized_locals_ty.1 [[TMP4]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP10:%.]] = getelementptr inbounds [2048 x i16], [2048 x i16] [[B]], i32 0, i32 [[TMP5]]			// CHECK3-NEXT: [[TMP10:%.]] = getelementptr inbounds [2048 x i16], [2048 x i16] [[B]], i32 0, i32 [[TMP5]]
	// CHECK3-NEXT: [[TMP11:%.]] = bitcast i16 [[TMP10]] to i8*			// CHECK3-NEXT: [[TMP11:%.]] = bitcast i16 [[TMP10]] to i8*
	// CHECK3-NEXT: store i8* [[TMP11]], i8** [[TMP9]], align 4			// CHECK3-NEXT: store i8* [[TMP11]], i8** [[TMP9]], align 4
	// CHECK3-NEXT: [[TMP12:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK3-NEXT: [[TMP12:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK3-NEXT: [[TMP13:%.]] = load i8, i8** [[DOTADDR2]], align 4			// CHECK3-NEXT: [[TMP13:%.]] = load i8, i8** [[DOTADDR2]], align 4
	// CHECK3-NEXT: call void @"_omp$reduction$reduction_func14"(i8* [[TMP12]], i8* [[TMP13]]) #[[ATTR4]]			// CHECK3-NEXT: call void @"_omp$reduction$reduction_func14"(i8* [[TMP12]], i8* [[TMP13]]) #[[ATTR3]]
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_global_to_list_copy_func19			// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_global_to_list_copy_func19
	// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {			// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]], i8* [[TMP2:%.*]]) #[[ATTR2]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 4			// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 4
	// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 4			// CHECK3-NEXT: store i8* [[TMP8]], i8** [[TMP6]], align 4
	// CHECK3-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 1			// CHECK3-NEXT: [[TMP9:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 1
	// CHECK3-NEXT: [[B:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_1]], %struct._globalized_locals_ty.1 [[TMP4]], i32 0, i32 1			// CHECK3-NEXT: [[B:%.]] = getelementptr inbounds [[STRUCT__GLOBALIZED_LOCALS_TY_1]], %struct._globalized_locals_ty.1 [[TMP4]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP10:%.]] = getelementptr inbounds [2048 x i16], [2048 x i16] [[B]], i32 0, i32 [[TMP5]]			// CHECK3-NEXT: [[TMP10:%.]] = getelementptr inbounds [2048 x i16], [2048 x i16] [[B]], i32 0, i32 [[TMP5]]
	// CHECK3-NEXT: [[TMP11:%.]] = bitcast i16 [[TMP10]] to i8*			// CHECK3-NEXT: [[TMP11:%.]] = bitcast i16 [[TMP10]] to i8*
	// CHECK3-NEXT: store i8* [[TMP11]], i8** [[TMP9]], align 4			// CHECK3-NEXT: store i8* [[TMP11]], i8** [[TMP9]], align 4
	// CHECK3-NEXT: [[TMP12:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK3-NEXT: [[TMP12:%.]] = bitcast [2 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK3-NEXT: [[TMP13:%.]] = load i8, i8** [[DOTADDR2]], align 4			// CHECK3-NEXT: [[TMP13:%.]] = load i8, i8** [[DOTADDR2]], align 4
	// CHECK3-NEXT: call void @"_omp$reduction$reduction_func14"(i8* [[TMP13]], i8* [[TMP12]]) #[[ATTR4]]			// CHECK3-NEXT: call void @"_omp$reduction$reduction_func14"(i8* [[TMP13]], i8* [[TMP12]]) #[[ATTR3]]
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//

llvm/include/llvm/Frontend/OpenMP/OMPKinds.def

	Show First 20 Lines • Show All 449 Lines • ▼ Show 20 Lines
	__OMP_RTL(__kmpc_parallel_level, false, Int8, )			__OMP_RTL(__kmpc_parallel_level, false, Int8, )
	__OMP_RTL(__kmpc_is_spmd_exec_mode, false, Int8, )			__OMP_RTL(__kmpc_is_spmd_exec_mode, false, Int8, )
	__OMP_RTL(__kmpc_barrier_simple_spmd, false, Void, IdentPtr, Int32)			__OMP_RTL(__kmpc_barrier_simple_spmd, false, Void, IdentPtr, Int32)
	__OMP_RTL(__kmpc_barrier_simple_generic, false, Void, IdentPtr, Int32)			__OMP_RTL(__kmpc_barrier_simple_generic, false, Void, IdentPtr, Int32)

	__OMP_RTL(__kmpc_warp_active_thread_mask, false, Int64,)			__OMP_RTL(__kmpc_warp_active_thread_mask, false, Int64,)
	__OMP_RTL(__kmpc_syncwarp, false, Void, Int64)			__OMP_RTL(__kmpc_syncwarp, false, Void, Int64)

				__OMP_RTL(__kmpc_get_warp_size, false, Int32, )

	__OMP_RTL(__kmpc_is_generic_main_thread_id, false, Int8, Int32)			__OMP_RTL(__kmpc_is_generic_main_thread_id, false, Int8, Int32)

	__OMP_RTL(__last, false, Void, )			__OMP_RTL(__last, false, Void, )

	#undef __OMP_RTL			#undef __OMP_RTL
	#undef OMP_RTL			#undef OMP_RTL

	#define ParamAttrs(...) ArrayRef<AttributeSet>({__VA_ARGS__})			#define ParamAttrs(...) ArrayRef<AttributeSet>({__VA_ARGS__})
	▲ Show 20 Lines • Show All 758 Lines • Show Last 20 Lines

openmp/libomptarget/DeviceRTL/src/Mapping.cpp

Show First 20 Lines • Show All 271 Lines • ▼ Show 20 Lines	__attribute__((noinline)) uint32_t __kmpc_get_hardware_thread_id_in_block() {
FunctionTracingRAII();		FunctionTracingRAII();
return mapping::getThreadIdInBlock();		return mapping::getThreadIdInBlock();
}		}

__attribute__((noinline)) uint32_t __kmpc_get_hardware_num_threads_in_block() {		__attribute__((noinline)) uint32_t __kmpc_get_hardware_num_threads_in_block() {
FunctionTracingRAII();		FunctionTracingRAII();
return impl::getNumHardwareThreadsInBlock();		return impl::getNumHardwareThreadsInBlock();
}		}

		__attribute__((noinline)) uint32_t __kmpc_get_warp_size() {
		FunctionTracingRAII();
		return impl::getWarpSize();
		}
}		}
#pragma omp end declare target		#pragma omp end declare target

openmp/libomptarget/DeviceRTL/src/Utils.cpp

	Show All 18 Lines

	using namespace _OMP;			using namespace _OMP;

	namespace _OMP {			namespace _OMP {
	/// Helper to keep code alive without introducing a performance penalty.			/// Helper to keep code alive without introducing a performance penalty.
	__attribute__((used, weak, optnone)) void keepAlive() {			__attribute__((used, weak, optnone)) void keepAlive() {
	__kmpc_get_hardware_thread_id_in_block();			__kmpc_get_hardware_thread_id_in_block();
	__kmpc_get_hardware_num_threads_in_block();			__kmpc_get_hardware_num_threads_in_block();
				__kmpc_get_warp_size();
	__kmpc_barrier_simple_spmd(nullptr, 0);			__kmpc_barrier_simple_spmd(nullptr, 0);
	__kmpc_barrier_simple_generic(nullptr, 0);			__kmpc_barrier_simple_generic(nullptr, 0);
	}			}
	} // namespace _OMP			} // namespace _OMP

	namespace impl {			namespace impl {

	/// AMDGCN Implementation			/// AMDGCN Implementation
	▲ Show 20 Lines • Show All 114 Lines • Show Last 20 Lines

openmp/libomptarget/deviceRTLs/amdgcn/src/target_impl.hip

	Show First 20 Lines • Show All 127 Lines • ▼ Show 20 Lines
	}			}

	EXTERN int __kmpc_get_hardware_num_threads_in_block() {			EXTERN int __kmpc_get_hardware_num_threads_in_block() {
	return get_workgroup_dim(__builtin_amdgcn_workgroup_id_x(),			return get_workgroup_dim(__builtin_amdgcn_workgroup_id_x(),
	__builtin_amdgcn_grid_size_x(),			__builtin_amdgcn_grid_size_x(),
	__builtin_amdgcn_workgroup_size_x());			__builtin_amdgcn_workgroup_size_x());
	}			}

				EXTERN unsigned __kmpc_get_warp_size() {
				return WARPSIZE;
				}

	EXTERN unsigned GetWarpId() { return __kmpc_get_hardware_thread_id_in_block() / WARPSIZE; }			EXTERN unsigned GetWarpId() { return __kmpc_get_hardware_thread_id_in_block() / WARPSIZE; }
	EXTERN unsigned GetWarpSize() { return WARPSIZE; }
	EXTERN unsigned GetLaneId() {			EXTERN unsigned GetLaneId() {
	return __builtin_amdgcn_mbcnt_hi(~0u, __builtin_amdgcn_mbcnt_lo(~0u, 0u));			return __builtin_amdgcn_mbcnt_hi(~0u, __builtin_amdgcn_mbcnt_lo(~0u, 0u));
	}			}

	EXTERN uint32_t __kmpc_amdgcn_gpu_num_threads() {			EXTERN uint32_t __kmpc_amdgcn_gpu_num_threads() {
	return __kmpc_get_hardware_num_threads_in_block();			return __kmpc_get_hardware_num_threads_in_block();
	}			}

	▲ Show 20 Lines • Show All 73 Lines • Show Last 20 Lines

openmp/libomptarget/deviceRTLs/common/include/target/shuffle.h

	Show All 29 Lines

	///}			///}

	/// Forward declarations			/// Forward declarations
	///			///
	///{			///{
	extern "C" {			extern "C" {
	unsigned GetLaneId();			unsigned GetLaneId();
	unsigned GetWarpSize();			unsigned __kmpc_get_warp_size();
	void __kmpc_impl_unpack(uint64_t val, uint32_t &lo, uint32_t &hi);			void __kmpc_impl_unpack(uint64_t val, uint32_t &lo, uint32_t &hi);
	uint64_t __kmpc_impl_pack(uint32_t lo, uint32_t hi);			uint64_t __kmpc_impl_pack(uint32_t lo, uint32_t hi);
	}			}
	///}			///}

	/// Fallback implementations of the shuffle sync idiom.			/// Fallback implementations of the shuffle sync idiom.
	/// Unavailable at present (would error at link time if used).			/// Unavailable at present (would error at link time if used).
	///			///
	///{			///{

	int32_t __kmpc_impl_shfl_sync(uint64_t Mask, int32_t Var, int32_t SrcLane);			int32_t __kmpc_impl_shfl_sync(uint64_t Mask, int32_t Var, int32_t SrcLane);

	int32_t __kmpc_impl_shfl_down_sync(uint64_t Mask, int32_t Var, uint32_t Delta,			int32_t __kmpc_impl_shfl_down_sync(uint64_t Mask, int32_t Var, uint32_t Delta,
	int32_t Width);			int32_t Width);

	///}			///}

	/// AMDGCN implementations of the shuffle sync idiom.			/// AMDGCN implementations of the shuffle sync idiom.
	///			///
	///{			///{
	#pragma omp begin declare variant match(device = {arch(amdgcn)})			#pragma omp begin declare variant match(device = {arch(amdgcn)})

	inline int32_t __kmpc_impl_shfl_sync(uint64_t Mask, int32_t Var,			inline int32_t __kmpc_impl_shfl_sync(uint64_t Mask, int32_t Var,
	int32_t SrcLane) {			int32_t SrcLane) {
	int Width = GetWarpSize();			int Width = __kmpc_get_warp_size();
	int Self = GetLaneId();			int Self = GetLaneId();
	int Index = SrcLane + (Self & ~(Width - 1));			int Index = SrcLane + (Self & ~(Width - 1));
	return __builtin_amdgcn_ds_bpermute(Index << 2, Var);			return __builtin_amdgcn_ds_bpermute(Index << 2, Var);
	}			}

	inline int32_t __kmpc_impl_shfl_down_sync(uint64_t Mask, int32_t Var,			inline int32_t __kmpc_impl_shfl_down_sync(uint64_t Mask, int32_t Var,
	uint32_t LaneDelta, int32_t Width) {			uint32_t LaneDelta, int32_t Width) {
	int Self = GetLaneId();			int Self = GetLaneId();
	Show All 13 Lines

	inline int32_t __kmpc_impl_shfl_sync(uint64_t Mask, int32_t Var,			inline int32_t __kmpc_impl_shfl_sync(uint64_t Mask, int32_t Var,
	int32_t SrcLane) {			int32_t SrcLane) {
	return __nvvm_shfl_sync_idx_i32(Mask, Var, SrcLane, 0x1f);			return __nvvm_shfl_sync_idx_i32(Mask, Var, SrcLane, 0x1f);
	}			}

	inline int32_t __kmpc_impl_shfl_down_sync(uint64_t Mask, int32_t Var,			inline int32_t __kmpc_impl_shfl_down_sync(uint64_t Mask, int32_t Var,
	uint32_t Delta, int32_t Width) {			uint32_t Delta, int32_t Width) {
	int32_t T = ((GetWarpSize() - Width) << 8) \| 0x1f;			int32_t T = ((__kmpc_get_warp_size() - Width) << 8) \| 0x1f;
	return __nvvm_shfl_sync_down_i32(Mask, Var, Delta, T);			return __nvvm_shfl_sync_down_i32(Mask, Var, Delta, T);
	}			}

	#pragma omp end declare variant			#pragma omp end declare variant
	///}			///}

	#pragma omp end declare target			#pragma omp end declare target

	#endif			#endif

openmp/libomptarget/deviceRTLs/nvptx/src/target_impl.cu

	Show First 20 Lines • Show All 96 Lines • ▼ Show 20 Lines
	}			}
	EXTERN int GetBlockIdInKernel() { return __nvvm_read_ptx_sreg_ctaid_x(); }			EXTERN int GetBlockIdInKernel() { return __nvvm_read_ptx_sreg_ctaid_x(); }
	EXTERN int __kmpc_get_hardware_num_blocks() {			EXTERN int __kmpc_get_hardware_num_blocks() {
	return __nvvm_read_ptx_sreg_nctaid_x();			return __nvvm_read_ptx_sreg_nctaid_x();
	}			}
	EXTERN int __kmpc_get_hardware_num_threads_in_block() {			EXTERN int __kmpc_get_hardware_num_threads_in_block() {
	return __nvvm_read_ptx_sreg_ntid_x();			return __nvvm_read_ptx_sreg_ntid_x();
	}			}
				EXTERN unsigned __kmpc_get_warp_size() { return WARPSIZE; }
	EXTERN unsigned GetWarpId() {			EXTERN unsigned GetWarpId() {
	return __kmpc_get_hardware_thread_id_in_block() / WARPSIZE;			return __kmpc_get_hardware_thread_id_in_block() / WARPSIZE;
	}			}
	EXTERN unsigned GetWarpSize() { return WARPSIZE; }
	EXTERN unsigned GetLaneId() {			EXTERN unsigned GetLaneId() {
	return __kmpc_get_hardware_thread_id_in_block() & (WARPSIZE - 1);			return __kmpc_get_hardware_thread_id_in_block() & (WARPSIZE - 1);
	}			}

	// Atomics			// Atomics
	uint32_t __kmpc_atomic_add(uint32_t *Address, uint32_t Val) {			uint32_t __kmpc_atomic_add(uint32_t *Address, uint32_t Val) {
	return __atomic_fetch_add(Address, Val, __ATOMIC_SEQ_CST);			return __atomic_fetch_add(Address, Val, __ATOMIC_SEQ_CST);
	}			}
	▲ Show 20 Lines • Show All 76 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[clang][openmp][NFC] Remove arch-specific CGOpenMPRuntimeGPU files
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 385704

clang/lib/CodeGen/CGOpenMPRuntimeAMDGCN.h

clang/lib/CodeGen/CGOpenMPRuntimeAMDGCN.cpp

clang/lib/CodeGen/CGOpenMPRuntimeGPU.h

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp

clang/lib/CodeGen/CGOpenMPRuntimeNVPTX.h

clang/lib/CodeGen/CGOpenMPRuntimeNVPTX.cpp

clang/lib/CodeGen/CMakeLists.txt

clang/lib/CodeGen/CodeGenModule.cpp

clang/test/OpenMP/nvptx_parallel_codegen.cpp

clang/test/OpenMP/nvptx_target_parallel_reduction_codegen.cpp

clang/test/OpenMP/nvptx_target_parallel_reduction_codegen_tbaa_PR46146.cpp

clang/test/OpenMP/nvptx_teams_reduction_codegen.cpp

llvm/include/llvm/Frontend/OpenMP/OMPKinds.def

openmp/libomptarget/DeviceRTL/src/Mapping.cpp

openmp/libomptarget/DeviceRTL/src/Utils.cpp

openmp/libomptarget/deviceRTLs/amdgcn/src/target_impl.hip

openmp/libomptarget/deviceRTLs/common/include/target/shuffle.h

openmp/libomptarget/deviceRTLs/nvptx/src/target_impl.cu

This is an archive of the discontinued LLVM Phabricator instance.

[clang][openmp][NFC] Remove arch-specific CGOpenMPRuntimeGPU filesClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 385704

clang/lib/CodeGen/CGOpenMPRuntimeAMDGCN.h

clang/lib/CodeGen/CGOpenMPRuntimeAMDGCN.cpp

clang/lib/CodeGen/CGOpenMPRuntimeGPU.h

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp

clang/lib/CodeGen/CGOpenMPRuntimeNVPTX.h

clang/lib/CodeGen/CGOpenMPRuntimeNVPTX.cpp

clang/lib/CodeGen/CMakeLists.txt

clang/lib/CodeGen/CodeGenModule.cpp

clang/test/OpenMP/nvptx_parallel_codegen.cpp

clang/test/OpenMP/nvptx_target_parallel_reduction_codegen.cpp

clang/test/OpenMP/nvptx_target_parallel_reduction_codegen_tbaa_PR46146.cpp

clang/test/OpenMP/nvptx_teams_reduction_codegen.cpp

llvm/include/llvm/Frontend/OpenMP/OMPKinds.def

openmp/libomptarget/DeviceRTL/src/Mapping.cpp

openmp/libomptarget/DeviceRTL/src/Utils.cpp

openmp/libomptarget/deviceRTLs/amdgcn/src/target_impl.hip

openmp/libomptarget/deviceRTLs/common/include/target/shuffle.h

openmp/libomptarget/deviceRTLs/nvptx/src/target_impl.cu

[clang][openmp][NFC] Remove arch-specific CGOpenMPRuntimeGPU files
ClosedPublic