This is an archive of the discontinued LLVM Phabricator instance.

[libomptarget][nvptx] Undef, internal shared variables
AbandonedPublic

Authored by JonChesterfield on Oct 22 2020, 4:22 PM.

Download Raw Diff

Details

Reviewers

jdoerfert
ABataev
grokos
tianshilei1992
ye-luo

Summary

[libomptarget][nvptx] Undef, internal shared variables

Shared variables on nvptx, and LDS on amdgcn, are uninitialized at
the start of kernel execution. Therefore create the variables with
undef instead of zeros, motivated in part by the amdgcn back end
rejecting LDS+initializer.

Common is zero initialized, which seems incompatible with shared. Thus
change them to internal, following the direction of
https://reviews.llvm.org/rG7b3eabdcd215

WIP, other tests need to be updated if direction is good

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

JonChesterfield created this revision.Oct 22 2020, 4:22 PM

Herald added a project: Restricted Project. · View Herald TranscriptOct 22 2020, 4:22 PM

Herald added a subscriber: cfe-commits. · View Herald Transcript

JonChesterfield requested review of this revision.Oct 22 2020, 4:22 PM

The nvptx back end accepts common + zero + shared, but not common + undef + shared. I think weak_odr is conceptually right here, but given the warning that nvlink doesn't support weak symbols, internal also seems fine. Can someone see an advantage to weak over internal? It could be arch specific at the risk of a lot of test duplication.

In D89994#2348655, @JonChesterfield wrote:

The nvptx back end accepts common + zero + shared, but not common + undef + shared. I think weak_odr is conceptually right here, but given the warning that nvlink doesn't support weak symbols, internal also seems fine. Can someone see an advantage to weak over internal? It could be arch specific at the risk of a lot of test duplication.

IIRC, it supports weak symbols, but does not support weak symbols of different sizes.

Harbormaster completed remote builds in B76104: Diff 300121.Oct 22 2020, 4:52 PM

In D89994#2348656, @ABataev wrote:

In D89994#2348655, @JonChesterfield wrote:

The nvptx back end accepts common + zero + shared, but not common + undef + shared. I think weak_odr is conceptually right here, but given the warning that nvlink doesn't support weak symbols, internal also seems fine. Can someone see an advantage to weak over internal? It could be arch specific at the risk of a lot of test duplication.

IIRC, it supports weak symbols, but does not support weak symbols of different sizes.

That seems a reasonable restriction. Linkers sometimes pick the first weak symbol they see. Comdat might mean pick the biggest one, but that's probably not a good thing to rely on.

JonChesterfield added inline comments.Oct 22 2020, 5:12 PM

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp
4794–4795	Perhaps weak_any + undef? Could use internal for symbols that may vary in size and weak_any for those that don't.

ABataev added inline comments.Oct 23 2020, 6:23 AM

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp
2858–2859	"Internalization" is not the best option, it increases mem pressure. Common linkage is a better choice, allows to "squash" the same objects, defined in different units. Make it arch dependable, maybe? For NVPTX zero initialization is not a problem, it is resolved when PTX is generated.
4794–4795	Yeah, it is a good idea, I think.

jdoerfert added inline comments.Oct 23 2020, 8:34 AM

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp
2858–2859	FWIW, if we do not depend on the zero initialization, we should go with undef.

ABataev added inline comments.Oct 23 2020, 8:43 AM

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp
2858–2859	Sure.

prefer weak, update tests

The diff doesn't look right here. I can't tell if that's a quirk of the phab gui or indicates a bad merge, recreated as D90248

Harbormaster completed remote builds in B76595: Diff 301038.Oct 27 2020, 9:52 AM

Revision Contents

Path

Size

clang/

lib/

CodeGen/

CGOpenMPRuntimeGPU.cpp

4 lines

test/

OpenMP/

nvptx_data_sharing.cpp

4 lines

nvptx_distribute_parallel_generic_mode_codegen.cpp

4 lines

nvptx_parallel_codegen.cpp

4 lines

nvptx_parallel_for_codegen.cpp

4 lines

nvptx_target_parallel_reduction_codegen.cpp

2 lines

nvptx_target_teams_distribute_parallel_for_codegen.cpp

4 lines

nvptx_target_teams_distribute_parallel_for_simd_codegen.cpp

4 lines

nvptx_teams_codegen.cpp

8 lines

nvptx_teams_reduction_codegen.cpp

30 lines

Diff 301038

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp

Show First 20 Lines • Show All 2,849 Lines • ▼ Show 20 Lines	StringRef TransferMediumName =
"__openmp_nvptx_data_transfer_temporary_storage";		"__openmp_nvptx_data_transfer_temporary_storage";
llvm::GlobalVariable *TransferMedium =		llvm::GlobalVariable *TransferMedium =
M.getGlobalVariable(TransferMediumName);		M.getGlobalVariable(TransferMediumName);
unsigned WarpSize = CGF.getTarget().getGridValue(llvm::omp::GV_Warp_Size);		unsigned WarpSize = CGF.getTarget().getGridValue(llvm::omp::GV_Warp_Size);
if (!TransferMedium) {		if (!TransferMedium) {
auto *Ty = llvm::ArrayType::get(CGM.Int32Ty, WarpSize);		auto *Ty = llvm::ArrayType::get(CGM.Int32Ty, WarpSize);
unsigned SharedAddressSpace = C.getTargetAddressSpace(LangAS::cuda_shared);		unsigned SharedAddressSpace = C.getTargetAddressSpace(LangAS::cuda_shared);
TransferMedium = new llvm::GlobalVariable(		TransferMedium = new llvm::GlobalVariable(
M, Ty, /isConstant=/false, llvm::GlobalVariable::InternalLinkage,		M, Ty, /isConstant=/false, llvm::GlobalVariable::WeakAnyLinkage,
llvm::UndefValue::get(Ty), TransferMediumName,		llvm::UndefValue::get(Ty), TransferMediumName,
		ABataevUnsubmitted Not Done Reply Inline Actions "Internalization" is not the best option, it increases mem pressure. Common linkage is a better choice, allows to "squash" the same objects, defined in different units. Make it arch dependable, maybe? For NVPTX zero initialization is not a problem, it is resolved when PTX is generated. ABataev: "Internalization" is not the best option, it increases mem pressure. Common linkage is a better…
		jdoerfertUnsubmitted Not Done Reply Inline Actions FWIW, if we do not depend on the zero initialization, we should go with undef. jdoerfert: FWIW, if we do not depend on the zero initialization, we should go with undef.
		ABataevUnsubmitted Not Done Reply Inline Actions Sure. ABataev: Sure.
/InsertBefore=/nullptr, llvm::GlobalVariable::NotThreadLocal,		/InsertBefore=/nullptr, llvm::GlobalVariable::NotThreadLocal,
SharedAddressSpace);		SharedAddressSpace);
CGM.addCompilerUsedGlobal(TransferMedium);		CGM.addCompilerUsedGlobal(TransferMedium);
}		}

auto &RT = static_cast<CGOpenMPRuntimeGPU &>(CGF.CGM.getOpenMPRuntime());		auto &RT = static_cast<CGOpenMPRuntimeGPU &>(CGF.CGM.getOpenMPRuntime());
// Get the CUDA thread id of the current OpenMP thread on the GPU.		// Get the CUDA thread id of the current OpenMP thread on the GPU.
llvm::Value *ThreadID = RT.getGPUThreadID(CGF);		llvm::Value *ThreadID = RT.getGPUThreadID(CGF);
▲ Show 20 Lines • Show All 1,918 Lines • ▼ Show 20 Lines	if (!SharedStaticRD->field_empty()) {
SharedStaticRD->addDecl(Field);		SharedStaticRD->addDecl(Field);
}		}
SharedStaticRD->completeDefinition();		SharedStaticRD->completeDefinition();
if (!SharedStaticRD->field_empty()) {		if (!SharedStaticRD->field_empty()) {
QualType StaticTy = C.getRecordType(SharedStaticRD);		QualType StaticTy = C.getRecordType(SharedStaticRD);
llvm::Type *LLVMStaticTy = CGM.getTypes().ConvertTypeForMem(StaticTy);		llvm::Type *LLVMStaticTy = CGM.getTypes().ConvertTypeForMem(StaticTy);
auto *GV = new llvm::GlobalVariable(		auto *GV = new llvm::GlobalVariable(
CGM.getModule(), LLVMStaticTy,		CGM.getModule(), LLVMStaticTy,
/isConstant=/false, llvm::GlobalValue::InternalLinkage,		/isConstant=/false, llvm::GlobalValue::WeakAnyLinkage,
llvm::UndefValue::get(LLVMStaticTy),		llvm::UndefValue::get(LLVMStaticTy),
		JonChesterfieldAuthorUnsubmitted Done Reply Inline Actions Perhaps weak_any + undef? Could use internal for symbols that may vary in size and weak_any for those that don't. JonChesterfield: Perhaps weak_any + undef? Could use internal for symbols that may vary in size and weak_any…
		ABataevUnsubmitted Not Done Reply Inline Actions Yeah, it is a good idea, I think. ABataev: Yeah, it is a good idea, I think.
"_openmp_shared_static_glob_rd_$_", /InsertBefore=/nullptr,		"_openmp_shared_static_glob_rd_$_", /InsertBefore=/nullptr,
llvm::GlobalValue::NotThreadLocal,		llvm::GlobalValue::NotThreadLocal,
C.getTargetAddressSpace(LangAS::cuda_shared));		C.getTargetAddressSpace(LangAS::cuda_shared));
auto *Replacement = llvm::ConstantExpr::getPointerBitCastOrAddrSpaceCast(		auto *Replacement = llvm::ConstantExpr::getPointerBitCastOrAddrSpaceCast(
GV, CGM.VoidPtrTy);		GV, CGM.VoidPtrTy);
for (const GlobalPtrSizeRecsTy *Rec : SharedRecs) {		for (const GlobalPtrSizeRecsTy *Rec : SharedRecs) {
Rec->Buffer->replaceAllUsesWith(Replacement);		Rec->Buffer->replaceAllUsesWith(Replacement);
Rec->Buffer->eraseFromParent();		Rec->Buffer->eraseFromParent();
▲ Show 20 Lines • Show All 64 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_data_sharing.cpp

Show All 22 Lines	#pragma omp target
#pragma omp parallel private(c)		#pragma omp parallel private(c)
{		{
int *c1 = &c;		int *c1 = &c;
b = a + 10000;		b = a + 10000;
}		}
}		}
}		}
// SEQ: [[MEM_TY:%.+]] = type { [128 x i8] }		// SEQ: [[MEM_TY:%.+]] = type { [128 x i8] }
// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer		// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = weak addrspace(3) global [[MEM_TY]] undef
// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null		// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* undef
// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i64 8		// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i64 8
// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1		// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1

/// ========= In the worker function ========= ///		/// ========= In the worker function ========= ///
// CK1: {{.}}define internal void @__omp_offloading{{.}}test_ds{{.*}}_worker()		// CK1: {{.}}define internal void @__omp_offloading{{.}}test_ds{{.*}}_worker()
// CK1: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)		// CK1: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
// CK1-NOT: call void @__kmpc_data_sharing_init_stack		// CK1-NOT: call void @__kmpc_data_sharing_init_stack

▲ Show 20 Lines • Show All 79 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_distribute_parallel_generic_mode_codegen.cpp

	Show All 29 Lines
	#pragma omp target teams map(tofrom:a)			#pragma omp target teams map(tofrom:a)
	#pragma omp distribute parallel for firstprivate(b) lastprivate(c) if(a)			#pragma omp distribute parallel for firstprivate(b) lastprivate(c) if(a)
	for (int i= 0; i < argc; ++i)			for (int i= 0; i < argc; ++i)
	a = foo(&i) + foo(&a) + foo(&b[i]) + foo(&c[i]) + foo(&d[i]);			a = foo(&i) + foo(&a) + foo(&b[i]) + foo(&c[i]) + foo(&d[i]);
	return 0;			return 0;
	}			}

	// SEQ: [[MEM_TY:%.+]] = type { [128 x i8] }			// SEQ: [[MEM_TY:%.+]] = type { [128 x i8] }
	// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer			// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = weak addrspace(3) global [[MEM_TY]] undef
	// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null			// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* undef
	// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 40			// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 40
	// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1			// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1
	// CHECK-DAG: @__omp_offloading_{{.*}}_main_[[LINE:l.+]]_exec_mode = weak constant i8 0			// CHECK-DAG: @__omp_offloading_{{.*}}_main_[[LINE:l.+]]_exec_mode = weak constant i8 0

	// CHECK: define weak void @__omp_offloading_{{.}}_main_[[LINE]]([10 x i32] nonnull align 4 dereferenceable(40) %{{.+}}, [10 x i32]* nonnull align 4 dereferenceable(40) %{{.+}}, i32* nonnull align 4 dereferenceable(4) %{{.+}}, i{{64\|32}} %{{.+}}, [10 x i32]* nonnull align 4 dereferenceable(40) %{{.+}})			// CHECK: define weak void @__omp_offloading_{{.}}_main_[[LINE]]([10 x i32] nonnull align 4 dereferenceable(40) %{{.+}}, [10 x i32]* nonnull align 4 dereferenceable(40) %{{.+}}, i32* nonnull align 4 dereferenceable(4) %{{.+}}, i{{64\|32}} %{{.+}}, [10 x i32]* nonnull align 4 dereferenceable(40) %{{.+}})
	// SEQ: [[SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],			// SEQ: [[SHARED:%.+]] = load i16, i16* [[KERNEL_SHARED]],
	// SEQ: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE]],			// SEQ: [[SIZE:%.+]] = load i{{64\|32}}, i{{64\|32}}* [[KERNEL_SIZE]],
	// SEQ: call void @__kmpc_get_team_static_memory(i16 1, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[SHARED]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))			// SEQ: call void @__kmpc_get_team_static_memory(i16 1, i8* addrspacecast (i8 addrspace(3)* getelementptr inbounds ([[MEM_TY]], [[MEM_TY]] addrspace(3)* [[SHARED_GLOBAL_RD]], i32 0, i32 0, i32 0) to i8), i{{64\|32}} [[SIZE]], i16 [[SHARED]], i8* addrspacecast (i8* addrspace(3)* [[KERNEL_PTR]] to i8**))
	Show All 22 Lines

clang/test/OpenMP/nvptx_parallel_codegen.cpp

Show First 20 Lines • Show All 70 Lines • ▼ Show 20 Lines	int bar(int n){
int a = 0;		int a = 0;

a += ftemplate<int>(n);		a += ftemplate<int>(n);

return a;		return a;
}		}

// SEQ: [[MEM_TY:%.+]] = type { [128 x i8] }		// SEQ: [[MEM_TY:%.+]] = type { [128 x i8] }
// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer		// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = weak addrspace(3) global [[MEM_TY]] undef
// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null		// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* undef
// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 4		// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 4
// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1		// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1

// CHECK-NOT: define {{.*}}void {{@__omp_offloading_.+template.+l20}}_worker()		// CHECK-NOT: define {{.*}}void {{@__omp_offloading_.+template.+l20}}_worker()

// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l29}}_worker()		// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l29}}_worker()
// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,		// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,
// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,		// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,
▲ Show 20 Lines • Show All 294 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_parallel_for_codegen.cpp

Show All 26 Lines	int bar(int n){
int a = 0;		int a = 0;

a += ftemplate<int>(n);		a += ftemplate<int>(n);

return a;		return a;
}		}

// SEQ: [[MEM_TY:%.+]] = type { [128 x i8] }		// SEQ: [[MEM_TY:%.+]] = type { [128 x i8] }
// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer		// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = weak addrspace(3) global [[MEM_TY]] undef
// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null		// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* undef
// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 4		// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 4
// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1		// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1

// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l13}}_worker()		// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+template.+l13}}_worker()
// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)		// CHECK: call void @__kmpc_barrier_simple_spmd(%struct.ident_t* null, i32 0)
// CHECK: call i1 @__kmpc_kernel_parallel(		// CHECK: call i1 @__kmpc_kernel_parallel(
// CHECK: call void @__omp_outlined___wrapper(		// CHECK: call void @__omp_outlined___wrapper(

▲ Show 20 Lines • Show All 93 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_target_parallel_reduction_codegen.cpp

	// Test target codegen - host bc file has to be created first.			// Test target codegen - host bc file has to be created first.
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-64
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple i386-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm-bc %s -o %t-x86-host.bc
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32
	// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32			// RUN: %clang_cc1 -verify -fopenmp -fopenmp-cuda-mode -fexceptions -fcxx-exceptions -x c++ -triple nvptx-unknown-unknown -fopenmp-targets=nvptx-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-x86-host.bc -o - \| FileCheck %s --check-prefix CHECK --check-prefix CHECK-32
	// expected-no-diagnostics			// expected-no-diagnostics
	#ifndef HEADER			#ifndef HEADER
	#define HEADER			#define HEADER

	// Check for the data transfer medium in shared memory to transfer the reduction list to the first warp.			// Check for the data transfer medium in shared memory to transfer the reduction list to the first warp.
	// CHECK-DAG: [[TRANSFER_STORAGE:@.+]] = common addrspace([[SHARED_ADDRSPACE:[0-9]+]]) global [32 x i32]			// CHECK-DAG: [[TRANSFER_STORAGE:@.+]] = weak addrspace([[SHARED_ADDRSPACE:[0-9]+]]) global [32 x i32]

	// Check that the execution mode of all 3 target regions is set to Spmd Mode.			// Check that the execution mode of all 3 target regions is set to Spmd Mode.
	// CHECK-DAG: {{@__omp_offloading_.+l27}}_exec_mode = weak constant i8 0			// CHECK-DAG: {{@__omp_offloading_.+l27}}_exec_mode = weak constant i8 0
	// CHECK-DAG: {{@__omp_offloading_.+l32}}_exec_mode = weak constant i8 0			// CHECK-DAG: {{@__omp_offloading_.+l32}}_exec_mode = weak constant i8 0
	// CHECK-DAG: {{@__omp_offloading_.+l38}}_exec_mode = weak constant i8 0			// CHECK-DAG: {{@__omp_offloading_.+l38}}_exec_mode = weak constant i8 0

	template<typename tx>			template<typename tx>
	tx ftemplate(int n) {			tx ftemplate(int n) {
	▲ Show 20 Lines • Show All 787 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_target_teams_distribute_parallel_for_codegen.cpp

Show First 20 Lines • Show All 87 Lines • ▼ Show 20 Lines	int bar(int n){
int a = 0;		int a = 0;

a += ftemplate<int>(n);		a += ftemplate<int>(n);

return a;		return a;
}		}

// SEQ-DAG: [[MEM_TY:%.+]] = type { [128 x i8] }		// SEQ-DAG: [[MEM_TY:%.+]] = type { [128 x i8] }
// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer		// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = weak addrspace(3) global [[MEM_TY]] undef
// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null		// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* undef
// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 4		// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 4
// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1		// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1

// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+}}_l50(		// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+}}_l50(
// CHECK-DAG: [[THREAD_LIMIT:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()		// CHECK-DAG: [[THREAD_LIMIT:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
// CHECK: call void @__kmpc_spmd_kernel_init(i32 [[THREAD_LIMIT]], i16 0)		// CHECK: call void @__kmpc_spmd_kernel_init(i32 [[THREAD_LIMIT]], i16 0)
// CHECK: call void [[PARALLEL:@.+]](		// CHECK: call void [[PARALLEL:@.+]](
// CHECK: call void @__kmpc_spmd_kernel_deinit_v2(i16 0)		// CHECK: call void @__kmpc_spmd_kernel_deinit_v2(i16 0)
▲ Show 20 Lines • Show All 159 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_target_teams_distribute_parallel_for_simd_codegen.cpp

Show First 20 Lines • Show All 70 Lines • ▼ Show 20 Lines	int bar(int n){
int a = 0;		int a = 0;

a += ftemplate<int>(n);		a += ftemplate<int>(n);

return a;		return a;
}		}

// SEQ-DAG: [[MEM_TY:%.+]] = type { [128 x i8] }		// SEQ-DAG: [[MEM_TY:%.+]] = type { [128 x i8] }
// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer		// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = weak addrspace(3) global [[MEM_TY]] undef
// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null		// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* undef
// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 4		// SEQ-DAG: [[KERNEL_SIZE:@.+]] = internal unnamed_addr constant i{{64\|32}} 4
// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1		// SEQ-DAG: [[KERNEL_SHARED:@.+]] = internal unnamed_addr constant i16 1

// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+}}_l43(		// CHECK-LABEL: define {{.*}}void {{@__omp_offloading_.+}}_l43(
// CHECK-DAG: [[THREAD_LIMIT:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()		// CHECK-DAG: [[THREAD_LIMIT:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
// CHECK: call void @__kmpc_spmd_kernel_init(i32 [[THREAD_LIMIT]], i16 0)		// CHECK: call void @__kmpc_spmd_kernel_init(i32 [[THREAD_LIMIT]], i16 0)
// CHECK: call void @__kmpc_spmd_kernel_deinit_v2(i16 0)		// CHECK: call void @__kmpc_spmd_kernel_deinit_v2(i16 0)

▲ Show 20 Lines • Show All 69 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_teams_codegen.cpp

	Show All 24 Lines
	#pragma omp teams			#pragma omp teams
	{			{
	argc = 0;			argc = 0;
	}			}
	return tmain(argv);			return tmain(argv);
	}			}

	// SEQ: [[MEM_TY:%.+]] = type { [128 x i8] }			// SEQ: [[MEM_TY:%.+]] = type { [128 x i8] }
	// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer			// SEQ-DAG: [[SHARED_GLOBAL_RD:@.+]] = weak addrspace(3) global [[MEM_TY]] undef
	// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null			// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* undef
	// SEQ-DAG: [[KERNEL_SIZE1:@.+]] = internal unnamed_addr constant i{{64\|32}} 4			// SEQ-DAG: [[KERNEL_SIZE1:@.+]] = internal unnamed_addr constant i{{64\|32}} 4
	// SEQ-DAG: [[KERNEL_SIZE2:@.+]] = internal unnamed_addr constant i{{64\|32}} {{8\|4}}			// SEQ-DAG: [[KERNEL_SIZE2:@.+]] = internal unnamed_addr constant i{{64\|32}} {{8\|4}}
	// SEQ-DAG: [[KERNEL_SHARED1:@.+]] = internal unnamed_addr constant i16 1			// SEQ-DAG: [[KERNEL_SHARED1:@.+]] = internal unnamed_addr constant i16 1
	// SEQ-DAG: [[KERNEL_SHARED2:@.+]] = internal unnamed_addr constant i16 1			// SEQ-DAG: [[KERNEL_SHARED2:@.+]] = internal unnamed_addr constant i16 1

	// only nvptx side: do not outline teams region and do not call fork_teams			// only nvptx side: do not outline teams region and do not call fork_teams
	// CK1: define {{.*}}void @{{[^,]+}}(i{{[0-9]+}} [[ARGC:%.+]])			// CK1: define {{.*}}void @{{[^,]+}}(i{{[0-9]+}} [[ARGC:%.+]])
	// CK1: [[ARGCADDR:%.+]] = alloca i{{[0-9]+}},			// CK1: [[ARGCADDR:%.+]] = alloca i{{[0-9]+}},
	▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines
	#pragma omp teams num_teams(a) thread_limit(b)			#pragma omp teams num_teams(a) thread_limit(b)
	{			{
	argc = 0;			argc = 0;
	}			}
	return tmain(argv);			return tmain(argv);
	}			}

	// SEQ2: [[MEM_TY:%.+]] = type { [128 x i8] }			// SEQ2: [[MEM_TY:%.+]] = type { [128 x i8] }
	// SEQ2-DAG: [[SHARED_GLOBAL_RD:@.+]] = common addrspace(3) global [[MEM_TY]] zeroinitializer			// SEQ2-DAG: [[SHARED_GLOBAL_RD:@.+]] = weak addrspace(3) global [[MEM_TY]] undef
	// SEQ2-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* null			// SEQ2-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* undef
	// SEQ2-DAG: [[KERNEL_SIZE1:@.+]] = internal unnamed_addr constant i{{64\|32}} 4			// SEQ2-DAG: [[KERNEL_SIZE1:@.+]] = internal unnamed_addr constant i{{64\|32}} 4
	// SEQ2-DAG: [[KERNEL_SIZE2:@.+]] = internal unnamed_addr constant i{{64\|32}} {{8\|4}}			// SEQ2-DAG: [[KERNEL_SIZE2:@.+]] = internal unnamed_addr constant i{{64\|32}} {{8\|4}}
	// SEQ2-DAG: [[KERNEL_SHARED1:@.+]] = internal unnamed_addr constant i16 1			// SEQ2-DAG: [[KERNEL_SHARED1:@.+]] = internal unnamed_addr constant i16 1
	// SEQ2-DAG: [[KERNEL_SHARED2:@.+]] = internal unnamed_addr constant i16 1			// SEQ2-DAG: [[KERNEL_SHARED2:@.+]] = internal unnamed_addr constant i16 1

	// CK2: define {{.*}}void @{{[^,]+}}(i{{[0-9]+}} [[A_IN:%.+]], i{{[0-9]+}} [[B_IN:%.+]], i{{[0-9]+}} [[ARGC_IN:.+]])			// CK2: define {{.*}}void @{{[^,]+}}(i{{[0-9]+}} [[A_IN:%.+]], i{{[0-9]+}} [[B_IN:%.+]], i{{[0-9]+}} [[ARGC_IN:.+]])
	// CK2: [[AADDR:%.+]] = alloca i{{[0-9]+}},			// CK2: [[AADDR:%.+]] = alloca i{{[0-9]+}},
	// CK2: [[BADDR:%.+]] = alloca i{{[0-9]+}},			// CK2: [[BADDR:%.+]] = alloca i{{[0-9]+}},
	▲ Show 20 Lines • Show All 53 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_teams_reduction_codegen.cpp

Show All 18 Lines

// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* undef		// SEQ-DAG: [[KERNEL_PTR:@.+]] = internal addrspace(3) global i8* undef
// SEQ-DAG: [[KERNEL_SHARED1:@.+]] = internal unnamed_addr constant i16 1		// SEQ-DAG: [[KERNEL_SHARED1:@.+]] = internal unnamed_addr constant i16 1
// SEQ-DAG: [[KERNEL_SHARED2:@.+]] = internal unnamed_addr constant i16 1		// SEQ-DAG: [[KERNEL_SHARED2:@.+]] = internal unnamed_addr constant i16 1
// SEQ-DAG: [[KERNEL_SIZE1:@.+]] = internal unnamed_addr constant i{{64\|32}} {{16\|8}}		// SEQ-DAG: [[KERNEL_SIZE1:@.+]] = internal unnamed_addr constant i{{64\|32}} {{16\|8}}
// SEQ-DAG: [[KERNEL_SIZE2:@.+]] = internal unnamed_addr constant i{{64\|32}} 16		// SEQ-DAG: [[KERNEL_SIZE2:@.+]] = internal unnamed_addr constant i{{64\|32}} 16

// Check for the data transfer medium in shared memory to transfer the reduction list to the first warp.		// Check for the data transfer medium in shared memory to transfer the reduction list to the first warp.
// CHECK-DAG: [[TRANSFER_STORAGE:@.+]] = internal addrspace([[SHARED_ADDRSPACE:[0-9]+]]) global [32 x i32]		// CHECK-DAG: [[TRANSFER_STORAGE:@.+]] = weak addrspace([[SHARED_ADDRSPACE:[0-9]+]]) global [32 x i32]

// Check that the execution mode of 2 target regions is set to Non-SPMD and the 3rd is in SPMD.		// Check that the execution mode of 2 target regions is set to Non-SPMD and the 3rd is in SPMD.
// CHECK-DAG: {{@__omp_offloading_.+l44}}_exec_mode = weak constant i8 1		// CHECK-DAG: {{@__omp_offloading_.+l44}}_exec_mode = weak constant i8 1
// CHECK-DAG: {{@__omp_offloading_.+l50}}_exec_mode = weak constant i8 1		// CHECK-DAG: {{@__omp_offloading_.+l50}}_exec_mode = weak constant i8 1
// CHECK-DAG: {{@__omp_offloading_.+l57}}_exec_mode = weak constant i8 0		// CHECK-DAG: {{@__omp_offloading_.+l57}}_exec_mode = weak constant i8 0

// CHECK-DAG: [[TEAMS_RED_BUFFER:@.+]] = internal global [[TEAMS_REDUCE_UNION_TY]] zeroinitializer		// CHECK-DAG: [[TEAMS_RED_BUFFER:@.+]] = internal global [[TEAMS_REDUCE_UNION_TY]] zeroinitializer

▲ Show 20 Lines • Show All 179 Lines • ▼ Show 20 Lines	int bar(int n){
// CHECK: br i1 [[IS_WARP_MASTER]], label {{%?}}[[DO_COPY:.+]], label {{%?}}[[COPY_ELSE:.+]]		// CHECK: br i1 [[IS_WARP_MASTER]], label {{%?}}[[DO_COPY:.+]], label {{%?}}[[COPY_ELSE:.+]]
//		//
// [[DO_COPY]]		// [[DO_COPY]]
// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [1 x i8], [1 x i8]* [[RED_LIST]], i{{32\|64}} 0, i{{32\|64}} 0		// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [1 x i8], [1 x i8]* [[RED_LIST]], i{{32\|64}} 0, i{{32\|64}} 0
// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],		// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],
// CHECK: [[BASE_ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i32*		// CHECK: [[BASE_ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i32*
// CHECK: [[ELT:%.+]] = getelementptr i32, i32* [[BASE_ELT]], i32 [[CNT]]		// CHECK: [[ELT:%.+]] = getelementptr i32, i32* [[BASE_ELT]], i32 [[CNT]]
//		//
// CHECK: [[MEDIUM_ELT:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE:@.+]], i64 0, i32 [[WARPID]]		// CHECK: [[MEDIUM_ELT:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE]], i64 0, i32 [[WARPID]]
// CHECK: [[ELT_VAL:%.+]] = load i32, i32* [[ELT]],		// CHECK: [[ELT_VAL:%.+]] = load i32, i32* [[ELT]],
// CHECK: store volatile i32 [[ELT_VAL]], i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]],		// CHECK: store volatile i32 [[ELT_VAL]], i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]],
// CHECK: br label {{%?}}[[COPY_CONT:.+]]		// CHECK: br label {{%?}}[[COPY_CONT:.+]]
//		//
// CHECK: [[COPY_ELSE]]		// CHECK: [[COPY_ELSE]]
// CHECK: br label {{%?}}[[COPY_CONT]]		// CHECK: br label {{%?}}[[COPY_CONT]]
//		//
// Barrier after copy to shared memory storage medium.		// Barrier after copy to shared memory storage medium.
// CHECK: [[COPY_CONT]]		// CHECK: [[COPY_CONT]]
// CHECK: call void @__kmpc_barrier(%struct.ident_t* @		// CHECK: call void @__kmpc_barrier(%struct.ident_t* @
// CHECK: [[ACTIVE_WARPS:%.+]] = load i32, i32*		// CHECK: [[ACTIVE_WARPS:%.+]] = load i32, i32*
//		//
// Read into warp 0.		// Read into warp 0.
// CHECK: [[IS_W0_ACTIVE_THREAD:%.+]] = icmp ult i32 [[TID:%.+]], [[ACTIVE_WARPS]]		// CHECK: [[IS_W0_ACTIVE_THREAD:%.+]] = icmp ult i32 [[TID:%.+]], [[ACTIVE_WARPS]]
// CHECK: br i1 [[IS_W0_ACTIVE_THREAD]], label {{%?}}[[DO_READ:.+]], label {{%?}}[[READ_ELSE:.+]]		// CHECK: br i1 [[IS_W0_ACTIVE_THREAD]], label {{%?}}[[DO_READ:.+]], label {{%?}}[[READ_ELSE:.+]]
//		//
// CHECK: [[DO_READ]]		// CHECK: [[DO_READ]]
// CHECK: [[MEDIUM_ELT:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE:@.+]], i64 0, i32 [[TID]]		// CHECK: [[MEDIUM_ELT:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE]], i64 0, i32 [[TID]]
// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [1 x i8], [1 x i8]* [[RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 0		// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [1 x i8], [1 x i8]* [[RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 0
// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],		// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],
// CHECK: [[ELT_BASE:%.+]] = bitcast i8* [[ELT_VOID]] to i32*		// CHECK: [[ELT_BASE:%.+]] = bitcast i8* [[ELT_VOID]] to i32*
// CHECK: [[ELT:%.+]] = getelementptr i32, i32* [[ELT_BASE]], i32 [[CNT]]		// CHECK: [[ELT:%.+]] = getelementptr i32, i32* [[ELT_BASE]], i32 [[CNT]]
// CHECK: [[MEDIUM_ELT_VAL:%.+]] = load volatile i32, i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]],		// CHECK: [[MEDIUM_ELT_VAL:%.+]] = load volatile i32, i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]],
// CHECK: store i32 [[MEDIUM_ELT_VAL]], i32* [[ELT]],		// CHECK: store i32 [[MEDIUM_ELT_VAL]], i32* [[ELT]],
// CHECK: br label {{%?}}[[READ_CONT:.+]]		// CHECK: br label {{%?}}[[READ_CONT:.+]]
//		//
▲ Show 20 Lines • Show All 276 Lines • ▼ Show 20 Lines	int bar(int n){
// CHECK: call void @__kmpc_barrier(%struct.ident_t* @		// CHECK: call void @__kmpc_barrier(%struct.ident_t* @
// CHECK: [[IS_WARP_MASTER:%.+]] = icmp eq i32 [[LANEID]], 0		// CHECK: [[IS_WARP_MASTER:%.+]] = icmp eq i32 [[LANEID]], 0
// CHECK: br i1 [[IS_WARP_MASTER]], label {{%?}}[[DO_COPY:.+]], label {{%?}}[[COPY_ELSE:.+]]		// CHECK: br i1 [[IS_WARP_MASTER]], label {{%?}}[[DO_COPY:.+]], label {{%?}}[[COPY_ELSE:.+]]
//		//
// [[DO_COPY]]		// [[DO_COPY]]
// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [2 x i8], [2 x i8]* [[RED_LIST]], i{{32\|64}} 0, i{{32\|64}} 0		// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [2 x i8], [2 x i8]* [[RED_LIST]], i{{32\|64}} 0, i{{32\|64}} 0
// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],		// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],
//		//
// CHECK: [[MEDIUM_ELT64:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE:@.+]], i64 0, i32 [[WARPID]]		// CHECK: [[MEDIUM_ELT64:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE]], i64 0, i32 [[WARPID]]
// CHECK: [[MEDIUM_ELT:%.+]] = bitcast i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT64]] to i8 addrspace([[SHARED_ADDRSPACE]])*		// CHECK: [[MEDIUM_ELT:%.+]] = bitcast i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT64]] to i8 addrspace([[SHARED_ADDRSPACE]])*
// CHECK: [[ELT_VAL:%.+]] = load i8, i8* [[ELT_VOID]], align		// CHECK: [[ELT_VAL:%.+]] = load i8, i8* [[ELT_VOID]], align
// CHECK: store volatile i8 [[ELT_VAL]], i8 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align		// CHECK: store volatile i8 [[ELT_VAL]], i8 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align
// CHECK: br label {{%?}}[[COPY_CONT:.+]]		// CHECK: br label {{%?}}[[COPY_CONT:.+]]
//		//
// CHECK: [[COPY_ELSE]]		// CHECK: [[COPY_ELSE]]
// CHECK: br label {{%?}}[[COPY_CONT]]		// CHECK: br label {{%?}}[[COPY_CONT]]
//		//
// Barrier after copy to shared memory storage medium.		// Barrier after copy to shared memory storage medium.
// CHECK: [[COPY_CONT]]		// CHECK: [[COPY_CONT]]
// CHECK: call void @__kmpc_barrier(%struct.ident_t* @		// CHECK: call void @__kmpc_barrier(%struct.ident_t* @
// CHECK: [[ACTIVE_WARPS:%.+]] = load i32, i32*		// CHECK: [[ACTIVE_WARPS:%.+]] = load i32, i32*
//		//
// Read into warp 0.		// Read into warp 0.
// CHECK: [[IS_W0_ACTIVE_THREAD:%.+]] = icmp ult i32 [[TID:%.+]], [[ACTIVE_WARPS]]		// CHECK: [[IS_W0_ACTIVE_THREAD:%.+]] = icmp ult i32 [[TID:%.+]], [[ACTIVE_WARPS]]
// CHECK: br i1 [[IS_W0_ACTIVE_THREAD]], label {{%?}}[[DO_READ:.+]], label {{%?}}[[READ_ELSE:.+]]		// CHECK: br i1 [[IS_W0_ACTIVE_THREAD]], label {{%?}}[[DO_READ:.+]], label {{%?}}[[READ_ELSE:.+]]
//		//
// CHECK: [[DO_READ]]		// CHECK: [[DO_READ]]
// CHECK: [[MEDIUM_ELT32:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE:@.+]], i64 0, i32 [[TID]]		// CHECK: [[MEDIUM_ELT32:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE]], i64 0, i32 [[TID]]
// CHECK: [[MEDIUM_ELT:%.+]] = bitcast i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT32]] to i8 addrspace([[SHARED_ADDRSPACE]])*		// CHECK: [[MEDIUM_ELT:%.+]] = bitcast i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT32]] to i8 addrspace([[SHARED_ADDRSPACE]])*
// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [2 x i8], [2 x i8]* [[RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 0		// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [2 x i8], [2 x i8]* [[RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 0
// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],		// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],
// CHECK: [[MEDIUM_ELT_VAL:%.+]] = load volatile i8, i8 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align		// CHECK: [[MEDIUM_ELT_VAL:%.+]] = load volatile i8, i8 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align
// CHECK: store i8 [[MEDIUM_ELT_VAL]], i8* [[ELT_VOID]], align		// CHECK: store i8 [[MEDIUM_ELT_VAL]], i8* [[ELT_VOID]], align
// CHECK: br label {{%?}}[[READ_CONT:.+]]		// CHECK: br label {{%?}}[[READ_CONT:.+]]
//		//
// CHECK: [[READ_ELSE]]		// CHECK: [[READ_ELSE]]
// CHECK: br label {{%?}}[[READ_CONT]]		// CHECK: br label {{%?}}[[READ_CONT]]
//		//
// CHECK: [[READ_CONT]]		// CHECK: [[READ_CONT]]
// CHECK: call void @__kmpc_barrier(%struct.ident_t* @		// CHECK: call void @__kmpc_barrier(%struct.ident_t* @
// CHECK: [[IS_WARP_MASTER:%.+]] = icmp eq i32 [[LANEID]], 0		// CHECK: [[IS_WARP_MASTER:%.+]] = icmp eq i32 [[LANEID]], 0
// CHECK: br i1 [[IS_WARP_MASTER]], label {{%?}}[[DO_COPY:.+]], label {{%?}}[[COPY_ELSE:.+]]		// CHECK: br i1 [[IS_WARP_MASTER]], label {{%?}}[[DO_COPY:.+]], label {{%?}}[[COPY_ELSE:.+]]
//		//
// [[DO_COPY]]		// [[DO_COPY]]
// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [2 x i8], [2 x i8]* [[RED_LIST]], i{{32\|64}} 0, i{{32\|64}} 1		// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [2 x i8], [2 x i8]* [[RED_LIST]], i{{32\|64}} 0, i{{32\|64}} 1
// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],		// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],
// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i32*		// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i32*
//		//
// CHECK: [[MEDIUM_ELT:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE:@.+]], i64 0, i32 [[WARPID]]		// CHECK: [[MEDIUM_ELT:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE]], i64 0, i32 [[WARPID]]
// CHECK: [[ELT_VAL:%.+]] = load i32, i32* [[ELT]], align		// CHECK: [[ELT_VAL:%.+]] = load i32, i32* [[ELT]], align
// CHECK: store volatile i32 [[ELT_VAL]], i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align		// CHECK: store volatile i32 [[ELT_VAL]], i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align
// CHECK: br label {{%?}}[[COPY_CONT:.+]]		// CHECK: br label {{%?}}[[COPY_CONT:.+]]
//		//
// CHECK: [[COPY_ELSE]]		// CHECK: [[COPY_ELSE]]
// CHECK: br label {{%?}}[[COPY_CONT]]		// CHECK: br label {{%?}}[[COPY_CONT]]
//		//
// Barrier after copy to shared memory storage medium.		// Barrier after copy to shared memory storage medium.
// CHECK: [[COPY_CONT]]		// CHECK: [[COPY_CONT]]
// CHECK: call void @__kmpc_barrier(%struct.ident_t* @		// CHECK: call void @__kmpc_barrier(%struct.ident_t* @
// CHECK: [[ACTIVE_WARPS:%.+]] = load i32, i32*		// CHECK: [[ACTIVE_WARPS:%.+]] = load i32, i32*
//		//
// Read into warp 0.		// Read into warp 0.
// CHECK: [[IS_W0_ACTIVE_THREAD:%.+]] = icmp ult i32 [[TID:%.+]], [[ACTIVE_WARPS]]		// CHECK: [[IS_W0_ACTIVE_THREAD:%.+]] = icmp ult i32 [[TID:%.+]], [[ACTIVE_WARPS]]
// CHECK: br i1 [[IS_W0_ACTIVE_THREAD]], label {{%?}}[[DO_READ:.+]], label {{%?}}[[READ_ELSE:.+]]		// CHECK: br i1 [[IS_W0_ACTIVE_THREAD]], label {{%?}}[[DO_READ:.+]], label {{%?}}[[READ_ELSE:.+]]
//		//
// CHECK: [[DO_READ]]		// CHECK: [[DO_READ]]
// CHECK: [[MEDIUM_ELT:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE:@.+]], i64 0, i32 [[TID]]		// CHECK: [[MEDIUM_ELT:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE]], i64 0, i32 [[TID]]
// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [2 x i8], [2 x i8]* [[RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 1		// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [2 x i8], [2 x i8]* [[RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 1
// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],		// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],
// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i32*		// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i32*
// CHECK: [[MEDIUM_ELT_VAL:%.+]] = load volatile i32, i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align		// CHECK: [[MEDIUM_ELT_VAL:%.+]] = load volatile i32, i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align
// CHECK: store i32 [[MEDIUM_ELT_VAL]], i32* [[ELT]], align		// CHECK: store i32 [[MEDIUM_ELT_VAL]], i32* [[ELT]], align
// CHECK: br label {{%?}}[[READ_CONT:.+]]		// CHECK: br label {{%?}}[[READ_CONT:.+]]
//		//
// CHECK: [[READ_ELSE]]		// CHECK: [[READ_ELSE]]
▲ Show 20 Lines • Show All 376 Lines • ▼ Show 20 Lines	int bar(int n){
// CHECK: [[IS_WARP_MASTER:%.+]] = icmp eq i32 [[LANEID]], 0		// CHECK: [[IS_WARP_MASTER:%.+]] = icmp eq i32 [[LANEID]], 0
// CHECK: br i1 [[IS_WARP_MASTER]], label {{%?}}[[DO_COPY:.+]], label {{%?}}[[COPY_ELSE:.+]]		// CHECK: br i1 [[IS_WARP_MASTER]], label {{%?}}[[DO_COPY:.+]], label {{%?}}[[COPY_ELSE:.+]]
//		//
// [[DO_COPY]]		// [[DO_COPY]]
// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST]], i[[SZ]] 0, i[[SZ]] 0		// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST]], i[[SZ]] 0, i[[SZ]] 0
// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],		// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],
// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i32*		// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i32*
//		//
// CHECK: [[MEDIUM_ELT:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE:@.+]], i64 0, i32 [[WARPID]]		// CHECK: [[MEDIUM_ELT:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE]], i64 0, i32 [[WARPID]]
// CHECK: [[ELT_VAL:%.+]] = load i32, i32* [[ELT]], align		// CHECK: [[ELT_VAL:%.+]] = load i32, i32* [[ELT]], align
// CHECK: store volatile i32 [[ELT_VAL]], i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align		// CHECK: store volatile i32 [[ELT_VAL]], i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align
// CHECK: br label {{%?}}[[COPY_CONT:.+]]		// CHECK: br label {{%?}}[[COPY_CONT:.+]]
//		//
// CHECK: [[COPY_ELSE]]		// CHECK: [[COPY_ELSE]]
// CHECK: br label {{%?}}[[COPY_CONT]]		// CHECK: br label {{%?}}[[COPY_CONT]]
//		//
// Barrier after copy to shared memory storage medium.		// Barrier after copy to shared memory storage medium.
// CHECK: [[COPY_CONT]]		// CHECK: [[COPY_CONT]]
// CHECK: call void @__kmpc_barrier(%struct.ident_t* @		// CHECK: call void @__kmpc_barrier(%struct.ident_t* @
// CHECK: [[ACTIVE_WARPS:%.+]] = load i32, i32*		// CHECK: [[ACTIVE_WARPS:%.+]] = load i32, i32*
//		//
// Read into warp 0.		// Read into warp 0.
// CHECK: [[IS_W0_ACTIVE_THREAD:%.+]] = icmp ult i32 [[TID:%.+]], [[ACTIVE_WARPS]]		// CHECK: [[IS_W0_ACTIVE_THREAD:%.+]] = icmp ult i32 [[TID:%.+]], [[ACTIVE_WARPS]]
// CHECK: br i1 [[IS_W0_ACTIVE_THREAD]], label {{%?}}[[DO_READ:.+]], label {{%?}}[[READ_ELSE:.+]]		// CHECK: br i1 [[IS_W0_ACTIVE_THREAD]], label {{%?}}[[DO_READ:.+]], label {{%?}}[[READ_ELSE:.+]]
//		//
// CHECK: [[DO_READ]]		// CHECK: [[DO_READ]]
// CHECK: [[MEDIUM_ELT:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE:@.+]], i64 0, i32 [[TID]]		// CHECK: [[MEDIUM_ELT:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE]], i64 0, i32 [[TID]]
// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST:%.+]], i[[SZ]] 0, i[[SZ]] 0		// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST:%.+]], i[[SZ]] 0, i[[SZ]] 0
// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],		// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],
// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i32*		// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i32*
// CHECK: [[MEDIUM_ELT_VAL:%.+]] = load volatile i32, i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align		// CHECK: [[MEDIUM_ELT_VAL:%.+]] = load volatile i32, i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align
// CHECK: store i32 [[MEDIUM_ELT_VAL]], i32* [[ELT]], align		// CHECK: store i32 [[MEDIUM_ELT_VAL]], i32* [[ELT]], align
// CHECK: br label {{%?}}[[READ_CONT:.+]]		// CHECK: br label {{%?}}[[READ_CONT:.+]]
//		//
// CHECK: [[READ_ELSE]]		// CHECK: [[READ_ELSE]]
// CHECK: br label {{%?}}[[READ_CONT]]		// CHECK: br label {{%?}}[[READ_CONT]]
//		//
// CHECK: [[READ_CONT]]		// CHECK: [[READ_CONT]]
// CHECK: call void @__kmpc_barrier(%struct.ident_t* @		// CHECK: call void @__kmpc_barrier(%struct.ident_t* @
// CHECK: [[IS_WARP_MASTER:%.+]] = icmp eq i32 [[LANEID]], 0		// CHECK: [[IS_WARP_MASTER:%.+]] = icmp eq i32 [[LANEID]], 0
// CHECK: br i1 [[IS_WARP_MASTER]], label {{%?}}[[DO_COPY:.+]], label {{%?}}[[COPY_ELSE:.+]]		// CHECK: br i1 [[IS_WARP_MASTER]], label {{%?}}[[DO_COPY:.+]], label {{%?}}[[COPY_ELSE:.+]]
//		//
// [[DO_COPY]]		// [[DO_COPY]]
// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST]], i[[SZ]] 0, i[[SZ]] 1		// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST]], i[[SZ]] 0, i[[SZ]] 1
// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],		// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],
// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i16*		// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i16*
//		//
// CHECK: [[MEDIUM_ELT32:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE:@.+]], i64 0, i32 [[WARPID]]		// CHECK: [[MEDIUM_ELT32:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE]], i64 0, i32 [[WARPID]]
// CHECK: [[MEDIUM_ELT:%.+]] = bitcast i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT32]] to i16 addrspace([[SHARED_ADDRSPACE]])*		// CHECK: [[MEDIUM_ELT:%.+]] = bitcast i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT32]] to i16 addrspace([[SHARED_ADDRSPACE]])*
// CHECK: [[ELT_VAL:%.+]] = load i16, i16* [[ELT]], align		// CHECK: [[ELT_VAL:%.+]] = load i16, i16* [[ELT]], align
// CHECK: store volatile i16 [[ELT_VAL]], i16 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align		// CHECK: store volatile i16 [[ELT_VAL]], i16 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align
// CHECK: br label {{%?}}[[COPY_CONT:.+]]		// CHECK: br label {{%?}}[[COPY_CONT:.+]]
//		//
// CHECK: [[COPY_ELSE]]		// CHECK: [[COPY_ELSE]]
// CHECK: br label {{%?}}[[COPY_CONT]]		// CHECK: br label {{%?}}[[COPY_CONT]]
//		//
// Barrier after copy to shared memory storage medium.		// Barrier after copy to shared memory storage medium.
// CHECK: [[COPY_CONT]]		// CHECK: [[COPY_CONT]]
// CHECK: call void @__kmpc_barrier(%struct.ident_t* @		// CHECK: call void @__kmpc_barrier(%struct.ident_t* @
// CHECK: [[ACTIVE_WARPS:%.+]] = load i32, i32*		// CHECK: [[ACTIVE_WARPS:%.+]] = load i32, i32*
//		//
// Read into warp 0.		// Read into warp 0.
// CHECK: [[IS_W0_ACTIVE_THREAD:%.+]] = icmp ult i32 [[TID:%.+]], [[ACTIVE_WARPS]]		// CHECK: [[IS_W0_ACTIVE_THREAD:%.+]] = icmp ult i32 [[TID:%.+]], [[ACTIVE_WARPS]]
// CHECK: br i1 [[IS_W0_ACTIVE_THREAD]], label {{%?}}[[DO_READ:.+]], label {{%?}}[[READ_ELSE:.+]]		// CHECK: br i1 [[IS_W0_ACTIVE_THREAD]], label {{%?}}[[DO_READ:.+]], label {{%?}}[[READ_ELSE:.+]]
//		//
// CHECK: [[DO_READ]]		// CHECK: [[DO_READ]]
// CHECK: [[MEDIUM_ELT32:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE:@.+]], i64 0, i32 [[TID]]		// CHECK: [[MEDIUM_ELT32:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE]], i64 0, i32 [[TID]]
// CHECK: [[MEDIUM_ELT:%.+]] = bitcast i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT32]] to i16 addrspace([[SHARED_ADDRSPACE]])*		// CHECK: [[MEDIUM_ELT:%.+]] = bitcast i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT32]] to i16 addrspace([[SHARED_ADDRSPACE]])*
// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST:%.+]], i[[SZ]] 0, i[[SZ]] 1		// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST:%.+]], i[[SZ]] 0, i[[SZ]] 1
// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],		// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],
// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i16*		// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i16*
// CHECK: [[MEDIUM_ELT_VAL:%.+]] = load volatile i16, i16 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align		// CHECK: [[MEDIUM_ELT_VAL:%.+]] = load volatile i16, i16 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align
// CHECK: store i16 [[MEDIUM_ELT_VAL]], i16* [[ELT]], align		// CHECK: store i16 [[MEDIUM_ELT_VAL]], i16* [[ELT]], align
// CHECK: br label {{%?}}[[READ_CONT:.+]]		// CHECK: br label {{%?}}[[READ_CONT:.+]]
//		//
▲ Show 20 Lines • Show All 159 Lines • ▼ Show 20 Lines
// CHECK: [[IS_WARP_MASTER:%.+]] = icmp eq i32 [[LANEID]], 0		// CHECK: [[IS_WARP_MASTER:%.+]] = icmp eq i32 [[LANEID]], 0
// CHECK: br i1 [[IS_WARP_MASTER]], label {{%?}}[[DO_COPY:.+]], label {{%?}}[[COPY_ELSE:.+]]		// CHECK: br i1 [[IS_WARP_MASTER]], label {{%?}}[[DO_COPY:.+]], label {{%?}}[[COPY_ELSE:.+]]
//		//
// [[DO_COPY]]		// [[DO_COPY]]
// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST]], i{{32\|64}} 0, i{{32\|64}} 0		// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST]], i{{32\|64}} 0, i{{32\|64}} 0
// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],		// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],
// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i32*		// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i32*
//		//
// CHECK: [[MEDIUM_ELT:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE:@.+]], i64 0, i32 [[WARPID]]		// CHECK: [[MEDIUM_ELT:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE]], i64 0, i32 [[WARPID]]
// CHECK: [[ELT_VAL:%.+]] = load i32, i32* [[ELT]], align		// CHECK: [[ELT_VAL:%.+]] = load i32, i32* [[ELT]], align
// CHECK: store volatile i32 [[ELT_VAL]], i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align		// CHECK: store volatile i32 [[ELT_VAL]], i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align
// CHECK: br label {{%?}}[[COPY_CONT:.+]]		// CHECK: br label {{%?}}[[COPY_CONT:.+]]
//		//
// CHECK: [[COPY_ELSE]]		// CHECK: [[COPY_ELSE]]
// CHECK: br label {{%?}}[[COPY_CONT]]		// CHECK: br label {{%?}}[[COPY_CONT]]
//		//
// Barrier after copy to shared memory storage medium.		// Barrier after copy to shared memory storage medium.
// CHECK: [[COPY_CONT]]		// CHECK: [[COPY_CONT]]
// CHECK: call void @__kmpc_barrier(%struct.ident_t* @		// CHECK: call void @__kmpc_barrier(%struct.ident_t* @
// CHECK: [[ACTIVE_WARPS:%.+]] = load i32, i32*		// CHECK: [[ACTIVE_WARPS:%.+]] = load i32, i32*
//		//
// Read into warp 0.		// Read into warp 0.
// CHECK: [[IS_W0_ACTIVE_THREAD:%.+]] = icmp ult i32 [[TID:%.+]], [[ACTIVE_WARPS]]		// CHECK: [[IS_W0_ACTIVE_THREAD:%.+]] = icmp ult i32 [[TID:%.+]], [[ACTIVE_WARPS]]
// CHECK: br i1 [[IS_W0_ACTIVE_THREAD]], label {{%?}}[[DO_READ:.+]], label {{%?}}[[READ_ELSE:.+]]		// CHECK: br i1 [[IS_W0_ACTIVE_THREAD]], label {{%?}}[[DO_READ:.+]], label {{%?}}[[READ_ELSE:.+]]
//		//
// CHECK: [[DO_READ]]		// CHECK: [[DO_READ]]
// CHECK: [[MEDIUM_ELT:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE:@.+]], i64 0, i32 [[TID]]		// CHECK: [[MEDIUM_ELT:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE]], i64 0, i32 [[TID]]
// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 0		// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 0
// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],		// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],
// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i32*		// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i32*
// CHECK: [[MEDIUM_ELT_VAL:%.+]] = load volatile i32, i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align		// CHECK: [[MEDIUM_ELT_VAL:%.+]] = load volatile i32, i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align
// CHECK: store i32 [[MEDIUM_ELT_VAL]], i32* [[ELT]], align		// CHECK: store i32 [[MEDIUM_ELT_VAL]], i32* [[ELT]], align
// CHECK: br label {{%?}}[[READ_CONT:.+]]		// CHECK: br label {{%?}}[[READ_CONT:.+]]
//		//
// CHECK: [[READ_ELSE]]		// CHECK: [[READ_ELSE]]
// CHECK: br label {{%?}}[[READ_CONT]]		// CHECK: br label {{%?}}[[READ_CONT]]
//		//
// CHECK: [[READ_CONT]]		// CHECK: [[READ_CONT]]
// CHECK: call void @__kmpc_barrier(%struct.ident_t* @		// CHECK: call void @__kmpc_barrier(%struct.ident_t* @
// CHECK: [[IS_WARP_MASTER:%.+]] = icmp eq i32 [[LANEID]], 0		// CHECK: [[IS_WARP_MASTER:%.+]] = icmp eq i32 [[LANEID]], 0
// CHECK: br i1 [[IS_WARP_MASTER]], label {{%?}}[[DO_COPY:.+]], label {{%?}}[[COPY_ELSE:.+]]		// CHECK: br i1 [[IS_WARP_MASTER]], label {{%?}}[[DO_COPY:.+]], label {{%?}}[[COPY_ELSE:.+]]
//		//
// [[DO_COPY]]		// [[DO_COPY]]
// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST]], i{{32\|64}} 0, i{{32\|64}} 1		// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST]], i{{32\|64}} 0, i{{32\|64}} 1
// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],		// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],
// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i16*		// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i16*
//		//
// CHECK: [[MEDIUM_ELT32:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE:@.+]], i64 0, i32 [[WARPID]]		// CHECK: [[MEDIUM_ELT32:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE]], i64 0, i32 [[WARPID]]
// CHECK: [[MEDIUM_ELT:%.+]] = bitcast i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT32]] to i16 addrspace([[SHARED_ADDRSPACE]])*		// CHECK: [[MEDIUM_ELT:%.+]] = bitcast i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT32]] to i16 addrspace([[SHARED_ADDRSPACE]])*
// CHECK: [[ELT_VAL:%.+]] = load i16, i16* [[ELT]], align		// CHECK: [[ELT_VAL:%.+]] = load i16, i16* [[ELT]], align
// CHECK: store volatile i16 [[ELT_VAL]], i16 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align		// CHECK: store volatile i16 [[ELT_VAL]], i16 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align
// CHECK: br label {{%?}}[[COPY_CONT:.+]]		// CHECK: br label {{%?}}[[COPY_CONT:.+]]
//		//
// CHECK: [[COPY_ELSE]]		// CHECK: [[COPY_ELSE]]
// CHECK: br label {{%?}}[[COPY_CONT]]		// CHECK: br label {{%?}}[[COPY_CONT]]
//		//
// Barrier after copy to shared memory storage medium.		// Barrier after copy to shared memory storage medium.
// CHECK: [[COPY_CONT]]		// CHECK: [[COPY_CONT]]
// CHECK: call void @__kmpc_barrier(%struct.ident_t* @		// CHECK: call void @__kmpc_barrier(%struct.ident_t* @
// CHECK: [[ACTIVE_WARPS:%.+]] = load i32, i32*		// CHECK: [[ACTIVE_WARPS:%.+]] = load i32, i32*
//		//
// Read into warp 0.		// Read into warp 0.
// CHECK: [[IS_W0_ACTIVE_THREAD:%.+]] = icmp ult i32 [[TID:%.+]], [[ACTIVE_WARPS]]		// CHECK: [[IS_W0_ACTIVE_THREAD:%.+]] = icmp ult i32 [[TID:%.+]], [[ACTIVE_WARPS]]
// CHECK: br i1 [[IS_W0_ACTIVE_THREAD]], label {{%?}}[[DO_READ:.+]], label {{%?}}[[READ_ELSE:.+]]		// CHECK: br i1 [[IS_W0_ACTIVE_THREAD]], label {{%?}}[[DO_READ:.+]], label {{%?}}[[READ_ELSE:.+]]
//		//
// CHECK: [[DO_READ]]		// CHECK: [[DO_READ]]
// CHECK: [[MEDIUM_ELT32:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE:@.+]], i64 0, i32 [[TID]]		// CHECK: [[MEDIUM_ELT32:%.+]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace([[SHARED_ADDRSPACE]])* [[TRANSFER_STORAGE]], i64 0, i32 [[TID]]
// CHECK: [[MEDIUM_ELT:%.+]] = bitcast i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT32]] to i16 addrspace([[SHARED_ADDRSPACE]])*		// CHECK: [[MEDIUM_ELT:%.+]] = bitcast i32 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT32]] to i16 addrspace([[SHARED_ADDRSPACE]])*
// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 1		// CHECK: [[ELT_REF:%.+]] = getelementptr inbounds [[RLT]], [[RLT]]* [[RED_LIST:%.+]], i{{32\|64}} 0, i{{32\|64}} 1
// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],		// CHECK: [[ELT_VOID:%.+]] = load i8, i8* [[ELT_REF]],
// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i16*		// CHECK: [[ELT:%.+]] = bitcast i8* [[ELT_VOID]] to i16*
// CHECK: [[MEDIUM_ELT_VAL:%.+]] = load volatile i16, i16 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align		// CHECK: [[MEDIUM_ELT_VAL:%.+]] = load volatile i16, i16 addrspace([[SHARED_ADDRSPACE]])* [[MEDIUM_ELT]], align
// CHECK: store i16 [[MEDIUM_ELT_VAL]], i16* [[ELT]], align		// CHECK: store i16 [[MEDIUM_ELT_VAL]], i16* [[ELT]], align
// CHECK: br label {{%?}}[[READ_CONT:.+]]		// CHECK: br label {{%?}}[[READ_CONT:.+]]
//		//
▲ Show 20 Lines • Show All 115 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[libomptarget][nvptx] Undef, internal shared variablesAbandonedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 301038

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp

clang/test/OpenMP/nvptx_data_sharing.cpp

clang/test/OpenMP/nvptx_distribute_parallel_generic_mode_codegen.cpp

clang/test/OpenMP/nvptx_parallel_codegen.cpp

clang/test/OpenMP/nvptx_parallel_for_codegen.cpp

clang/test/OpenMP/nvptx_target_parallel_reduction_codegen.cpp

clang/test/OpenMP/nvptx_target_teams_distribute_parallel_for_codegen.cpp

clang/test/OpenMP/nvptx_target_teams_distribute_parallel_for_simd_codegen.cpp

clang/test/OpenMP/nvptx_teams_codegen.cpp

clang/test/OpenMP/nvptx_teams_reduction_codegen.cpp

[libomptarget][nvptx] Undef, internal shared variables
AbandonedPublic