This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
clang/
-
lib/CodeGen/
-
CodeGen/
2/4
CGOpenMPRuntimeGPU.cpp
-
test/OpenMP/
-
OpenMP/
-
declare_target_codegen_globalization.cpp
-
nvptx_data_sharing.cpp
-
nvptx_distribute_parallel_generic_mode_codegen.cpp
-
nvptx_parallel_codegen.cpp
-
nvptx_parallel_for_codegen.cpp
-
nvptx_target_codegen.cpp
-
nvptx_target_parallel_reduction_codegen_tbaa_PR46146.cpp
-
nvptx_target_teams_distribute_codegen.cpp
-
nvptx_target_teams_distribute_parallel_for_codegen.cpp
-
nvptx_target_teams_distribute_parallel_for_simd_codegen.cpp
-
nvptx_teams_codegen.cpp
-
nvptx_teams_reduction_codegen.cpp
-
llvm/lib/Transforms/IPO/
-
lib/
-
Transforms/
-
IPO/
1/3
AttributorAttributes.cpp

Differential D115888

[Attributor][Fix] Add alignment return attribute to HeapToStack
ClosedPublic

Authored by jhuber6 on Dec 16 2021, 10:02 AM.

Download Raw Diff

Details

Reviewers

jdoerfert
tianshilei1992
uenoku
homerdin
sstefan1
baziotis
lebedev.ri

Commits

rG38fc89623b3e: [Attributor][Fix] Add alignment return attribute to HeapToStack

Summary

This patch changes the HeapToStack optimization to attach the return alignment
attribute information to the created alloca instruction. This would cause
problems when replacing the heap allocation with an alloca did not respect the
alignment of the original heap allocation, which would typically be aligned on
an 8 or 16 byte boundary. Malloc calls now contain alignment attributes,
so we can use that information here.

Diff Detail

Repository: rG LLVM Github Monorepo

Unit TestsFailed

	Time	Test
	860 ms	x64 debian > AddressSanitizer-x86_64-linux.TestCases::non-executable-pc.cpp
	60 ms	x64 debian > LLVM.Bindings/Go::go.test

Event Timeline

jhuber6 created this revision.Dec 16 2021, 10:02 AM

Herald added a reviewer: uenoku. · View Herald TranscriptDec 16 2021, 10:02 AM

Herald added a reviewer: homerdin. · View Herald Transcript

Herald added subscribers: ormris, okura, kuter and 2 others. · View Herald Transcript

jhuber6 requested review of this revision.Dec 16 2021, 10:02 AM

Herald added a reviewer: sstefan1. · View Herald TranscriptDec 16 2021, 10:02 AM

Herald added a reviewer: baziotis. · View Herald Transcript

Herald added a project: Restricted Project. · View Herald Transcript

Herald added a subscriber: llvm-commits. · View Herald Transcript

Isn't the default alignment is a target dependent attribute?

Shouldn't/can't you query the alignment for that pointer?
Hardcoding anything like this is a sign of a problem.

In D115888#3198139, @lebedev.ri wrote:

Shouldn't/can't you query the alignment for that pointer?
Hardcoding anything like this is a sign of a problem.

I haven't found an interface in LLVM to query default alignment information from malloc. As far as I know, the malloc functions are defined by the GNU documentation to be aligned to 16 on 64-bit systems, and 8 on 32-bit systems and Clang behaves similarly. A more complete solution would be to change the __kmpc_alloc_shared RTL function to be an aligned malloc function. That way in Clang we can just use the natural alignment of the underlying type, or query the target info from there. But I don't think that is explicitly necessary because we just need to mimic the pointer's alignment as it would be from the malloc call since we're replacing it with an alloca. If you know of somewhere I can query the default malloc alignment from within LLVM I can add that, or I can just check the data layout and use the 8 / 16 distinction used in https://www.gnu.org/software/libc/manual/html_node/Aligned-Memory-Blocks.html#Aligned-Memory-Blocks. I'd prefer not to change the OpenMP RTL to include the alignment, as that would change a lot of tests and code for little gain I can see.

In D115888#3198155, @jhuber6 wrote:

In D115888#3198139, @lebedev.ri wrote:

Shouldn't/can't you query the alignment for that pointer?
Hardcoding anything like this is a sign of a problem.

I haven't found an interface in LLVM to query default alignment information from malloc.

I'm talking about attributor's AAAlign attribute here.

This revision now requires changes to proceed.Dec 16 2021, 10:28 AM

In D115888#3198157, @lebedev.ri wrote:

In D115888#3198155, @jhuber6 wrote:

In D115888#3198139, @lebedev.ri wrote:

Shouldn't/can't you query the alignment for that pointer?
Hardcoding anything like this is a sign of a problem.

I haven't found an interface in LLVM to query default alignment information from malloc.

I'm talking about attributor's AAAlign attribute here.

I'm not sure if deriving it is a solution here, considering that we are replacing a runtime call with defined default alignment with an alloca that should always at least match that. I can try using AAAlign to query it, my first thought was to use the element type of the bitcast that always follows the __kmpc_alloc_shared call, but @jdoerfert just told me to just pick whatever the default is when I asked. This issue comes from https://github.com/kokkos/kokkos/issues/4224.

Then i guess you need to basically introduce an interface to do what https://en.cppreference.com/w/cpp/types/max_align_t does, but based on a datalayout.

Harbormaster completed remote builds in B139693: Diff 394915.Dec 16 2021, 11:29 AM

In D115888#3198178, @lebedev.ri wrote:

Then i guess you need to basically introduce an interface to do what https://en.cppreference.com/w/cpp/types/max_align_t does, but based on a datalayout.

Seems reasonable. I know we can query this information from clang, e.g. https://clang.llvm.org/doxygen/classclang_1_1TargetInfo.html#a01403a5106161d4d3cd0c50c43150f89, but I don't think there is an existing string in the data layout to encode this. Will I be adding a new format this? That would be a reasonably large change so I just want to make sure I'm on the right page.

In D115888#3198322, @jhuber6 wrote:

In D115888#3198178, @lebedev.ri wrote:

Then i guess you need to basically introduce an interface to do what https://en.cppreference.com/w/cpp/types/max_align_t does, but based on a datalayout.

Seems reasonable. I know we can query this information from clang, e.g. https://clang.llvm.org/doxygen/classclang_1_1TargetInfo.html#a01403a5106161d4d3cd0c50c43150f89, but I don't think there is an existing string in the data layout to encode this. Will I be adding a new format this? That would be a reasonably large change so I just want to make sure I'm on the right page.

Err, no. I'm simply thinking that datalayout already specifies the primitive [scalar] types, so you should just need to go through them and pick the one with maximal alignment requirement, and pick it.

tschuett added a subscriber: tschuett.Dec 16 2021, 12:04 PM

tschuett added inline comments.

llvm/lib/Transforms/IPO/AttributorAttributes.cpp
5931	Would a comment help to explain what the hard-coded 16 means?

In D115888#3198329, @lebedev.ri wrote:

In D115888#3198322, @jhuber6 wrote:

In D115888#3198178, @lebedev.ri wrote:

Then i guess you need to basically introduce an interface to do what https://en.cppreference.com/w/cpp/types/max_align_t does, but based on a datalayout.

Seems reasonable. I know we can query this information from clang, e.g. https://clang.llvm.org/doxygen/classclang_1_1TargetInfo.html#a01403a5106161d4d3cd0c50c43150f89, but I don't think there is an existing string in the data layout to encode this. Will I be adding a new format this? That would be a reasonably large change so I just want to make sure I'm on the right page.

Err, no. I'm simply thinking that datalayout already specifies the primitive [scalar] types, so you should just need to go through them and pick the one with maximal alignment requirement, and pick it.

The default data layout contains a 128 bit float, so if we just check the maximum alignment we'll always get at least 16, even on 32-bit architectures. I could only consider the ones set explicitly by the data layout string, but doesn't that go against the purpose of the defaults?

In D115888#3198672, @jhuber6 wrote:

In D115888#3198329, @lebedev.ri wrote:

In D115888#3198322, @jhuber6 wrote:

In D115888#3198178, @lebedev.ri wrote:

Then i guess you need to basically introduce an interface to do what https://en.cppreference.com/w/cpp/types/max_align_t does, but based on a datalayout.

Seems reasonable. I know we can query this information from clang, e.g. https://clang.llvm.org/doxygen/classclang_1_1TargetInfo.html#a01403a5106161d4d3cd0c50c43150f89, but I don't think there is an existing string in the data layout to encode this. Will I be adding a new format this? That would be a reasonably large change so I just want to make sure I'm on the right page.

Err, no. I'm simply thinking that datalayout already specifies the primitive [scalar] types, so you should just need to go through them and pick the one with maximal alignment requirement, and pick it.

The default data layout contains a 128 bit float,

For which target/architecture? What happens on other target/architectures?

so if we just check the maximum alignment we'll always get at least 16, even on 32-bit architectures. I could only consider the ones set explicitly by the data layout string, but doesn't that go against the purpose of the defaults?

In D115888#3198696, @lebedev.ri wrote:

For which target/architecture? What happens on other target/architectures?

This is from the documentation on the data layout. It defines the default values used when initializing the data layout. It seems these can only be overridden, and I can't imagine a situation where someone would override it to define a 128 bit float to have 64-bit alignment, so the largest alignment we'll have in the data layout will always be at least 16 bytes.

When constructing the data layout for a given target, LLVM starts with a default set of specifications which are then (possibly) overridden by the specifications in the datalayout keyword. The default specifications are given in this list:

e - little endian
p:64:64:64 - 64-bit pointers with 64-bit alignment.
p[n]:64:64:64 - Other address spaces are assumed to be the same as the default address space.
S0 - natural stack alignment is unspecified
i1:8:8 - i1 is 8-bit (byte) aligned
i8:8:8 - i8 is 8-bit (byte) aligned
i16:16:16 - i16 is 16-bit aligned
i32:32:32 - i32 is 32-bit aligned
i64:32:64 - i64 has ABI alignment of 32-bits but preferred alignment of 64-bits
f16:16:16 - half is 16-bit aligned
f32:32:32 - float is 32-bit aligned
f64:64:64 - double is 64-bit aligned
f128:128:128 - quad is 128-bit aligned
v64:64:64 - 64-bit vector is 64-bit aligned
v128:128:128 - 128-bit vector is 128-bit aligned

I think the most straightforward way to solve this is to add an alignment attribute to the return value when we generate code, then just copy that when we replace it. It'll change some tests but I'll try that.

Changing the method. Adding alignment information to the runtime call and using
it when we create the alloca. I might need to add the alignment information to
the runtime call to make the implementation sound, but I haven't encountered any
problems with the runtime implementation.

Herald added a project: Restricted Project. · View Herald TranscriptDec 16 2021, 4:03 PM

Herald added subscribers: cfe-commits, asavonic. · View Herald Transcript

Harbormaster completed remote builds in B139768: Diff 395023.Dec 16 2021, 4:58 PM

jhuber6 retitled this revision from [Attributor][Fix] Add default alignment to HeapToStack to [Attributor][Fix] Add alignment return attribute to HeapToStack.Dec 17 2021, 8:30 AM

jhuber6 edited the summary of this revision. (Show Details)

jdoerfert added inline comments.Dec 17 2021, 9:47 AM

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp
1411	This doesn't work. If the type alignment is > 8 the stack won't fulfill it unless you modify /// Add worst-case padding so that future allocations are properly aligned. constexpr const uint32_t Alignment = 8; in `openmp/libomptarget/DeviceRTL/src/State.cpp`. The fact that the state has a fixed alignment right now makes it impossible to allocate higher aligned types anyway. Proposal: Add an argument to _alloc_shared that is the alignment as computed above, effecitively making it _alloc_shared_aligned. Modify the stack to actually align the base pointer rather than extend the allocation based on the alignment passed in. Then any type alignment can be handled, including user aligned types.
1475	Not needed. Will cause a warning, no?
llvm/lib/Transforms/IPO/AttributorAttributes.cpp
5940	This is sensible but needs a test. You can even do it without the else for all allocations. With the proposed changes above alloc_shared would also fall into the aligned_alloc case.

I will split this into two revisions, one handling the return alignment attribute in the Attributor, and one adding alignment information to the __kmpc_alloc_shared OpenMP runtime call, turning it into an aligned allocation.

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp
1411	That was an original though, I was hoping to avoid the extra work, but I think this is definitely the only way to solve this reasonably, it might also allow us to use the stack more efficiently. We'll still want this alignment information, but we'll need to inform the runtime of the expected alignment.
1475	Forgot about this, not intended to be included.
llvm/lib/Transforms/IPO/AttributorAttributes.cpp
5940	Yes, we want this regardless because all `malloc` like calls now seem to have alignment attributes, which makes sure we respect the alignment of the original malloc call. I can probably split this into another patch.

Removing OpenMP code, only adding support for return alignments. Fixing OpenMP
will occur in a following patch.

Removing else if, we should be able to check for all allocations.

LG, don't forget to update the commit message.

jhuber6 edited the summary of this revision. (Show Details)Dec 17 2021, 11:45 AM

Harbormaster completed remote builds in B139889: Diff 395187.Dec 17 2021, 12:26 PM

jhuber6 added a child revision: D115971: [OpenMP][FIX] Change globalization alignment to 16.Dec 17 2021, 2:04 PM

Still LG

This revision was not accepted when it landed; it landed in state Needs Review.Dec 27 2021, 1:58 PM

This revision was landed with ongoing or failed builds.

Closed by commit rG38fc89623b3e: [Attributor][Fix] Add alignment return attribute to HeapToStack (authored by jhuber6). · Explain Why

This revision was automatically updated to reflect the committed changes.

jhuber6 added a commit: rG38fc89623b3e: [Attributor][Fix] Add alignment return attribute to HeapToStack.

Revision Contents

Path

Size

clang/

lib/

CodeGen/

CGOpenMPRuntimeGPU.cpp

12 lines

test/

OpenMP/

declare_target_codegen_globalization.cpp

8 lines

nvptx_data_sharing.cpp

4 lines

nvptx_distribute_parallel_generic_mode_codegen.cpp

6 lines

nvptx_parallel_codegen.cpp

4 lines

nvptx_parallel_for_codegen.cpp

2 lines

nvptx_target_codegen.cpp

6 lines

nvptx_target_parallel_reduction_codegen_tbaa_PR46146.cpp

960 lines

nvptx_target_teams_distribute_codegen.cpp

6 lines

nvptx_target_teams_distribute_parallel_for_codegen.cpp

8 lines

nvptx_target_teams_distribute_parallel_for_simd_codegen.cpp

6 lines

nvptx_teams_codegen.cpp

16 lines

nvptx_teams_reduction_codegen.cpp

32 lines

llvm/

lib/

Transforms/

IPO/

AttributorAttributes.cpp

2 lines

Diff 395023

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp

Show First 20 Lines • Show All 1,396 Lines • ▼ Show 20 Lines	for (auto &Rec : I->getSecond().LocalVarData) {
if (EscapedParam) {		if (EscapedParam) {
LValue ParLVal =		LValue ParLVal =
CGF.MakeAddrLValue(CGF.GetAddrOfLocalVar(VD), VD->getType());		CGF.MakeAddrLValue(CGF.GetAddrOfLocalVar(VD), VD->getType());
ParValue = CGF.EmitLoadOfScalar(ParLVal, Loc);		ParValue = CGF.EmitLoadOfScalar(ParLVal, Loc);
}		}

// Allocate space for the variable to be globalized		// Allocate space for the variable to be globalized
llvm::Value *AllocArgs[] = {CGF.getTypeSize(VD->getType())};		llvm::Value *AllocArgs[] = {CGF.getTypeSize(VD->getType())};
llvm::Instruction *VoidPtr =		llvm::CallBase *VoidPtr =
CGF.EmitRuntimeCall(OMPBuilder.getOrCreateRuntimeFunction(		CGF.EmitRuntimeCall(OMPBuilder.getOrCreateRuntimeFunction(
CGM.getModule(), OMPRTL___kmpc_alloc_shared),		CGM.getModule(), OMPRTL___kmpc_alloc_shared),
AllocArgs, VD->getName());		AllocArgs, VD->getName());
		VoidPtr->addRetAttr(llvm::Attribute::get(
		CGM.getLLVMContext(), llvm::Attribute::Alignment,
		CGM.getContext().getTypeAlignInChars(VarTy).getQuantity()));
		jdoerfertUnsubmitted Not Done Reply Inline Actions This doesn't work. If the type alignment is > 8 the stack won't fulfill it unless you modify /// Add worst-case padding so that future allocations are properly aligned. constexpr const uint32_t Alignment = 8; in `openmp/libomptarget/DeviceRTL/src/State.cpp`. The fact that the state has a fixed alignment right now makes it impossible to allocate higher aligned types anyway. Proposal: Add an argument to _alloc_shared that is the alignment as computed above, effecitively making it _alloc_shared_aligned. Modify the stack to actually align the base pointer rather than extend the allocation based on the alignment passed in. Then any type alignment can be handled, including user aligned types. jdoerfert: This doesn't work. If the type alignment is > 8 the stack won't fulfill it unless you modify…
		jhuber6AuthorUnsubmitted Done Reply Inline Actions That was an original though, I was hoping to avoid the extra work, but I think this is definitely the only way to solve this reasonably, it might also allow us to use the stack more efficiently. We'll still want this alignment information, but we'll need to inform the runtime of the expected alignment. jhuber6: That was an original though, I was hoping to avoid the extra work, but I think this is…

// Cast the void pointer and get the address of the globalized variable.		// Cast the void pointer and get the address of the globalized variable.
llvm::PointerType *VarPtrTy = CGF.ConvertTypeForMem(VarTy)->getPointerTo();		llvm::PointerType *VarPtrTy = CGF.ConvertTypeForMem(VarTy)->getPointerTo();
llvm::Value *CastedVoidPtr = Bld.CreatePointerBitCastOrAddrSpaceCast(		llvm::Value *CastedVoidPtr = Bld.CreatePointerBitCastOrAddrSpaceCast(
VoidPtr, VarPtrTy, VD->getName() + "_on_stack");		VoidPtr, VarPtrTy, VD->getName() + "_on_stack");
LValue VarAddr = CGF.MakeNaturalAlignAddrLValue(CastedVoidPtr, VarTy);		LValue VarAddr = CGF.MakeNaturalAlignAddrLValue(CastedVoidPtr, VarTy);
Rec.second.PrivateAddr = VarAddr.getAddress(CGF);		Rec.second.PrivateAddr = VarAddr.getAddress(CGF);
Rec.second.GlobalizedVal = VoidPtr;		Rec.second.GlobalizedVal = VoidPtr;
▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines	if (getDataSharingMode(CGM) != CGOpenMPRuntimeGPU::Generic &&
getExecutionMode() != CGOpenMPRuntimeGPU::EM_SPMD)		getExecutionMode() != CGOpenMPRuntimeGPU::EM_SPMD)
return;		return;

const auto I = FunctionGlobalizedDecls.find(CGF.CurFn);		const auto I = FunctionGlobalizedDecls.find(CGF.CurFn);
if (I != FunctionGlobalizedDecls.end()) {		if (I != FunctionGlobalizedDecls.end()) {
// Deallocate the memory for each globalized VLA object		// Deallocate the memory for each globalized VLA object
for (auto AddrSizePair :		for (auto AddrSizePair :
llvm::reverse(I->getSecond().EscapedVariableLengthDeclsAddrs)) {		llvm::reverse(I->getSecond().EscapedVariableLengthDeclsAddrs)) {
		llvm::CallBase *CB =
CGF.EmitRuntimeCall(OMPBuilder.getOrCreateRuntimeFunction(		CGF.EmitRuntimeCall(OMPBuilder.getOrCreateRuntimeFunction(
CGM.getModule(), OMPRTL___kmpc_free_shared),		CGM.getModule(), OMPRTL___kmpc_free_shared),
{AddrSizePair.first, AddrSizePair.second});		{AddrSizePair.first, AddrSizePair.second});
		jdoerfertUnsubmitted Not Done Reply Inline Actions Not needed. Will cause a warning, no? jdoerfert: Not needed. Will cause a warning, no?
		jhuber6AuthorUnsubmitted Done Reply Inline Actions Forgot about this, not intended to be included. jhuber6: Forgot about this, not intended to be included.
}		}
// Deallocate the memory for each globalized value		// Deallocate the memory for each globalized value
for (auto &Rec : llvm::reverse(I->getSecond().LocalVarData)) {		for (auto &Rec : llvm::reverse(I->getSecond().LocalVarData)) {
const auto *VD = cast<VarDecl>(Rec.first);		const auto *VD = cast<VarDecl>(Rec.first);
I->getSecond().MappedParams->restore(CGF);		I->getSecond().MappedParams->restore(CGF);

llvm::Value *FreeArgs[] = {Rec.second.GlobalizedVal,		llvm::Value *FreeArgs[] = {Rec.second.GlobalizedVal,
CGF.getTypeSize(VD->getType())};		CGF.getTypeSize(VD->getType())};
▲ Show 20 Lines • Show All 2,500 Lines • Show Last 20 Lines

clang/test/OpenMP/declare_target_codegen_globalization.cpp

	Show First 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	// CHECK1-NEXT: [[A_ADDR:%.]] = alloca i32, align 8			// CHECK1-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
	// CHECK1-NEXT: [[B:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[B:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8			// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
	// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8			// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
	// CHECK1-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8			// CHECK1-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
	// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8			// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8
	// CHECK1-NEXT: [[CALL:%.]] = call i32 @_Z3fooRi(i32 nonnull align 4 dereferenceable(4) [[B]]) #[[ATTR4:[0-9]+]]			// CHECK1-NEXT: [[CALL:%.]] = call i32 @_Z3fooRi(i32 nonnull align 4 dereferenceable(4) [[B]]) #[[ATTR6:[0-9]+]]
	// CHECK1-NEXT: [[CALL1:%.*]] = call i32 @_Z3barv() #[[ATTR4]]			// CHECK1-NEXT: [[CALL1:%.*]] = call i32 @_Z3barv() #[[ATTR6]]
	// CHECK1-NEXT: [[ADD:%.*]] = add nsw i32 [[CALL]], [[CALL1]]			// CHECK1-NEXT: [[ADD:%.*]] = add nsw i32 [[CALL]], [[CALL1]]
	// CHECK1-NEXT: store i32 [[ADD]], i32* [[TMP0]], align 4			// CHECK1-NEXT: store i32 [[ADD]], i32* [[TMP0]], align 4
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@_Z3fooRi			// CHECK1-LABEL: define {{[^@]+}}@_Z3fooRi
	// CHECK1-SAME: (i32* nonnull align 4 dereferenceable(4) [[A:%.*]]) #[[ATTR2:[0-9]+]] {			// CHECK1-SAME: (i32* nonnull align 4 dereferenceable(4) [[A:%.*]]) #[[ATTR2:[0-9]+]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[A_ADDR:%.]] = alloca i32, align 8			// CHECK1-NEXT: [[A_ADDR:%.]] = alloca i32, align 8
	// CHECK1-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8			// CHECK1-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
	// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8			// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[A_ADDR]], align 8
	// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32 [[TMP0]], align 4			// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32 [[TMP0]], align 4
	// CHECK1-NEXT: ret i32 [[TMP1]]			// CHECK1-NEXT: ret i32 [[TMP1]]
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@_Z3barv			// CHECK1-LABEL: define {{[^@]+}}@_Z3barv
	// CHECK1-SAME: () #[[ATTR2]] {			// CHECK1-SAME: () #[[ATTR2]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[A:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK1-NEXT: [[A:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK1-NEXT: [[A_ON_STACK:%.]] = bitcast i8 [[A]] to i32*			// CHECK1-NEXT: [[A_ON_STACK:%.]] = bitcast i8 [[A]] to i32*
	// CHECK1-NEXT: [[CALL:%.]] = call i32 @_Z3fooRi(i32 nonnull align 4 dereferenceable(4) [[A_ON_STACK]]) #[[ATTR4]]			// CHECK1-NEXT: [[CALL:%.]] = call i32 @_Z3fooRi(i32 nonnull align 4 dereferenceable(4) [[A_ON_STACK]]) #[[ATTR6]]
	// CHECK1-NEXT: call void @__kmpc_free_shared(i8* [[A]], i64 4)			// CHECK1-NEXT: call void @__kmpc_free_shared(i8* [[A]], i64 4)
	// CHECK1-NEXT: ret i32 [[CALL]]			// CHECK1-NEXT: ret i32 [[CALL]]
	//			//

clang/test/OpenMP/nvptx_data_sharing.cpp

	Show First 20 Lines • Show All 391 Lines • ▼ Show 20 Lines
	// CHECK-NEXT: entry:			// CHECK-NEXT: entry:
	// CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8			// CHECK-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
	// CHECK-NEXT: [[C:%.*]] = alloca i32, align 4			// CHECK-NEXT: [[C:%.*]] = alloca i32, align 4
	// CHECK-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [2 x i8], align 8			// CHECK-NEXT: [[CAPTURED_VARS_ADDRS1:%.]] = alloca [2 x i8], align 8
	// CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i8 1, i1 true, i1 true)			// CHECK-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i8 1, i1 true, i1 true)
	// CHECK-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			// CHECK-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	// CHECK-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK: user_code.entry:			// CHECK: user_code.entry:
	// CHECK-NEXT: [[A:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK-NEXT: [[A:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK-NEXT: [[A_ON_STACK:%.]] = bitcast i8 [[A]] to i32*			// CHECK-NEXT: [[A_ON_STACK:%.]] = bitcast i8 [[A]] to i32*
	// CHECK-NEXT: [[B:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK-NEXT: [[B:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK-NEXT: [[B_ON_STACK:%.]] = bitcast i8 [[B]] to i32*			// CHECK-NEXT: [[B_ON_STACK:%.]] = bitcast i8 [[B]] to i32*
	// CHECK-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK-NEXT: [[TMP1:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK-NEXT: store i32 10, i32* [[A_ON_STACK]], align 4			// CHECK-NEXT: store i32 10, i32* [[A_ON_STACK]], align 4
	// CHECK-NEXT: [[TMP2:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0			// CHECK-NEXT: [[TMP2:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
	// CHECK-NEXT: [[TMP3:%.]] = bitcast i32 [[A_ON_STACK]] to i8*			// CHECK-NEXT: [[TMP3:%.]] = bitcast i32 [[A_ON_STACK]] to i8*
	// CHECK-NEXT: store i8* [[TMP3]], i8** [[TMP2]], align 8			// CHECK-NEXT: store i8* [[TMP3]], i8** [[TMP2]], align 8
	// CHECK-NEXT: [[TMP4:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			// CHECK-NEXT: [[TMP4:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	// CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP1]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32) @__omp_outlined__ to i8), i8 bitcast (void (i16, i32)* @__omp_outlined___wrapper to i8), i8* [[TMP4]], i64 1)			// CHECK-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP1]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32) @__omp_outlined__ to i8), i8 bitcast (void (i16, i32)* @__omp_outlined___wrapper to i8), i8* [[TMP4]], i64 1)
	▲ Show 20 Lines • Show All 94 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_distribute_parallel_generic_mode_codegen.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 3,040 Lines • ▼ Show 20 Lines
	// CHECK4-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8			// CHECK4-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 8
	// CHECK4-NEXT: store i64 [[ARGC]], i64* [[ARGC_ADDR]], align 8			// CHECK4-NEXT: store i64 [[ARGC]], i64* [[ARGC_ADDR]], align 8
	// CHECK4-NEXT: store [10 x i32]* [[D]], [10 x i32]** [[D_ADDR]], align 8			// CHECK4-NEXT: store [10 x i32]* [[D]], [10 x i32]** [[D_ADDR]], align 8
	// CHECK4-NEXT: [[TMP0:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 8			// CHECK4-NEXT: [[TMP0:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 8
	// CHECK4-NEXT: [[TMP1:%.]] = load [10 x i32], [10 x i32]** [[C_ADDR]], align 8			// CHECK4-NEXT: [[TMP1:%.]] = load [10 x i32], [10 x i32]** [[C_ADDR]], align 8
	// CHECK4-NEXT: [[TMP2:%.]] = load i32, i32** [[A_ADDR]], align 8			// CHECK4-NEXT: [[TMP2:%.]] = load i32, i32** [[A_ADDR]], align 8
	// CHECK4-NEXT: [[CONV:%.]] = bitcast i64 [[ARGC_ADDR]] to i32*			// CHECK4-NEXT: [[CONV:%.]] = bitcast i64 [[ARGC_ADDR]] to i32*
	// CHECK4-NEXT: [[TMP3:%.]] = load [10 x i32], [10 x i32]** [[D_ADDR]], align 8			// CHECK4-NEXT: [[TMP3:%.]] = load [10 x i32], [10 x i32]** [[D_ADDR]], align 8
	// CHECK4-NEXT: [[C1:%.]] = call i8 @__kmpc_alloc_shared(i64 40)			// CHECK4-NEXT: [[C1:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 40)
	// CHECK4-NEXT: [[C_ON_STACK:%.]] = bitcast i8 [[C1]] to [10 x i32]*			// CHECK4-NEXT: [[C_ON_STACK:%.]] = bitcast i8 [[C1]] to [10 x i32]*
	// CHECK4-NEXT: [[TMP4:%.]] = load i32, i32 [[CONV]], align 8			// CHECK4-NEXT: [[TMP4:%.]] = load i32, i32 [[CONV]], align 8
	// CHECK4-NEXT: store i32 [[TMP4]], i32* [[DOTCAPTURE_EXPR_]], align 4			// CHECK4-NEXT: store i32 [[TMP4]], i32* [[DOTCAPTURE_EXPR_]], align 4
	// CHECK4-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_]], align 4			// CHECK4-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_]], align 4
	// CHECK4-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP5]], 0			// CHECK4-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP5]], 0
	// CHECK4-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1			// CHECK4-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
	// CHECK4-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1			// CHECK4-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1
	// CHECK4-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4			// CHECK4-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4
	▲ Show 20 Lines • Show All 314 Lines • ▼ Show 20 Lines
	// CHECK5-NEXT: store [10 x i32]* [[C]], [10 x i32]** [[C_ADDR]], align 4			// CHECK5-NEXT: store [10 x i32]* [[C]], [10 x i32]** [[C_ADDR]], align 4
	// CHECK5-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4			// CHECK5-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
	// CHECK5-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4			// CHECK5-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4
	// CHECK5-NEXT: store [10 x i32]* [[D]], [10 x i32]** [[D_ADDR]], align 4			// CHECK5-NEXT: store [10 x i32]* [[D]], [10 x i32]** [[D_ADDR]], align 4
	// CHECK5-NEXT: [[TMP0:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 4			// CHECK5-NEXT: [[TMP0:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 4
	// CHECK5-NEXT: [[TMP1:%.]] = load [10 x i32], [10 x i32]** [[C_ADDR]], align 4			// CHECK5-NEXT: [[TMP1:%.]] = load [10 x i32], [10 x i32]** [[C_ADDR]], align 4
	// CHECK5-NEXT: [[TMP2:%.]] = load i32, i32** [[A_ADDR]], align 4			// CHECK5-NEXT: [[TMP2:%.]] = load i32, i32** [[A_ADDR]], align 4
	// CHECK5-NEXT: [[TMP3:%.]] = load [10 x i32], [10 x i32]** [[D_ADDR]], align 4			// CHECK5-NEXT: [[TMP3:%.]] = load [10 x i32], [10 x i32]** [[D_ADDR]], align 4
	// CHECK5-NEXT: [[C1:%.]] = call i8 @__kmpc_alloc_shared(i32 40)			// CHECK5-NEXT: [[C1:%.]] = call align 4 i8 @__kmpc_alloc_shared(i32 40)
	// CHECK5-NEXT: [[C_ON_STACK:%.]] = bitcast i8 [[C1]] to [10 x i32]*			// CHECK5-NEXT: [[C_ON_STACK:%.]] = bitcast i8 [[C1]] to [10 x i32]*
	// CHECK5-NEXT: [[TMP4:%.]] = load i32, i32 [[ARGC_ADDR]], align 4			// CHECK5-NEXT: [[TMP4:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
	// CHECK5-NEXT: store i32 [[TMP4]], i32* [[DOTCAPTURE_EXPR_]], align 4			// CHECK5-NEXT: store i32 [[TMP4]], i32* [[DOTCAPTURE_EXPR_]], align 4
	// CHECK5-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_]], align 4			// CHECK5-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_]], align 4
	// CHECK5-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP5]], 0			// CHECK5-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP5]], 0
	// CHECK5-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1			// CHECK5-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
	// CHECK5-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1			// CHECK5-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1
	// CHECK5-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4			// CHECK5-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4
	▲ Show 20 Lines • Show All 306 Lines • ▼ Show 20 Lines
	// CHECK6-NEXT: store [10 x i32]* [[C]], [10 x i32]** [[C_ADDR]], align 4			// CHECK6-NEXT: store [10 x i32]* [[C]], [10 x i32]** [[C_ADDR]], align 4
	// CHECK6-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4			// CHECK6-NEXT: store i32* [[A]], i32** [[A_ADDR]], align 4
	// CHECK6-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4			// CHECK6-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4
	// CHECK6-NEXT: store [10 x i32]* [[D]], [10 x i32]** [[D_ADDR]], align 4			// CHECK6-NEXT: store [10 x i32]* [[D]], [10 x i32]** [[D_ADDR]], align 4
	// CHECK6-NEXT: [[TMP0:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 4			// CHECK6-NEXT: [[TMP0:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 4
	// CHECK6-NEXT: [[TMP1:%.]] = load [10 x i32], [10 x i32]** [[C_ADDR]], align 4			// CHECK6-NEXT: [[TMP1:%.]] = load [10 x i32], [10 x i32]** [[C_ADDR]], align 4
	// CHECK6-NEXT: [[TMP2:%.]] = load i32, i32** [[A_ADDR]], align 4			// CHECK6-NEXT: [[TMP2:%.]] = load i32, i32** [[A_ADDR]], align 4
	// CHECK6-NEXT: [[TMP3:%.]] = load [10 x i32], [10 x i32]** [[D_ADDR]], align 4			// CHECK6-NEXT: [[TMP3:%.]] = load [10 x i32], [10 x i32]** [[D_ADDR]], align 4
	// CHECK6-NEXT: [[C1:%.]] = call i8 @__kmpc_alloc_shared(i32 40)			// CHECK6-NEXT: [[C1:%.]] = call align 4 i8 @__kmpc_alloc_shared(i32 40)
	// CHECK6-NEXT: [[C_ON_STACK:%.]] = bitcast i8 [[C1]] to [10 x i32]*			// CHECK6-NEXT: [[C_ON_STACK:%.]] = bitcast i8 [[C1]] to [10 x i32]*
	// CHECK6-NEXT: [[TMP4:%.]] = load i32, i32 [[ARGC_ADDR]], align 4			// CHECK6-NEXT: [[TMP4:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
	// CHECK6-NEXT: store i32 [[TMP4]], i32* [[DOTCAPTURE_EXPR_]], align 4			// CHECK6-NEXT: store i32 [[TMP4]], i32* [[DOTCAPTURE_EXPR_]], align 4
	// CHECK6-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_]], align 4			// CHECK6-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_]], align 4
	// CHECK6-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP5]], 0			// CHECK6-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP5]], 0
	// CHECK6-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1			// CHECK6-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
	// CHECK6-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1			// CHECK6-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1
	// CHECK6-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4			// CHECK6-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4
	▲ Show 20 Lines • Show All 243 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_parallel_codegen.cpp

	Show First 20 Lines • Show All 1,627 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8			// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
	// CHECK1-NEXT: store i64 [[A]], i64* [[A_ADDR]], align 8			// CHECK1-NEXT: store i64 [[A]], i64* [[A_ADDR]], align 8
	// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[A_ADDR]] to i32*			// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[A_ADDR]] to i32*
	// CHECK1-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 true, i1 true)			// CHECK1-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 true, i1 true)
	// CHECK1-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			// CHECK1-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	// CHECK1-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK1-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK1: user_code.entry:			// CHECK1: user_code.entry:
	// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32 [[CONV]], align 8			// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32 [[CONV]], align 8
	// CHECK1-NEXT: [[A1:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK1-NEXT: [[A1:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK1-NEXT: [[A_ON_STACK:%.]] = bitcast i8 [[A1]] to i32*			// CHECK1-NEXT: [[A_ON_STACK:%.]] = bitcast i8 [[A1]] to i32*
	// CHECK1-NEXT: store i32 [[TMP1]], i32* [[A_ON_STACK]], align 4			// CHECK1-NEXT: store i32 [[TMP1]], i32* [[A_ON_STACK]], align 4
	// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK1-NEXT: [[TMP3:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0			// CHECK1-NEXT: [[TMP3:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP4:%.]] = bitcast i32 [[A_ON_STACK]] to i8*			// CHECK1-NEXT: [[TMP4:%.]] = bitcast i32 [[A_ON_STACK]] to i8*
	// CHECK1-NEXT: store i8* [[TMP4]], i8** [[TMP3]], align 8			// CHECK1-NEXT: store i8* [[TMP4]], i8** [[TMP3]], align 8
	// CHECK1-NEXT: [[TMP5:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			// CHECK1-NEXT: [[TMP5:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	// CHECK1-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP2]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32) @__omp_outlined__4 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__4_wrapper to i8), i8* [[TMP5]], i64 1)			// CHECK1-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP2]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32) @__omp_outlined__4 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__4_wrapper to i8), i8* [[TMP5]], i64 1)
	▲ Show 20 Lines • Show All 255 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[A_ADDR:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4			// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
	// CHECK2-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4			// CHECK2-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
	// CHECK2-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 true, i1 true)			// CHECK2-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 true, i1 true)
	// CHECK2-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			// CHECK2-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	// CHECK2-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK2-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK2: user_code.entry:			// CHECK2: user_code.entry:
	// CHECK2-NEXT: [[TMP1:%.]] = load i32, i32 [[A_ADDR]], align 4			// CHECK2-NEXT: [[TMP1:%.]] = load i32, i32 [[A_ADDR]], align 4
	// CHECK2-NEXT: [[A1:%.]] = call i8 @__kmpc_alloc_shared(i32 4)			// CHECK2-NEXT: [[A1:%.]] = call align 4 i8 @__kmpc_alloc_shared(i32 4)
	// CHECK2-NEXT: [[A_ON_STACK:%.]] = bitcast i8 [[A1]] to i32*			// CHECK2-NEXT: [[A_ON_STACK:%.]] = bitcast i8 [[A1]] to i32*
	// CHECK2-NEXT: store i32 [[TMP1]], i32* [[A_ON_STACK]], align 4			// CHECK2-NEXT: store i32 [[TMP1]], i32* [[A_ON_STACK]], align 4
	// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK2-NEXT: [[TMP3:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0			// CHECK2-NEXT: [[TMP3:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP4:%.]] = bitcast i32 [[A_ON_STACK]] to i8*			// CHECK2-NEXT: [[TMP4:%.]] = bitcast i32 [[A_ON_STACK]] to i8*
	// CHECK2-NEXT: store i8* [[TMP4]], i8** [[TMP3]], align 4			// CHECK2-NEXT: store i8* [[TMP4]], i8** [[TMP3]], align 4
	// CHECK2-NEXT: [[TMP5:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**			// CHECK2-NEXT: [[TMP5:%.]] = bitcast [1 x i8]* [[CAPTURED_VARS_ADDRS]] to i8**
	// CHECK2-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP2]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32) @__omp_outlined__4 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__4_wrapper to i8), i8* [[TMP5]], i32 1)			// CHECK2-NEXT: call void @__kmpc_parallel_51(%struct.ident_t* @[[GLOB1]], i32 [[TMP2]], i32 1, i32 -1, i32 -1, i8* bitcast (void (i32, i32, i32) @__omp_outlined__4 to i8), i8 bitcast (void (i16, i32)* @__omp_outlined__4_wrapper to i8), i8* [[TMP5]], i32 1)
	▲ Show 20 Lines • Show All 70 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_parallel_for_codegen.cpp

	Show First 20 Lines • Show All 463 Lines • ▼ Show 20 Lines
	// CHECK-NEXT: store i64 [[N]], i64* [[N_ADDR]], align 8			// CHECK-NEXT: store i64 [[N]], i64* [[N_ADDR]], align 8
	// CHECK-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 8			// CHECK-NEXT: store [10 x i32]* [[B]], [10 x i32]** [[B_ADDR]], align 8
	// CHECK-NEXT: [[CONV:%.]] = bitcast i64 [[N_ADDR]] to i32*			// CHECK-NEXT: [[CONV:%.]] = bitcast i64 [[N_ADDR]] to i32*
	// CHECK-NEXT: [[TMP0:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 8			// CHECK-NEXT: [[TMP0:%.]] = load [10 x i32], [10 x i32]** [[B_ADDR]], align 8
	// CHECK-NEXT: [[TMP1:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i8 1, i1 true, i1 true)			// CHECK-NEXT: [[TMP1:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i8 1, i1 true, i1 true)
	// CHECK-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP1]], -1			// CHECK-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP1]], -1
	// CHECK-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK: user_code.entry:			// CHECK: user_code.entry:
	// CHECK-NEXT: [[D:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK-NEXT: [[D:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK-NEXT: [[D_ON_STACK:%.]] = bitcast i8 [[D]] to i32*			// CHECK-NEXT: [[D_ON_STACK:%.]] = bitcast i8 [[D]] to i32*
	// CHECK-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK-NEXT: [[TMP3:%.]] = load i32, i32 [[CONV]], align 8			// CHECK-NEXT: [[TMP3:%.]] = load i32, i32 [[CONV]], align 8
	// CHECK-NEXT: store i32 [[TMP3]], i32* [[D_ON_STACK]], align 4			// CHECK-NEXT: store i32 [[TMP3]], i32* [[D_ON_STACK]], align 4
	// CHECK-NEXT: [[TMP4:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0			// CHECK-NEXT: [[TMP4:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
	// CHECK-NEXT: [[TMP5:%.]] = bitcast [10 x i32] [[TMP0]] to i8*			// CHECK-NEXT: [[TMP5:%.]] = bitcast [10 x i32] [[TMP0]] to i8*
	// CHECK-NEXT: store i8* [[TMP5]], i8** [[TMP4]], align 8			// CHECK-NEXT: store i8* [[TMP5]], i8** [[TMP4]], align 8
	// CHECK-NEXT: [[TMP6:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1			// CHECK-NEXT: [[TMP6:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1
	▲ Show 20 Lines • Show All 126 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_target_codegen.cpp

	Show First 20 Lines • Show All 412 Lines • ▼ Show 20 Lines
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@_Z3baziRd			// CHECK1-LABEL: define {{[^@]+}}@_Z3baziRd
	// CHECK1-SAME: (i32 [[F1:%.]], double nonnull align 8 dereferenceable(8) [[A:%.*]]) #[[ATTR4]] {			// CHECK1-SAME: (i32 [[F1:%.]], double nonnull align 8 dereferenceable(8) [[A:%.*]]) #[[ATTR4]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[A_ADDR:%.]] = alloca double, align 8			// CHECK1-NEXT: [[A_ADDR:%.]] = alloca double, align 8
	// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [2 x i8], align 8			// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [2 x i8], align 8
	// CHECK1-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3:[0-9]+]])			// CHECK1-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3:[0-9]+]])
	// CHECK1-NEXT: [[F:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK1-NEXT: [[F:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK1-NEXT: [[F_ON_STACK:%.]] = bitcast i8 [[F]] to i32*			// CHECK1-NEXT: [[F_ON_STACK:%.]] = bitcast i8 [[F]] to i32*
	// CHECK1-NEXT: store i32 [[F1]], i32* [[F_ON_STACK]], align 4			// CHECK1-NEXT: store i32 [[F1]], i32* [[F_ON_STACK]], align 4
	// CHECK1-NEXT: store double* [[A]], double** [[A_ADDR]], align 8			// CHECK1-NEXT: store double* [[A]], double** [[A_ADDR]], align 8
	// CHECK1-NEXT: [[TMP1:%.]] = load double, double** [[A_ADDR]], align 8			// CHECK1-NEXT: [[TMP1:%.]] = load double, double** [[A_ADDR]], align 8
	// CHECK1-NEXT: [[TMP2:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0			// CHECK1-NEXT: [[TMP2:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP3:%.]] = bitcast i32 [[F_ON_STACK]] to i8*			// CHECK1-NEXT: [[TMP3:%.]] = bitcast i32 [[F_ON_STACK]] to i8*
	// CHECK1-NEXT: store i8* [[TMP3]], i8** [[TMP2]], align 8			// CHECK1-NEXT: store i8* [[TMP3]], i8** [[TMP2]], align 8
	// CHECK1-NEXT: [[TMP4:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1			// CHECK1-NEXT: [[TMP4:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i64 0, i64 1
	▲ Show 20 Lines • Show All 367 Lines • ▼ Show 20 Lines
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@_Z3baziRd			// CHECK2-LABEL: define {{[^@]+}}@_Z3baziRd
	// CHECK2-SAME: (i32 [[F1:%.]], double nonnull align 8 dereferenceable(8) [[A:%.*]]) #[[ATTR4]] {			// CHECK2-SAME: (i32 [[F1:%.]], double nonnull align 8 dereferenceable(8) [[A:%.*]]) #[[ATTR4]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[A_ADDR:%.]] = alloca double, align 4			// CHECK2-NEXT: [[A_ADDR:%.]] = alloca double, align 4
	// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [2 x i8], align 4			// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [2 x i8], align 4
	// CHECK2-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3:[0-9]+]])			// CHECK2-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3:[0-9]+]])
	// CHECK2-NEXT: [[F:%.]] = call i8 @__kmpc_alloc_shared(i32 4)			// CHECK2-NEXT: [[F:%.]] = call align 4 i8 @__kmpc_alloc_shared(i32 4)
	// CHECK2-NEXT: [[F_ON_STACK:%.]] = bitcast i8 [[F]] to i32*			// CHECK2-NEXT: [[F_ON_STACK:%.]] = bitcast i8 [[F]] to i32*
	// CHECK2-NEXT: store i32 [[F1]], i32* [[F_ON_STACK]], align 4			// CHECK2-NEXT: store i32 [[F1]], i32* [[F_ON_STACK]], align 4
	// CHECK2-NEXT: store double* [[A]], double** [[A_ADDR]], align 4			// CHECK2-NEXT: store double* [[A]], double** [[A_ADDR]], align 4
	// CHECK2-NEXT: [[TMP1:%.]] = load double, double** [[A_ADDR]], align 4			// CHECK2-NEXT: [[TMP1:%.]] = load double, double** [[A_ADDR]], align 4
	// CHECK2-NEXT: [[TMP2:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0			// CHECK2-NEXT: [[TMP2:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP3:%.]] = bitcast i32 [[F_ON_STACK]] to i8*			// CHECK2-NEXT: [[TMP3:%.]] = bitcast i32 [[F_ON_STACK]] to i8*
	// CHECK2-NEXT: store i8* [[TMP3]], i8** [[TMP2]], align 4			// CHECK2-NEXT: store i8* [[TMP3]], i8** [[TMP2]], align 4
	// CHECK2-NEXT: [[TMP4:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 1			// CHECK2-NEXT: [[TMP4:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 1
	▲ Show 20 Lines • Show All 366 Lines • ▼ Show 20 Lines
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@_Z3baziRd			// CHECK3-LABEL: define {{[^@]+}}@_Z3baziRd
	// CHECK3-SAME: (i32 [[F1:%.]], double nonnull align 8 dereferenceable(8) [[A:%.*]]) #[[ATTR4]] {			// CHECK3-SAME: (i32 [[F1:%.]], double nonnull align 8 dereferenceable(8) [[A:%.*]]) #[[ATTR4]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[A_ADDR:%.]] = alloca double, align 4			// CHECK3-NEXT: [[A_ADDR:%.]] = alloca double, align 4
	// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [2 x i8], align 4			// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [2 x i8], align 4
	// CHECK3-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3:[0-9]+]])			// CHECK3-NEXT: [[TMP0:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB3:[0-9]+]])
	// CHECK3-NEXT: [[F:%.]] = call i8 @__kmpc_alloc_shared(i32 4)			// CHECK3-NEXT: [[F:%.]] = call align 4 i8 @__kmpc_alloc_shared(i32 4)
	// CHECK3-NEXT: [[F_ON_STACK:%.]] = bitcast i8 [[F]] to i32*			// CHECK3-NEXT: [[F_ON_STACK:%.]] = bitcast i8 [[F]] to i32*
	// CHECK3-NEXT: store i32 [[F1]], i32* [[F_ON_STACK]], align 4			// CHECK3-NEXT: store i32 [[F1]], i32* [[F_ON_STACK]], align 4
	// CHECK3-NEXT: store double* [[A]], double** [[A_ADDR]], align 4			// CHECK3-NEXT: store double* [[A]], double** [[A_ADDR]], align 4
	// CHECK3-NEXT: [[TMP1:%.]] = load double, double** [[A_ADDR]], align 4			// CHECK3-NEXT: [[TMP1:%.]] = load double, double** [[A_ADDR]], align 4
	// CHECK3-NEXT: [[TMP2:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0			// CHECK3-NEXT: [[TMP2:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP3:%.]] = bitcast i32 [[F_ON_STACK]] to i8*			// CHECK3-NEXT: [[TMP3:%.]] = bitcast i32 [[F_ON_STACK]] to i8*
	// CHECK3-NEXT: store i8* [[TMP3]], i8** [[TMP2]], align 4			// CHECK3-NEXT: store i8* [[TMP3]], i8** [[TMP2]], align 4
	// CHECK3-NEXT: [[TMP4:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 1			// CHECK3-NEXT: [[TMP4:%.]] = getelementptr inbounds [2 x i8], [2 x i8] [[CAPTURED_VARS_ADDRS]], i32 0, i32 1
	▲ Show 20 Lines • Show All 102 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_target_parallel_reduction_codegen_tbaa_PR46146.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[IB:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[IB:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[REF_TMP:%.*]] = alloca float, align 4			// CHECK1-NEXT: [[REF_TMP:%.*]] = alloca float, align 4
	// CHECK1-NEXT: [[REF_TMP2:%.*]] = alloca float, align 4			// CHECK1-NEXT: [[REF_TMP2:%.*]] = alloca float, align 4
	// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 8			// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 8
	// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8, !tbaa [[TBAA12:![0-9]+]]			// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8, !tbaa [[TBAA12:![0-9]+]]
	// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: [[ISTART:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK1-NEXT: [[ISTART:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK1-NEXT: [[ISTART_ON_STACK:%.]] = bitcast i8 [[ISTART]] to i32*			// CHECK1-NEXT: [[ISTART_ON_STACK:%.]] = bitcast i8 [[ISTART]] to i32*
	// CHECK1-NEXT: [[IEND:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK1-NEXT: [[IEND:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK1-NEXT: [[IEND_ON_STACK:%.]] = bitcast i8 [[IEND]] to i32*			// CHECK1-NEXT: [[IEND_ON_STACK:%.]] = bitcast i8 [[IEND]] to i32*
	// CHECK1-NEXT: [[PARTIAL_SUM:%.]] = call i8 @__kmpc_alloc_shared(i64 8)			// CHECK1-NEXT: [[PARTIAL_SUM:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 8)
	// CHECK1-NEXT: [[PARTIAL_SUM_ON_STACK:%.]] = bitcast i8 [[PARTIAL_SUM]] to %"class.std::complex"*			// CHECK1-NEXT: [[PARTIAL_SUM_ON_STACK:%.]] = bitcast i8 [[PARTIAL_SUM]] to %"class.std::complex"*
	// CHECK1-NEXT: [[TMP0:%.]] = bitcast i32 [[DOTOMP_IV]] to i8*			// CHECK1-NEXT: [[TMP0:%.]] = bitcast i32 [[DOTOMP_IV]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP0]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP0]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP1:%.]] = bitcast i32 [[DOTOMP_LB]] to i8*			// CHECK1-NEXT: [[TMP1:%.]] = bitcast i32 [[DOTOMP_LB]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP1]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP1]]) #[[ATTR5]]
	// CHECK1-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[TMP2:%.]] = bitcast i32 [[DOTOMP_UB]] to i8*			// CHECK1-NEXT: [[TMP2:%.]] = bitcast i32 [[DOTOMP_UB]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP2]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP2]]) #[[ATTR5]]
	Show All 36 Lines
	// CHECK1-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]			// CHECK1-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]
	// CHECK1-NEXT: store i32 [[ADD]], i32* [[IB]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 [[ADD]], i32* [[IB]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[TMP14:%.]] = bitcast float [[REF_TMP]] to i8*			// CHECK1-NEXT: [[TMP14:%.]] = bitcast float [[REF_TMP]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP14]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP14]]) #[[ATTR5]]
	// CHECK1-NEXT: store float 0.000000e+00, float* [[REF_TMP]], align 4, !tbaa [[TBAA14:![0-9]+]]			// CHECK1-NEXT: store float 0.000000e+00, float* [[REF_TMP]], align 4, !tbaa [[TBAA14:![0-9]+]]
	// CHECK1-NEXT: [[TMP15:%.]] = bitcast float [[REF_TMP2]] to i8*			// CHECK1-NEXT: [[TMP15:%.]] = bitcast float [[REF_TMP2]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP15]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP15]]) #[[ATTR5]]
	// CHECK1-NEXT: store float 0.000000e+00, float* [[REF_TMP2]], align 4, !tbaa [[TBAA14]]			// CHECK1-NEXT: store float 0.000000e+00, float* [[REF_TMP2]], align 4, !tbaa [[TBAA14]]
	// CHECK1-NEXT: call void @_ZNSt7complexIfEC1ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM_ON_STACK]], float* nonnull align 4 dereferenceable(4) [[REF_TMP]], float* nonnull align 4 dereferenceable(4) [[REF_TMP2]]) #[[ATTR11:[0-9]+]]			// CHECK1-NEXT: call void @_ZNSt7complexIfEC1ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM_ON_STACK]], float* nonnull align 4 dereferenceable(4) [[REF_TMP]], float* nonnull align 4 dereferenceable(4) [[REF_TMP2]]) #[[ATTR10:[0-9]+]]
	// CHECK1-NEXT: [[TMP16:%.]] = bitcast float [[REF_TMP2]] to i8*			// CHECK1-NEXT: [[TMP16:%.]] = bitcast float [[REF_TMP2]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP16]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP16]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP17:%.]] = bitcast float [[REF_TMP]] to i8*			// CHECK1-NEXT: [[TMP17:%.]] = bitcast float [[REF_TMP]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP17]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP17]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP18:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP18:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[MUL3:%.*]] = mul nsw i32 [[TMP18]], 4			// CHECK1-NEXT: [[MUL3:%.*]] = mul nsw i32 [[TMP18]], 4
	// CHECK1-NEXT: store i32 [[MUL3]], i32* [[ISTART_ON_STACK]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 [[MUL3]], i32* [[ISTART_ON_STACK]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[TMP19:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP19:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: [[__RE_ADDR:%.]] = alloca float, align 8			// CHECK1-NEXT: [[__RE_ADDR:%.]] = alloca float, align 8
	// CHECK1-NEXT: [[__IM_ADDR:%.]] = alloca float, align 8			// CHECK1-NEXT: [[__IM_ADDR:%.]] = alloca float, align 8
	// CHECK1-NEXT: store %"class.std::complex"* [[THIS]], %"class.std::complex"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: store %"class.std::complex"* [[THIS]], %"class.std::complex"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: store float* [[__RE]], float** [[__RE_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: store float* [[__RE]], float** [[__RE_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: store float* [[__IM]], float** [[__IM_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: store float* [[__IM]], float** [[__IM_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: [[THIS1:%.]] = load %"class.std::complex", %"class.std::complex"** [[THIS_ADDR]], align 8			// CHECK1-NEXT: [[THIS1:%.]] = load %"class.std::complex", %"class.std::complex"** [[THIS_ADDR]], align 8
	// CHECK1-NEXT: [[TMP0:%.]] = load float, float** [[__RE_ADDR]], align 8			// CHECK1-NEXT: [[TMP0:%.]] = load float, float** [[__RE_ADDR]], align 8
	// CHECK1-NEXT: [[TMP1:%.]] = load float, float** [[__IM_ADDR]], align 8			// CHECK1-NEXT: [[TMP1:%.]] = load float, float** [[__IM_ADDR]], align 8
	// CHECK1-NEXT: call void @_ZNSt7complexIfEC2ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[THIS1]], float* nonnull align 4 dereferenceable(4) [[TMP0]], float* nonnull align 4 dereferenceable(4) [[TMP1]]) #[[ATTR11]]			// CHECK1-NEXT: call void @_ZNSt7complexIfEC2ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[THIS1]], float* nonnull align 4 dereferenceable(4) [[TMP0]], float* nonnull align 4 dereferenceable(4) [[TMP1]]) #[[ATTR10]]
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__1			// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__1
	// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[ISTART:%.]], i32 nonnull align 4 dereferenceable(4) [[IEND:%.]], %"class.std::complex" nonnull align 4 dereferenceable(8) [[PARTIAL_SUM:%.*]]) #[[ATTR0]] {			// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[ISTART:%.]], i32 nonnull align 4 dereferenceable(4) [[IEND:%.]], %"class.std::complex" nonnull align 4 dereferenceable(8) [[PARTIAL_SUM:%.*]]) #[[ATTR0]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: [[TMP21:%.]] = bitcast %"class.std::complex" [[PARTIAL_SUM5]] to i8*			// CHECK1-NEXT: [[TMP21:%.]] = bitcast %"class.std::complex" [[PARTIAL_SUM5]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP21]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP21]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP22:%.]] = bitcast float [[REF_TMP]] to i8*			// CHECK1-NEXT: [[TMP22:%.]] = bitcast float [[REF_TMP]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP22]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP22]]) #[[ATTR5]]
	// CHECK1-NEXT: store float 0.000000e+00, float* [[REF_TMP]], align 4, !tbaa [[TBAA14]]			// CHECK1-NEXT: store float 0.000000e+00, float* [[REF_TMP]], align 4, !tbaa [[TBAA14]]
	// CHECK1-NEXT: [[TMP23:%.]] = bitcast float [[REF_TMP6]] to i8*			// CHECK1-NEXT: [[TMP23:%.]] = bitcast float [[REF_TMP6]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP23]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP23]]) #[[ATTR5]]
	// CHECK1-NEXT: store float 0.000000e+00, float* [[REF_TMP6]], align 4, !tbaa [[TBAA14]]			// CHECK1-NEXT: store float 0.000000e+00, float* [[REF_TMP6]], align 4, !tbaa [[TBAA14]]
	// CHECK1-NEXT: call void @_ZNSt7complexIfEC1ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM5]], float* nonnull align 4 dereferenceable(4) [[REF_TMP]], float* nonnull align 4 dereferenceable(4) [[REF_TMP6]]) #[[ATTR11]]			// CHECK1-NEXT: call void @_ZNSt7complexIfEC1ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM5]], float* nonnull align 4 dereferenceable(4) [[REF_TMP]], float* nonnull align 4 dereferenceable(4) [[REF_TMP6]]) #[[ATTR10]]
	// CHECK1-NEXT: [[TMP24:%.]] = bitcast float [[REF_TMP6]] to i8*			// CHECK1-NEXT: [[TMP24:%.]] = bitcast float [[REF_TMP6]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP24]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP24]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP25:%.]] = bitcast float [[REF_TMP]] to i8*			// CHECK1-NEXT: [[TMP25:%.]] = bitcast float [[REF_TMP]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP25]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP25]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP26:%.]] = bitcast i32 [[I7]] to i8*			// CHECK1-NEXT: [[TMP26:%.]] = bitcast i32 [[I7]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP26]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP26]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP27:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8			// CHECK1-NEXT: [[TMP27:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
	// CHECK1-NEXT: [[TMP28:%.]] = load i32, i32 [[TMP27]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP28:%.]] = load i32, i32 [[TMP27]], align 4, !tbaa [[TBAA8]]
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: [[TMP42:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP42:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP42]] to float			// CHECK1-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP42]] to float
	// CHECK1-NEXT: store float [[CONV]], float* [[REF_TMP15]], align 4, !tbaa [[TBAA14]]			// CHECK1-NEXT: store float [[CONV]], float* [[REF_TMP15]], align 4, !tbaa [[TBAA14]]
	// CHECK1-NEXT: [[TMP43:%.]] = bitcast float [[REF_TMP16]] to i8*			// CHECK1-NEXT: [[TMP43:%.]] = bitcast float [[REF_TMP16]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP43]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP43]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP44:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP44:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[CONV17:%.*]] = sitofp i32 [[TMP44]] to float			// CHECK1-NEXT: [[CONV17:%.*]] = sitofp i32 [[TMP44]] to float
	// CHECK1-NEXT: store float [[CONV17]], float* [[REF_TMP16]], align 4, !tbaa [[TBAA14]]			// CHECK1-NEXT: store float [[CONV17]], float* [[REF_TMP16]], align 4, !tbaa [[TBAA14]]
	// CHECK1-NEXT: call void @_ZNSt7complexIfEC1ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[REF_TMP14]], float* nonnull align 4 dereferenceable(4) [[REF_TMP15]], float* nonnull align 4 dereferenceable(4) [[REF_TMP16]]) #[[ATTR11]]			// CHECK1-NEXT: call void @_ZNSt7complexIfEC1ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[REF_TMP14]], float* nonnull align 4 dereferenceable(4) [[REF_TMP15]], float* nonnull align 4 dereferenceable(4) [[REF_TMP16]]) #[[ATTR10]]
	// CHECK1-NEXT: [[CALL:%.]] = call nonnull align 4 dereferenceable(8) %"class.std::complex" @_ZNSt7complexIfEpLIfEERS0_RKS_IT_E(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM5]], %"class.std::complex"* nonnull align 4 dereferenceable(8) [[REF_TMP14]]) #[[ATTR11]]			// CHECK1-NEXT: [[CALL:%.]] = call nonnull align 4 dereferenceable(8) %"class.std::complex" @_ZNSt7complexIfEpLIfEERS0_RKS_IT_E(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM5]], %"class.std::complex"* nonnull align 4 dereferenceable(8) [[REF_TMP14]]) #[[ATTR10]]
	// CHECK1-NEXT: [[TMP45:%.]] = bitcast float [[REF_TMP16]] to i8*			// CHECK1-NEXT: [[TMP45:%.]] = bitcast float [[REF_TMP16]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP45]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP45]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP46:%.]] = bitcast float [[REF_TMP15]] to i8*			// CHECK1-NEXT: [[TMP46:%.]] = bitcast float [[REF_TMP15]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP46]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP46]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP47:%.]] = bitcast %"class.std::complex" [[REF_TMP14]] to i8*			// CHECK1-NEXT: [[TMP47:%.]] = bitcast %"class.std::complex" [[REF_TMP14]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP47]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP47]]) #[[ATTR5]]
	// CHECK1-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]			// CHECK1-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]
	// CHECK1: omp.body.continue:			// CHECK1: omp.body.continue:
	Show All 24 Lines
	// CHECK1-NEXT: [[TMP57:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 0			// CHECK1-NEXT: [[TMP57:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP58:%.]] = bitcast %"class.std::complex" [[PARTIAL_SUM5]] to i8*			// CHECK1-NEXT: [[TMP58:%.]] = bitcast %"class.std::complex" [[PARTIAL_SUM5]] to i8*
	// CHECK1-NEXT: store i8* [[TMP58]], i8** [[TMP57]], align 8			// CHECK1-NEXT: store i8* [[TMP58]], i8** [[TMP57]], align 8
	// CHECK1-NEXT: [[TMP59:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK1-NEXT: [[TMP59:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK1-NEXT: [[TMP60:%.]] = call i32 @__kmpc_nvptx_parallel_reduce_nowait_v2(%struct.ident_t @[[GLOB1]], i32 [[TMP56]], i32 1, i64 8, i8* [[TMP59]], void (i8, i16, i16, i16) @_omp_reduction_shuffle_and_reduce_func, void (i8, i32) @_omp_reduction_inter_warp_copy_func)			// CHECK1-NEXT: [[TMP60:%.]] = call i32 @__kmpc_nvptx_parallel_reduce_nowait_v2(%struct.ident_t @[[GLOB1]], i32 [[TMP56]], i32 1, i64 8, i8* [[TMP59]], void (i8, i16, i16, i16) @_omp_reduction_shuffle_and_reduce_func, void (i8, i32) @_omp_reduction_inter_warp_copy_func)
	// CHECK1-NEXT: [[TMP61:%.*]] = icmp eq i32 [[TMP60]], 1			// CHECK1-NEXT: [[TMP61:%.*]] = icmp eq i32 [[TMP60]], 1
	// CHECK1-NEXT: br i1 [[TMP61]], label [[DOTOMP_REDUCTION_THEN:%.]], label [[DOTOMP_REDUCTION_DONE:%.]]			// CHECK1-NEXT: br i1 [[TMP61]], label [[DOTOMP_REDUCTION_THEN:%.]], label [[DOTOMP_REDUCTION_DONE:%.]]
	// CHECK1: .omp.reduction.then:			// CHECK1: .omp.reduction.then:
	// CHECK1-NEXT: [[CALL21:%.]] = call nonnull align 4 dereferenceable(8) %"class.std::complex" @_ZNSt7complexIfEpLIfEERS0_RKS_IT_E(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[TMP2]], %"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM5]]) #[[ATTR11]]			// CHECK1-NEXT: [[CALL21:%.]] = call nonnull align 4 dereferenceable(8) %"class.std::complex" @_ZNSt7complexIfEpLIfEERS0_RKS_IT_E(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[TMP2]], %"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM5]]) #[[ATTR10]]
	// CHECK1-NEXT: call void @__kmpc_nvptx_end_reduce_nowait(i32 [[TMP56]])			// CHECK1-NEXT: call void @__kmpc_nvptx_end_reduce_nowait(i32 [[TMP56]])
	// CHECK1-NEXT: br label [[DOTOMP_REDUCTION_DONE]]			// CHECK1-NEXT: br label [[DOTOMP_REDUCTION_DONE]]
	// CHECK1: .omp.reduction.done:			// CHECK1: .omp.reduction.done:
	// CHECK1-NEXT: [[TMP62:%.]] = bitcast i32 [[I7]] to i8*			// CHECK1-NEXT: [[TMP62:%.]] = bitcast i32 [[I7]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP62]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP62]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP63:%.]] = bitcast %"class.std::complex" [[PARTIAL_SUM5]] to i8*			// CHECK1-NEXT: [[TMP63:%.]] = bitcast %"class.std::complex" [[PARTIAL_SUM5]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP63]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP63]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP64:%.]] = bitcast i32 [[DOTOMP_IS_LAST]] to i8*			// CHECK1-NEXT: [[TMP64:%.]] = bitcast i32 [[DOTOMP_IS_LAST]] to i8*
	Show All 21 Lines
	// CHECK1-SAME: (%"class.std::complex"* nonnull align 4 dereferenceable(8) [[THIS:%.]], %"class.std::complex" nonnull align 4 dereferenceable(8) [[__C:%.*]]) #[[ATTR4:[0-9]+]] comdat align 2 {			// CHECK1-SAME: (%"class.std::complex"* nonnull align 4 dereferenceable(8) [[THIS:%.]], %"class.std::complex" nonnull align 4 dereferenceable(8) [[__C:%.*]]) #[[ATTR4:[0-9]+]] comdat align 2 {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[THIS_ADDR:%.]] = alloca %"class.std::complex", align 8			// CHECK1-NEXT: [[THIS_ADDR:%.]] = alloca %"class.std::complex", align 8
	// CHECK1-NEXT: [[__C_ADDR:%.]] = alloca %"class.std::complex", align 8			// CHECK1-NEXT: [[__C_ADDR:%.]] = alloca %"class.std::complex", align 8
	// CHECK1-NEXT: store %"class.std::complex"* [[THIS]], %"class.std::complex"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: store %"class.std::complex"* [[THIS]], %"class.std::complex"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: store %"class.std::complex"* [[__C]], %"class.std::complex"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: store %"class.std::complex"* [[__C]], %"class.std::complex"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: [[THIS1:%.]] = load %"class.std::complex", %"class.std::complex"** [[THIS_ADDR]], align 8			// CHECK1-NEXT: [[THIS1:%.]] = load %"class.std::complex", %"class.std::complex"** [[THIS_ADDR]], align 8
	// CHECK1-NEXT: [[TMP0:%.]] = load %"class.std::complex", %"class.std::complex"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: [[TMP0:%.]] = load %"class.std::complex", %"class.std::complex"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: [[CALL:%.]] = call float @_ZNKSt7complexIfE4realEv(%"class.std::complex" nonnull align 4 dereferenceable(8) [[TMP0]]) #[[ATTR11]]			// CHECK1-NEXT: [[CALL:%.]] = call float @_ZNKSt7complexIfE4realEv(%"class.std::complex" nonnull align 4 dereferenceable(8) [[TMP0]]) #[[ATTR10]]
	// CHECK1-NEXT: [[__RE_:%.]] = getelementptr inbounds %"class.std::complex", %"class.std::complex" [[THIS1]], i32 0, i32 0			// CHECK1-NEXT: [[__RE_:%.]] = getelementptr inbounds %"class.std::complex", %"class.std::complex" [[THIS1]], i32 0, i32 0
	// CHECK1-NEXT: [[TMP1:%.]] = load float, float [[__RE_]], align 4, !tbaa [[TBAA16:![0-9]+]]			// CHECK1-NEXT: [[TMP1:%.]] = load float, float [[__RE_]], align 4, !tbaa [[TBAA16:![0-9]+]]
	// CHECK1-NEXT: [[ADD:%.*]] = fadd float [[TMP1]], [[CALL]]			// CHECK1-NEXT: [[ADD:%.*]] = fadd float [[TMP1]], [[CALL]]
	// CHECK1-NEXT: store float [[ADD]], float* [[__RE_]], align 4, !tbaa [[TBAA16]]			// CHECK1-NEXT: store float [[ADD]], float* [[__RE_]], align 4, !tbaa [[TBAA16]]
	// CHECK1-NEXT: [[TMP2:%.]] = load %"class.std::complex", %"class.std::complex"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: [[TMP2:%.]] = load %"class.std::complex", %"class.std::complex"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: [[CALL2:%.]] = call float @_ZNKSt7complexIfE4imagEv(%"class.std::complex" nonnull align 4 dereferenceable(8) [[TMP2]]) #[[ATTR11]]			// CHECK1-NEXT: [[CALL2:%.]] = call float @_ZNKSt7complexIfE4imagEv(%"class.std::complex" nonnull align 4 dereferenceable(8) [[TMP2]]) #[[ATTR10]]
	// CHECK1-NEXT: [[__IM_:%.]] = getelementptr inbounds %"class.std::complex", %"class.std::complex" [[THIS1]], i32 0, i32 1			// CHECK1-NEXT: [[__IM_:%.]] = getelementptr inbounds %"class.std::complex", %"class.std::complex" [[THIS1]], i32 0, i32 1
	// CHECK1-NEXT: [[TMP3:%.]] = load float, float [[__IM_]], align 4, !tbaa [[TBAA18:![0-9]+]]			// CHECK1-NEXT: [[TMP3:%.]] = load float, float [[__IM_]], align 4, !tbaa [[TBAA18:![0-9]+]]
	// CHECK1-NEXT: [[ADD3:%.*]] = fadd float [[TMP3]], [[CALL2]]			// CHECK1-NEXT: [[ADD3:%.*]] = fadd float [[TMP3]], [[CALL2]]
	// CHECK1-NEXT: store float [[ADD3]], float* [[__IM_]], align 4, !tbaa [[TBAA18]]			// CHECK1-NEXT: store float [[ADD3]], float* [[__IM_]], align 4, !tbaa [[TBAA18]]
	// CHECK1-NEXT: ret %"class.std::complex"* [[THIS1]]			// CHECK1-NEXT: ret %"class.std::complex"* [[THIS1]]
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_shuffle_and_reduce_func			// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_shuffle_and_reduce_func
	Show All 18 Lines
	// CHECK1-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 8			// CHECK1-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 8
	// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to %"class.std::complex"*			// CHECK1-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to %"class.std::complex"*
	// CHECK1-NEXT: [[TMP13:%.]] = getelementptr %"class.std::complex", %"class.std::complex" [[TMP12]], i64 1			// CHECK1-NEXT: [[TMP13:%.]] = getelementptr %"class.std::complex", %"class.std::complex" [[TMP12]], i64 1
	// CHECK1-NEXT: [[TMP14:%.]] = bitcast %"class.std::complex" [[TMP13]] to i8*			// CHECK1-NEXT: [[TMP14:%.]] = bitcast %"class.std::complex" [[TMP13]] to i8*
	// CHECK1-NEXT: [[TMP15:%.]] = bitcast %"class.std::complex" [[TMP12]] to i64*			// CHECK1-NEXT: [[TMP15:%.]] = bitcast %"class.std::complex" [[TMP12]] to i64*
	// CHECK1-NEXT: [[TMP16:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i64*			// CHECK1-NEXT: [[TMP16:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i64*
	// CHECK1-NEXT: [[TMP17:%.]] = load i64, i64 [[TMP15]], align 4			// CHECK1-NEXT: [[TMP17:%.]] = load i64, i64 [[TMP15]], align 4
	// CHECK1-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()			// CHECK1-NEXT: [[TMP18:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK1-NEXT: [[TMP18:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK1-NEXT: [[TMP19:%.*]] = trunc i32 [[TMP18]] to i16
	// CHECK1-NEXT: [[TMP19:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP17]], i16 [[TMP7]], i16 [[TMP18]])			// CHECK1-NEXT: [[TMP20:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP17]], i16 [[TMP7]], i16 [[TMP19]])
	// CHECK1-NEXT: store i64 [[TMP19]], i64* [[TMP16]], align 4			// CHECK1-NEXT: store i64 [[TMP20]], i64* [[TMP16]], align 4
	// CHECK1-NEXT: [[TMP20:%.]] = getelementptr i64, i64 [[TMP15]], i64 1			// CHECK1-NEXT: [[TMP21:%.]] = getelementptr i64, i64 [[TMP15]], i64 1
	// CHECK1-NEXT: [[TMP21:%.]] = getelementptr i64, i64 [[TMP16]], i64 1			// CHECK1-NEXT: [[TMP22:%.]] = getelementptr i64, i64 [[TMP16]], i64 1
	// CHECK1-NEXT: [[TMP22:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK1-NEXT: [[TMP23:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	// CHECK1-NEXT: store i8* [[TMP22]], i8** [[TMP11]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: store i8* [[TMP23]], i8** [[TMP11]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: [[TMP23:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK1-NEXT: [[TMP24:%.*]] = icmp eq i16 [[TMP8]], 0
	// CHECK1-NEXT: [[TMP24:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK1-NEXT: [[TMP25:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK1-NEXT: [[TMP25:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]			// CHECK1-NEXT: [[TMP26:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]
	// CHECK1-NEXT: [[TMP26:%.*]] = and i1 [[TMP24]], [[TMP25]]			// CHECK1-NEXT: [[TMP27:%.*]] = and i1 [[TMP25]], [[TMP26]]
	// CHECK1-NEXT: [[TMP27:%.*]] = icmp eq i16 [[TMP8]], 2			// CHECK1-NEXT: [[TMP28:%.*]] = icmp eq i16 [[TMP8]], 2
	// CHECK1-NEXT: [[TMP28:%.*]] = and i16 [[TMP6]], 1			// CHECK1-NEXT: [[TMP29:%.*]] = and i16 [[TMP6]], 1
	// CHECK1-NEXT: [[TMP29:%.*]] = icmp eq i16 [[TMP28]], 0			// CHECK1-NEXT: [[TMP30:%.*]] = icmp eq i16 [[TMP29]], 0
	// CHECK1-NEXT: [[TMP30:%.*]] = and i1 [[TMP27]], [[TMP29]]			// CHECK1-NEXT: [[TMP31:%.*]] = and i1 [[TMP28]], [[TMP30]]
	// CHECK1-NEXT: [[TMP31:%.*]] = icmp sgt i16 [[TMP7]], 0			// CHECK1-NEXT: [[TMP32:%.*]] = icmp sgt i16 [[TMP7]], 0
	// CHECK1-NEXT: [[TMP32:%.*]] = and i1 [[TMP30]], [[TMP31]]			// CHECK1-NEXT: [[TMP33:%.*]] = and i1 [[TMP31]], [[TMP32]]
	// CHECK1-NEXT: [[TMP33:%.*]] = or i1 [[TMP23]], [[TMP26]]			// CHECK1-NEXT: [[TMP34:%.*]] = or i1 [[TMP24]], [[TMP27]]
	// CHECK1-NEXT: [[TMP34:%.*]] = or i1 [[TMP33]], [[TMP32]]			// CHECK1-NEXT: [[TMP35:%.*]] = or i1 [[TMP34]], [[TMP33]]
	// CHECK1-NEXT: br i1 [[TMP34]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK1-NEXT: br i1 [[TMP35]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK1: then:			// CHECK1: then:
	// CHECK1-NEXT: [[TMP35:%.]] = bitcast [1 x i8]* [[TMP5]] to i8*			// CHECK1-NEXT: [[TMP36:%.]] = bitcast [1 x i8]* [[TMP5]] to i8*
	// CHECK1-NEXT: [[TMP36:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*			// CHECK1-NEXT: [[TMP37:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*
	// CHECK1-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP35]], i8* [[TMP36]]) #[[ATTR5]]			// CHECK1-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP36]], i8* [[TMP37]]) #[[ATTR5]]
	// CHECK1-NEXT: br label [[IFCONT:%.*]]			// CHECK1-NEXT: br label [[IFCONT:%.*]]
	// CHECK1: else:			// CHECK1: else:
	// CHECK1-NEXT: br label [[IFCONT]]			// CHECK1-NEXT: br label [[IFCONT]]
	// CHECK1: ifcont:			// CHECK1: ifcont:
	// CHECK1-NEXT: [[TMP37:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK1-NEXT: [[TMP38:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK1-NEXT: [[TMP38:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]			// CHECK1-NEXT: [[TMP39:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]
	// CHECK1-NEXT: [[TMP39:%.*]] = and i1 [[TMP37]], [[TMP38]]			// CHECK1-NEXT: [[TMP40:%.*]] = and i1 [[TMP38]], [[TMP39]]
	// CHECK1-NEXT: br i1 [[TMP39]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK1-NEXT: br i1 [[TMP40]], label [[THEN4:%.]], label [[ELSE5:%.]]
	// CHECK1: then4:			// CHECK1: then4:
	// CHECK1-NEXT: [[TMP40:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK1-NEXT: [[TMP41:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP41:%.]] = load i8, i8** [[TMP40]], align 8			// CHECK1-NEXT: [[TMP42:%.]] = load i8, i8** [[TMP41]], align 8
	// CHECK1-NEXT: [[TMP42:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP5]], i64 0, i64 0			// CHECK1-NEXT: [[TMP43:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP5]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP43:%.]] = load i8, i8** [[TMP42]], align 8			// CHECK1-NEXT: [[TMP44:%.]] = load i8, i8** [[TMP43]], align 8
	// CHECK1-NEXT: [[TMP44:%.]] = bitcast i8 [[TMP41]] to %"class.std::complex"*			// CHECK1-NEXT: [[TMP45:%.]] = bitcast i8 [[TMP42]] to %"class.std::complex"*
	// CHECK1-NEXT: [[TMP45:%.]] = bitcast i8 [[TMP43]] to %"class.std::complex"*			// CHECK1-NEXT: [[TMP46:%.]] = bitcast i8 [[TMP44]] to %"class.std::complex"*
	// CHECK1-NEXT: [[TMP46:%.]] = bitcast %"class.std::complex" [[TMP45]] to i8*			// CHECK1-NEXT: [[TMP47:%.]] = bitcast %"class.std::complex" [[TMP46]] to i8*
	// CHECK1-NEXT: [[TMP47:%.]] = bitcast %"class.std::complex" [[TMP44]] to i8*			// CHECK1-NEXT: [[TMP48:%.]] = bitcast %"class.std::complex" [[TMP45]] to i8*
	// CHECK1-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 4 [[TMP46]], i8* align 4 [[TMP47]], i64 8, i1 false), !tbaa.struct !21			// CHECK1-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 4 [[TMP47]], i8* align 4 [[TMP48]], i64 8, i1 false), !tbaa.struct !21
	// CHECK1-NEXT: br label [[IFCONT6:%.*]]			// CHECK1-NEXT: br label [[IFCONT6:%.*]]
	// CHECK1: else5:			// CHECK1: else5:
	// CHECK1-NEXT: br label [[IFCONT6]]			// CHECK1-NEXT: br label [[IFCONT6]]
	// CHECK1: ifcont6:			// CHECK1: ifcont6:
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func			// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func
	// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {			// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK1-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[NVPTX_TID:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()			// CHECK1-NEXT: [[TMP3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_TID2:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()			// CHECK1-NEXT: [[TMP4:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK1-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[TMP4]], 31
	// CHECK1-NEXT: [[NVPTX_TID3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()			// CHECK1-NEXT: [[TMP5:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK1-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[TMP5]], 5
	// CHECK1-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8			// CHECK1-NEXT: [[TMP6:%.]] = load i8, i8** [[DOTADDR]], align 8
	// CHECK1-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]			// CHECK1-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to [1 x i8]
	// CHECK1-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: br label [[PRECOND:%.*]]			// CHECK1-NEXT: br label [[PRECOND:%.*]]
	// CHECK1: precond:			// CHECK1: precond:
	// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 2			// CHECK1-NEXT: [[TMP9:%.*]] = icmp ult i32 [[TMP8]], 2
	// CHECK1-NEXT: br i1 [[TMP6]], label [[BODY:%.]], label [[EXIT:%.]]			// CHECK1-NEXT: br i1 [[TMP9]], label [[BODY:%.]], label [[EXIT:%.]]
	// CHECK1: body:			// CHECK1: body:
	// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4:[0-9]+]], i32 [[TMP2]])			// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4:[0-9]+]], i32 [[TMP2]])
	// CHECK1-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK1-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK1-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK1-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK1: then:			// CHECK1: then:
	// CHECK1-NEXT: [[TMP7:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0			// CHECK1-NEXT: [[TMP10:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP7]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP8:%.]] = load i8, i8** [[TMP7]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: [[TMP11:%.]] = load i8, i8** [[TMP10]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: [[TMP9:%.]] = bitcast i8 [[TMP8]] to i32*			// CHECK1-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP11]] to i32*
	// CHECK1-NEXT: [[TMP10:%.]] = getelementptr i32, i32 [[TMP9]], i32 [[TMP5]]			// CHECK1-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i32 [[TMP8]]
	// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK1-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK1-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP10]], align 4			// CHECK1-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP13]], align 4
	// CHECK1-NEXT: store volatile i32 [[TMP12]], i32 addrspace(3)* [[TMP11]], align 4			// CHECK1-NEXT: store volatile i32 [[TMP15]], i32 addrspace(3)* [[TMP14]], align 4
	// CHECK1-NEXT: br label [[IFCONT:%.*]]			// CHECK1-NEXT: br label [[IFCONT:%.*]]
	// CHECK1: else:			// CHECK1: else:
	// CHECK1-NEXT: br label [[IFCONT]]			// CHECK1-NEXT: br label [[IFCONT]]
	// CHECK1: ifcont:			// CHECK1: ifcont:
	// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK1-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]			// CHECK1-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[TMP3]], [[TMP16]]
	// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN2:%.]], label [[ELSE3:%.]]
	// CHECK1: then2:			// CHECK1: then2:
	// CHECK1-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK1-NEXT: [[TMP17:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK1-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0			// CHECK1-NEXT: [[TMP18:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP7]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: [[TMP19:%.]] = load i8, i8** [[TMP18]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*			// CHECK1-NEXT: [[TMP20:%.]] = bitcast i8 [[TMP19]] to i32*
	// CHECK1-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]			// CHECK1-NEXT: [[TMP21:%.]] = getelementptr i32, i32 [[TMP20]], i32 [[TMP8]]
	// CHECK1-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP22:%.]] = load volatile i32, i32 addrspace(3) [[TMP17]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 [[TMP22]], i32* [[TMP21]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: br label [[IFCONT6:%.*]]			// CHECK1-NEXT: br label [[IFCONT4:%.*]]
	// CHECK1: else3:			// CHECK1: else3:
	// CHECK1-NEXT: br label [[IFCONT6]]			// CHECK1-NEXT: br label [[IFCONT4]]
	// CHECK1: ifcont4:			// CHECK1: ifcont4:
	// CHECK1-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1			// CHECK1-NEXT: [[TMP23:%.*]] = add nsw i32 [[TMP8]], 1
	// CHECK1-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 [[TMP23]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: br label [[PRECOND]]			// CHECK1-NEXT: br label [[PRECOND]]
	// CHECK1: exit:			// CHECK1: exit:
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper			// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
	// CHECK1-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {			// CHECK1-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[IB:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[IB:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[REF_TMP:%.*]] = alloca double, align 8			// CHECK1-NEXT: [[REF_TMP:%.*]] = alloca double, align 8
	// CHECK1-NEXT: [[REF_TMP2:%.*]] = alloca double, align 8			// CHECK1-NEXT: [[REF_TMP2:%.*]] = alloca double, align 8
	// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 8			// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 8
	// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: [[ISTART:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK1-NEXT: [[ISTART:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK1-NEXT: [[ISTART_ON_STACK:%.]] = bitcast i8 [[ISTART]] to i32*			// CHECK1-NEXT: [[ISTART_ON_STACK:%.]] = bitcast i8 [[ISTART]] to i32*
	// CHECK1-NEXT: [[IEND:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK1-NEXT: [[IEND:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK1-NEXT: [[IEND_ON_STACK:%.]] = bitcast i8 [[IEND]] to i32*			// CHECK1-NEXT: [[IEND_ON_STACK:%.]] = bitcast i8 [[IEND]] to i32*
	// CHECK1-NEXT: [[PARTIAL_SUM:%.]] = call i8 @__kmpc_alloc_shared(i64 16)			// CHECK1-NEXT: [[PARTIAL_SUM:%.]] = call align 8 i8 @__kmpc_alloc_shared(i64 16)
	// CHECK1-NEXT: [[PARTIAL_SUM_ON_STACK:%.]] = bitcast i8 [[PARTIAL_SUM]] to %"class.std::complex.0"*			// CHECK1-NEXT: [[PARTIAL_SUM_ON_STACK:%.]] = bitcast i8 [[PARTIAL_SUM]] to %"class.std::complex.0"*
	// CHECK1-NEXT: [[TMP0:%.]] = bitcast i32 [[DOTOMP_IV]] to i8*			// CHECK1-NEXT: [[TMP0:%.]] = bitcast i32 [[DOTOMP_IV]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP0]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP0]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP1:%.]] = bitcast i32 [[DOTOMP_LB]] to i8*			// CHECK1-NEXT: [[TMP1:%.]] = bitcast i32 [[DOTOMP_LB]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP1]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP1]]) #[[ATTR5]]
	// CHECK1-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[TMP2:%.]] = bitcast i32 [[DOTOMP_UB]] to i8*			// CHECK1-NEXT: [[TMP2:%.]] = bitcast i32 [[DOTOMP_UB]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP2]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP2]]) #[[ATTR5]]
	Show All 36 Lines
	// CHECK1-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]			// CHECK1-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]
	// CHECK1-NEXT: store i32 [[ADD]], i32* [[IB]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 [[ADD]], i32* [[IB]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[TMP14:%.]] = bitcast double [[REF_TMP]] to i8*			// CHECK1-NEXT: [[TMP14:%.]] = bitcast double [[REF_TMP]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP14]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP14]]) #[[ATTR5]]
	// CHECK1-NEXT: store double 0.000000e+00, double* [[REF_TMP]], align 8, !tbaa [[TBAA22:![0-9]+]]			// CHECK1-NEXT: store double 0.000000e+00, double* [[REF_TMP]], align 8, !tbaa [[TBAA22:![0-9]+]]
	// CHECK1-NEXT: [[TMP15:%.]] = bitcast double [[REF_TMP2]] to i8*			// CHECK1-NEXT: [[TMP15:%.]] = bitcast double [[REF_TMP2]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP15]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP15]]) #[[ATTR5]]
	// CHECK1-NEXT: store double 0.000000e+00, double* [[REF_TMP2]], align 8, !tbaa [[TBAA22]]			// CHECK1-NEXT: store double 0.000000e+00, double* [[REF_TMP2]], align 8, !tbaa [[TBAA22]]
	// CHECK1-NEXT: call void @_ZNSt7complexIdEC1ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM_ON_STACK]], double* nonnull align 8 dereferenceable(8) [[REF_TMP]], double* nonnull align 8 dereferenceable(8) [[REF_TMP2]]) #[[ATTR11]]			// CHECK1-NEXT: call void @_ZNSt7complexIdEC1ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM_ON_STACK]], double* nonnull align 8 dereferenceable(8) [[REF_TMP]], double* nonnull align 8 dereferenceable(8) [[REF_TMP2]]) #[[ATTR10]]
	// CHECK1-NEXT: [[TMP16:%.]] = bitcast double [[REF_TMP2]] to i8*			// CHECK1-NEXT: [[TMP16:%.]] = bitcast double [[REF_TMP2]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP16]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP16]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP17:%.]] = bitcast double [[REF_TMP]] to i8*			// CHECK1-NEXT: [[TMP17:%.]] = bitcast double [[REF_TMP]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP17]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP17]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP18:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP18:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[MUL3:%.*]] = mul nsw i32 [[TMP18]], 4			// CHECK1-NEXT: [[MUL3:%.*]] = mul nsw i32 [[TMP18]], 4
	// CHECK1-NEXT: store i32 [[MUL3]], i32* [[ISTART_ON_STACK]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 [[MUL3]], i32* [[ISTART_ON_STACK]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[TMP19:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP19:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: [[__RE_ADDR:%.]] = alloca double, align 8			// CHECK1-NEXT: [[__RE_ADDR:%.]] = alloca double, align 8
	// CHECK1-NEXT: [[__IM_ADDR:%.]] = alloca double, align 8			// CHECK1-NEXT: [[__IM_ADDR:%.]] = alloca double, align 8
	// CHECK1-NEXT: store %"class.std::complex.0"* [[THIS]], %"class.std::complex.0"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: store %"class.std::complex.0"* [[THIS]], %"class.std::complex.0"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: store double* [[__RE]], double** [[__RE_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: store double* [[__RE]], double** [[__RE_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: store double* [[__IM]], double** [[__IM_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: store double* [[__IM]], double** [[__IM_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: [[THIS1:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[THIS_ADDR]], align 8			// CHECK1-NEXT: [[THIS1:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[THIS_ADDR]], align 8
	// CHECK1-NEXT: [[TMP0:%.]] = load double, double** [[__RE_ADDR]], align 8			// CHECK1-NEXT: [[TMP0:%.]] = load double, double** [[__RE_ADDR]], align 8
	// CHECK1-NEXT: [[TMP1:%.]] = load double, double** [[__IM_ADDR]], align 8			// CHECK1-NEXT: [[TMP1:%.]] = load double, double** [[__IM_ADDR]], align 8
	// CHECK1-NEXT: call void @_ZNSt7complexIdEC2ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[THIS1]], double* nonnull align 8 dereferenceable(8) [[TMP0]], double* nonnull align 8 dereferenceable(8) [[TMP1]]) #[[ATTR11]]			// CHECK1-NEXT: call void @_ZNSt7complexIdEC2ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[THIS1]], double* nonnull align 8 dereferenceable(8) [[TMP0]], double* nonnull align 8 dereferenceable(8) [[TMP1]]) #[[ATTR10]]
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__3			// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__3
	// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[ISTART:%.]], i32 nonnull align 4 dereferenceable(4) [[IEND:%.]], %"class.std::complex.0" nonnull align 8 dereferenceable(16) [[PARTIAL_SUM:%.*]]) #[[ATTR0]] {			// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[ISTART:%.]], i32 nonnull align 4 dereferenceable(4) [[IEND:%.]], %"class.std::complex.0" nonnull align 8 dereferenceable(16) [[PARTIAL_SUM:%.*]]) #[[ATTR0]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: [[TMP21:%.]] = bitcast %"class.std::complex.0" [[PARTIAL_SUM5]] to i8*			// CHECK1-NEXT: [[TMP21:%.]] = bitcast %"class.std::complex.0" [[PARTIAL_SUM5]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 16, i8* [[TMP21]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 16, i8* [[TMP21]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP22:%.]] = bitcast double [[REF_TMP]] to i8*			// CHECK1-NEXT: [[TMP22:%.]] = bitcast double [[REF_TMP]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP22]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP22]]) #[[ATTR5]]
	// CHECK1-NEXT: store double 0.000000e+00, double* [[REF_TMP]], align 8, !tbaa [[TBAA22]]			// CHECK1-NEXT: store double 0.000000e+00, double* [[REF_TMP]], align 8, !tbaa [[TBAA22]]
	// CHECK1-NEXT: [[TMP23:%.]] = bitcast double [[REF_TMP6]] to i8*			// CHECK1-NEXT: [[TMP23:%.]] = bitcast double [[REF_TMP6]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP23]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP23]]) #[[ATTR5]]
	// CHECK1-NEXT: store double 0.000000e+00, double* [[REF_TMP6]], align 8, !tbaa [[TBAA22]]			// CHECK1-NEXT: store double 0.000000e+00, double* [[REF_TMP6]], align 8, !tbaa [[TBAA22]]
	// CHECK1-NEXT: call void @_ZNSt7complexIdEC1ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM5]], double* nonnull align 8 dereferenceable(8) [[REF_TMP]], double* nonnull align 8 dereferenceable(8) [[REF_TMP6]]) #[[ATTR11]]			// CHECK1-NEXT: call void @_ZNSt7complexIdEC1ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM5]], double* nonnull align 8 dereferenceable(8) [[REF_TMP]], double* nonnull align 8 dereferenceable(8) [[REF_TMP6]]) #[[ATTR10]]
	// CHECK1-NEXT: [[TMP24:%.]] = bitcast double [[REF_TMP6]] to i8*			// CHECK1-NEXT: [[TMP24:%.]] = bitcast double [[REF_TMP6]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP24]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP24]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP25:%.]] = bitcast double [[REF_TMP]] to i8*			// CHECK1-NEXT: [[TMP25:%.]] = bitcast double [[REF_TMP]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP25]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP25]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP26:%.]] = bitcast i32 [[I7]] to i8*			// CHECK1-NEXT: [[TMP26:%.]] = bitcast i32 [[I7]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP26]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP26]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP27:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8			// CHECK1-NEXT: [[TMP27:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
	// CHECK1-NEXT: [[TMP28:%.]] = load i32, i32 [[TMP27]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP28:%.]] = load i32, i32 [[TMP27]], align 4, !tbaa [[TBAA8]]
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: [[TMP42:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP42:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP42]] to double			// CHECK1-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP42]] to double
	// CHECK1-NEXT: store double [[CONV]], double* [[REF_TMP15]], align 8, !tbaa [[TBAA22]]			// CHECK1-NEXT: store double [[CONV]], double* [[REF_TMP15]], align 8, !tbaa [[TBAA22]]
	// CHECK1-NEXT: [[TMP43:%.]] = bitcast double [[REF_TMP16]] to i8*			// CHECK1-NEXT: [[TMP43:%.]] = bitcast double [[REF_TMP16]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP43]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP43]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP44:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP44:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[CONV17:%.*]] = sitofp i32 [[TMP44]] to double			// CHECK1-NEXT: [[CONV17:%.*]] = sitofp i32 [[TMP44]] to double
	// CHECK1-NEXT: store double [[CONV17]], double* [[REF_TMP16]], align 8, !tbaa [[TBAA22]]			// CHECK1-NEXT: store double [[CONV17]], double* [[REF_TMP16]], align 8, !tbaa [[TBAA22]]
	// CHECK1-NEXT: call void @_ZNSt7complexIdEC1ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[REF_TMP14]], double* nonnull align 8 dereferenceable(8) [[REF_TMP15]], double* nonnull align 8 dereferenceable(8) [[REF_TMP16]]) #[[ATTR11]]			// CHECK1-NEXT: call void @_ZNSt7complexIdEC1ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[REF_TMP14]], double* nonnull align 8 dereferenceable(8) [[REF_TMP15]], double* nonnull align 8 dereferenceable(8) [[REF_TMP16]]) #[[ATTR10]]
	// CHECK1-NEXT: [[CALL:%.]] = call nonnull align 8 dereferenceable(16) %"class.std::complex.0" @_ZNSt7complexIdEpLIdEERS0_RKS_IT_E(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM5]], %"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[REF_TMP14]]) #[[ATTR11]]			// CHECK1-NEXT: [[CALL:%.]] = call nonnull align 8 dereferenceable(16) %"class.std::complex.0" @_ZNSt7complexIdEpLIdEERS0_RKS_IT_E(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM5]], %"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[REF_TMP14]]) #[[ATTR10]]
	// CHECK1-NEXT: [[TMP45:%.]] = bitcast double [[REF_TMP16]] to i8*			// CHECK1-NEXT: [[TMP45:%.]] = bitcast double [[REF_TMP16]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP45]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP45]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP46:%.]] = bitcast double [[REF_TMP15]] to i8*			// CHECK1-NEXT: [[TMP46:%.]] = bitcast double [[REF_TMP15]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP46]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP46]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP47:%.]] = bitcast %"class.std::complex.0" [[REF_TMP14]] to i8*			// CHECK1-NEXT: [[TMP47:%.]] = bitcast %"class.std::complex.0" [[REF_TMP14]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 16, i8* [[TMP47]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 16, i8* [[TMP47]]) #[[ATTR5]]
	// CHECK1-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]			// CHECK1-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]
	// CHECK1: omp.body.continue:			// CHECK1: omp.body.continue:
	Show All 24 Lines
	// CHECK1-NEXT: [[TMP57:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 0			// CHECK1-NEXT: [[TMP57:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP58:%.]] = bitcast %"class.std::complex.0" [[PARTIAL_SUM5]] to i8*			// CHECK1-NEXT: [[TMP58:%.]] = bitcast %"class.std::complex.0" [[PARTIAL_SUM5]] to i8*
	// CHECK1-NEXT: store i8* [[TMP58]], i8** [[TMP57]], align 8			// CHECK1-NEXT: store i8* [[TMP58]], i8** [[TMP57]], align 8
	// CHECK1-NEXT: [[TMP59:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK1-NEXT: [[TMP59:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK1-NEXT: [[TMP60:%.]] = call i32 @__kmpc_nvptx_parallel_reduce_nowait_v2(%struct.ident_t @[[GLOB1]], i32 [[TMP56]], i32 1, i64 8, i8* [[TMP59]], void (i8, i16, i16, i16) @_omp_reduction_shuffle_and_reduce_func5, void (i8, i32) @_omp_reduction_inter_warp_copy_func6)			// CHECK1-NEXT: [[TMP60:%.]] = call i32 @__kmpc_nvptx_parallel_reduce_nowait_v2(%struct.ident_t @[[GLOB1]], i32 [[TMP56]], i32 1, i64 8, i8* [[TMP59]], void (i8, i16, i16, i16) @_omp_reduction_shuffle_and_reduce_func5, void (i8, i32) @_omp_reduction_inter_warp_copy_func6)
	// CHECK1-NEXT: [[TMP61:%.*]] = icmp eq i32 [[TMP60]], 1			// CHECK1-NEXT: [[TMP61:%.*]] = icmp eq i32 [[TMP60]], 1
	// CHECK1-NEXT: br i1 [[TMP61]], label [[DOTOMP_REDUCTION_THEN:%.]], label [[DOTOMP_REDUCTION_DONE:%.]]			// CHECK1-NEXT: br i1 [[TMP61]], label [[DOTOMP_REDUCTION_THEN:%.]], label [[DOTOMP_REDUCTION_DONE:%.]]
	// CHECK1: .omp.reduction.then:			// CHECK1: .omp.reduction.then:
	// CHECK1-NEXT: [[CALL21:%.]] = call nonnull align 8 dereferenceable(16) %"class.std::complex.0" @_ZNSt7complexIdEpLIdEERS0_RKS_IT_E(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[TMP2]], %"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM5]]) #[[ATTR11]]			// CHECK1-NEXT: [[CALL21:%.]] = call nonnull align 8 dereferenceable(16) %"class.std::complex.0" @_ZNSt7complexIdEpLIdEERS0_RKS_IT_E(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[TMP2]], %"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM5]]) #[[ATTR10]]
	// CHECK1-NEXT: call void @__kmpc_nvptx_end_reduce_nowait(i32 [[TMP56]])			// CHECK1-NEXT: call void @__kmpc_nvptx_end_reduce_nowait(i32 [[TMP56]])
	// CHECK1-NEXT: br label [[DOTOMP_REDUCTION_DONE]]			// CHECK1-NEXT: br label [[DOTOMP_REDUCTION_DONE]]
	// CHECK1: .omp.reduction.done:			// CHECK1: .omp.reduction.done:
	// CHECK1-NEXT: [[TMP62:%.]] = bitcast i32 [[I7]] to i8*			// CHECK1-NEXT: [[TMP62:%.]] = bitcast i32 [[I7]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP62]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP62]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP63:%.]] = bitcast %"class.std::complex.0" [[PARTIAL_SUM5]] to i8*			// CHECK1-NEXT: [[TMP63:%.]] = bitcast %"class.std::complex.0" [[PARTIAL_SUM5]] to i8*
	// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 16, i8* [[TMP63]]) #[[ATTR5]]			// CHECK1-NEXT: call void @llvm.lifetime.end.p0i8(i64 16, i8* [[TMP63]]) #[[ATTR5]]
	// CHECK1-NEXT: [[TMP64:%.]] = bitcast i32 [[DOTOMP_IS_LAST]] to i8*			// CHECK1-NEXT: [[TMP64:%.]] = bitcast i32 [[DOTOMP_IS_LAST]] to i8*
	Show All 21 Lines
	// CHECK1-SAME: (%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[THIS:%.]], %"class.std::complex.0" nonnull align 8 dereferenceable(16) [[__C:%.*]]) #[[ATTR4]] comdat align 2 {			// CHECK1-SAME: (%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[THIS:%.]], %"class.std::complex.0" nonnull align 8 dereferenceable(16) [[__C:%.*]]) #[[ATTR4]] comdat align 2 {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[THIS_ADDR:%.]] = alloca %"class.std::complex.0", align 8			// CHECK1-NEXT: [[THIS_ADDR:%.]] = alloca %"class.std::complex.0", align 8
	// CHECK1-NEXT: [[__C_ADDR:%.]] = alloca %"class.std::complex.0", align 8			// CHECK1-NEXT: [[__C_ADDR:%.]] = alloca %"class.std::complex.0", align 8
	// CHECK1-NEXT: store %"class.std::complex.0"* [[THIS]], %"class.std::complex.0"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: store %"class.std::complex.0"* [[THIS]], %"class.std::complex.0"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: store %"class.std::complex.0"* [[__C]], %"class.std::complex.0"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: store %"class.std::complex.0"* [[__C]], %"class.std::complex.0"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: [[THIS1:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[THIS_ADDR]], align 8			// CHECK1-NEXT: [[THIS1:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[THIS_ADDR]], align 8
	// CHECK1-NEXT: [[TMP0:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: [[TMP0:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: [[CALL:%.]] = call double @_ZNKSt7complexIdE4realEv(%"class.std::complex.0" nonnull align 8 dereferenceable(16) [[TMP0]]) #[[ATTR11]]			// CHECK1-NEXT: [[CALL:%.]] = call double @_ZNKSt7complexIdE4realEv(%"class.std::complex.0" nonnull align 8 dereferenceable(16) [[TMP0]]) #[[ATTR10]]
	// CHECK1-NEXT: [[__RE_:%.]] = getelementptr inbounds %"class.std::complex.0", %"class.std::complex.0" [[THIS1]], i32 0, i32 0			// CHECK1-NEXT: [[__RE_:%.]] = getelementptr inbounds %"class.std::complex.0", %"class.std::complex.0" [[THIS1]], i32 0, i32 0
	// CHECK1-NEXT: [[TMP1:%.]] = load double, double [[__RE_]], align 8, !tbaa [[TBAA24:![0-9]+]]			// CHECK1-NEXT: [[TMP1:%.]] = load double, double [[__RE_]], align 8, !tbaa [[TBAA24:![0-9]+]]
	// CHECK1-NEXT: [[ADD:%.*]] = fadd double [[TMP1]], [[CALL]]			// CHECK1-NEXT: [[ADD:%.*]] = fadd double [[TMP1]], [[CALL]]
	// CHECK1-NEXT: store double [[ADD]], double* [[__RE_]], align 8, !tbaa [[TBAA24]]			// CHECK1-NEXT: store double [[ADD]], double* [[__RE_]], align 8, !tbaa [[TBAA24]]
	// CHECK1-NEXT: [[TMP2:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: [[TMP2:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: [[CALL2:%.]] = call double @_ZNKSt7complexIdE4imagEv(%"class.std::complex.0" nonnull align 8 dereferenceable(16) [[TMP2]]) #[[ATTR11]]			// CHECK1-NEXT: [[CALL2:%.]] = call double @_ZNKSt7complexIdE4imagEv(%"class.std::complex.0" nonnull align 8 dereferenceable(16) [[TMP2]]) #[[ATTR10]]
	// CHECK1-NEXT: [[__IM_:%.]] = getelementptr inbounds %"class.std::complex.0", %"class.std::complex.0" [[THIS1]], i32 0, i32 1			// CHECK1-NEXT: [[__IM_:%.]] = getelementptr inbounds %"class.std::complex.0", %"class.std::complex.0" [[THIS1]], i32 0, i32 1
	// CHECK1-NEXT: [[TMP3:%.]] = load double, double [[__IM_]], align 8, !tbaa [[TBAA26:![0-9]+]]			// CHECK1-NEXT: [[TMP3:%.]] = load double, double [[__IM_]], align 8, !tbaa [[TBAA26:![0-9]+]]
	// CHECK1-NEXT: [[ADD3:%.*]] = fadd double [[TMP3]], [[CALL2]]			// CHECK1-NEXT: [[ADD3:%.*]] = fadd double [[TMP3]], [[CALL2]]
	// CHECK1-NEXT: store double [[ADD3]], double* [[__IM_]], align 8, !tbaa [[TBAA26]]			// CHECK1-NEXT: store double [[ADD3]], double* [[__IM_]], align 8, !tbaa [[TBAA26]]
	// CHECK1-NEXT: ret %"class.std::complex.0"* [[THIS1]]			// CHECK1-NEXT: ret %"class.std::complex.0"* [[THIS1]]
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_shuffle_and_reduce_func5			// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_shuffle_and_reduce_func5
	Show All 19 Lines
	// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to %"class.std::complex.0"*			// CHECK1-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to %"class.std::complex.0"*
	// CHECK1-NEXT: [[TMP13:%.]] = getelementptr %"class.std::complex.0", %"class.std::complex.0" [[TMP12]], i64 1			// CHECK1-NEXT: [[TMP13:%.]] = getelementptr %"class.std::complex.0", %"class.std::complex.0" [[TMP12]], i64 1
	// CHECK1-NEXT: [[TMP14:%.]] = bitcast %"class.std::complex.0" [[TMP13]] to i8*			// CHECK1-NEXT: [[TMP14:%.]] = bitcast %"class.std::complex.0" [[TMP13]] to i8*
	// CHECK1-NEXT: [[TMP15:%.]] = bitcast %"class.std::complex.0" [[TMP12]] to i64*			// CHECK1-NEXT: [[TMP15:%.]] = bitcast %"class.std::complex.0" [[TMP12]] to i64*
	// CHECK1-NEXT: [[TMP16:%.]] = bitcast %"class.std::complex.0" [[DOTOMP_REDUCTION_ELEMENT]] to i64*			// CHECK1-NEXT: [[TMP16:%.]] = bitcast %"class.std::complex.0" [[DOTOMP_REDUCTION_ELEMENT]] to i64*
	// CHECK1-NEXT: br label [[DOTSHUFFLE_PRE_COND:%.*]]			// CHECK1-NEXT: br label [[DOTSHUFFLE_PRE_COND:%.*]]
	// CHECK1: .shuffle.pre_cond:			// CHECK1: .shuffle.pre_cond:
	// CHECK1-NEXT: [[TMP17:%.]] = phi i64 [ [[TMP15]], [[ENTRY:%.]] ], [ [[TMP28:%.]], [[DOTSHUFFLE_THEN:%.*]] ]			// CHECK1-NEXT: [[TMP17:%.]] = phi i64 [ [[TMP15]], [[ENTRY:%.]] ], [ [[TMP29:%.]], [[DOTSHUFFLE_THEN:%.*]] ]
	// CHECK1-NEXT: [[TMP18:%.]] = phi i64 [ [[TMP16]], [[ENTRY]] ], [ [[TMP29:%.*]], [[DOTSHUFFLE_THEN]] ]			// CHECK1-NEXT: [[TMP18:%.]] = phi i64 [ [[TMP16]], [[ENTRY]] ], [ [[TMP30:%.*]], [[DOTSHUFFLE_THEN]] ]
	// CHECK1-NEXT: [[TMP19:%.]] = bitcast i64 [[TMP17]] to i8*			// CHECK1-NEXT: [[TMP19:%.]] = bitcast i64 [[TMP17]] to i8*
	// CHECK1-NEXT: [[TMP20:%.]] = ptrtoint i8 [[TMP14]] to i64			// CHECK1-NEXT: [[TMP20:%.]] = ptrtoint i8 [[TMP14]] to i64
	// CHECK1-NEXT: [[TMP21:%.]] = ptrtoint i8 [[TMP19]] to i64			// CHECK1-NEXT: [[TMP21:%.]] = ptrtoint i8 [[TMP19]] to i64
	// CHECK1-NEXT: [[TMP22:%.*]] = sub i64 [[TMP20]], [[TMP21]]			// CHECK1-NEXT: [[TMP22:%.*]] = sub i64 [[TMP20]], [[TMP21]]
	// CHECK1-NEXT: [[TMP23:%.]] = sdiv exact i64 [[TMP22]], ptrtoint (i8 getelementptr (i8, i8* null, i32 1) to i64)			// CHECK1-NEXT: [[TMP23:%.]] = sdiv exact i64 [[TMP22]], ptrtoint (i8 getelementptr (i8, i8* null, i32 1) to i64)
	// CHECK1-NEXT: [[TMP24:%.*]] = icmp sgt i64 [[TMP23]], 7			// CHECK1-NEXT: [[TMP24:%.*]] = icmp sgt i64 [[TMP23]], 7
	// CHECK1-NEXT: br i1 [[TMP24]], label [[DOTSHUFFLE_THEN]], label [[DOTSHUFFLE_EXIT:%.*]]			// CHECK1-NEXT: br i1 [[TMP24]], label [[DOTSHUFFLE_THEN]], label [[DOTSHUFFLE_EXIT:%.*]]
	// CHECK1: .shuffle.then:			// CHECK1: .shuffle.then:
	// CHECK1-NEXT: [[TMP25:%.]] = load i64, i64 [[TMP17]], align 8			// CHECK1-NEXT: [[TMP25:%.]] = load i64, i64 [[TMP17]], align 8
	// CHECK1-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()			// CHECK1-NEXT: [[TMP26:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK1-NEXT: [[TMP26:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK1-NEXT: [[TMP27:%.*]] = trunc i32 [[TMP26]] to i16
	// CHECK1-NEXT: [[TMP27:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP25]], i16 [[TMP7]], i16 [[TMP26]])			// CHECK1-NEXT: [[TMP28:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP25]], i16 [[TMP7]], i16 [[TMP27]])
	// CHECK1-NEXT: store i64 [[TMP27]], i64* [[TMP18]], align 8			// CHECK1-NEXT: store i64 [[TMP28]], i64* [[TMP18]], align 8
	// CHECK1-NEXT: [[TMP28]] = getelementptr i64, i64* [[TMP17]], i64 1			// CHECK1-NEXT: [[TMP29]] = getelementptr i64, i64* [[TMP17]], i64 1
	// CHECK1-NEXT: [[TMP29]] = getelementptr i64, i64* [[TMP18]], i64 1			// CHECK1-NEXT: [[TMP30]] = getelementptr i64, i64* [[TMP18]], i64 1
	// CHECK1-NEXT: br label [[DOTSHUFFLE_PRE_COND]]			// CHECK1-NEXT: br label [[DOTSHUFFLE_PRE_COND]]
	// CHECK1: .shuffle.exit:			// CHECK1: .shuffle.exit:
	// CHECK1-NEXT: [[TMP30:%.]] = bitcast %"class.std::complex.0" [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK1-NEXT: [[TMP31:%.]] = bitcast %"class.std::complex.0" [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	// CHECK1-NEXT: store i8* [[TMP30]], i8** [[TMP11]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: store i8* [[TMP31]], i8** [[TMP11]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: [[TMP31:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK1-NEXT: [[TMP32:%.*]] = icmp eq i16 [[TMP8]], 0
	// CHECK1-NEXT: [[TMP32:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK1-NEXT: [[TMP33:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK1-NEXT: [[TMP33:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]			// CHECK1-NEXT: [[TMP34:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]
	// CHECK1-NEXT: [[TMP34:%.*]] = and i1 [[TMP32]], [[TMP33]]			// CHECK1-NEXT: [[TMP35:%.*]] = and i1 [[TMP33]], [[TMP34]]
	// CHECK1-NEXT: [[TMP35:%.*]] = icmp eq i16 [[TMP8]], 2			// CHECK1-NEXT: [[TMP36:%.*]] = icmp eq i16 [[TMP8]], 2
	// CHECK1-NEXT: [[TMP36:%.*]] = and i16 [[TMP6]], 1			// CHECK1-NEXT: [[TMP37:%.*]] = and i16 [[TMP6]], 1
	// CHECK1-NEXT: [[TMP37:%.*]] = icmp eq i16 [[TMP36]], 0			// CHECK1-NEXT: [[TMP38:%.*]] = icmp eq i16 [[TMP37]], 0
	// CHECK1-NEXT: [[TMP38:%.*]] = and i1 [[TMP35]], [[TMP37]]			// CHECK1-NEXT: [[TMP39:%.*]] = and i1 [[TMP36]], [[TMP38]]
	// CHECK1-NEXT: [[TMP39:%.*]] = icmp sgt i16 [[TMP7]], 0			// CHECK1-NEXT: [[TMP40:%.*]] = icmp sgt i16 [[TMP7]], 0
	// CHECK1-NEXT: [[TMP40:%.*]] = and i1 [[TMP38]], [[TMP39]]			// CHECK1-NEXT: [[TMP41:%.*]] = and i1 [[TMP39]], [[TMP40]]
	// CHECK1-NEXT: [[TMP41:%.*]] = or i1 [[TMP31]], [[TMP34]]			// CHECK1-NEXT: [[TMP42:%.*]] = or i1 [[TMP32]], [[TMP35]]
	// CHECK1-NEXT: [[TMP42:%.*]] = or i1 [[TMP41]], [[TMP40]]			// CHECK1-NEXT: [[TMP43:%.*]] = or i1 [[TMP42]], [[TMP41]]
	// CHECK1-NEXT: br i1 [[TMP42]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK1-NEXT: br i1 [[TMP43]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK1: then:			// CHECK1: then:
	// CHECK1-NEXT: [[TMP43:%.]] = bitcast [1 x i8]* [[TMP5]] to i8*			// CHECK1-NEXT: [[TMP44:%.]] = bitcast [1 x i8]* [[TMP5]] to i8*
	// CHECK1-NEXT: [[TMP44:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*			// CHECK1-NEXT: [[TMP45:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*
	// CHECK1-NEXT: call void @"_omp$reduction$reduction_func4"(i8* [[TMP43]], i8* [[TMP44]]) #[[ATTR5]]			// CHECK1-NEXT: call void @"_omp$reduction$reduction_func4"(i8* [[TMP44]], i8* [[TMP45]]) #[[ATTR5]]
	// CHECK1-NEXT: br label [[IFCONT:%.*]]			// CHECK1-NEXT: br label [[IFCONT:%.*]]
	// CHECK1: else:			// CHECK1: else:
	// CHECK1-NEXT: br label [[IFCONT]]			// CHECK1-NEXT: br label [[IFCONT]]
	// CHECK1: ifcont:			// CHECK1: ifcont:
	// CHECK1-NEXT: [[TMP45:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK1-NEXT: [[TMP46:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK1-NEXT: [[TMP46:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]			// CHECK1-NEXT: [[TMP47:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]
	// CHECK1-NEXT: [[TMP47:%.*]] = and i1 [[TMP45]], [[TMP46]]			// CHECK1-NEXT: [[TMP48:%.*]] = and i1 [[TMP46]], [[TMP47]]
	// CHECK1-NEXT: br i1 [[TMP47]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK1-NEXT: br i1 [[TMP48]], label [[THEN4:%.]], label [[ELSE5:%.]]
	// CHECK1: then4:			// CHECK1: then4:
	// CHECK1-NEXT: [[TMP48:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK1-NEXT: [[TMP49:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP49:%.]] = load i8, i8** [[TMP48]], align 8			// CHECK1-NEXT: [[TMP50:%.]] = load i8, i8** [[TMP49]], align 8
	// CHECK1-NEXT: [[TMP50:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP5]], i64 0, i64 0			// CHECK1-NEXT: [[TMP51:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP5]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP51:%.]] = load i8, i8** [[TMP50]], align 8			// CHECK1-NEXT: [[TMP52:%.]] = load i8, i8** [[TMP51]], align 8
	// CHECK1-NEXT: [[TMP52:%.]] = bitcast i8 [[TMP49]] to %"class.std::complex.0"*			// CHECK1-NEXT: [[TMP53:%.]] = bitcast i8 [[TMP50]] to %"class.std::complex.0"*
	// CHECK1-NEXT: [[TMP53:%.]] = bitcast i8 [[TMP51]] to %"class.std::complex.0"*			// CHECK1-NEXT: [[TMP54:%.]] = bitcast i8 [[TMP52]] to %"class.std::complex.0"*
	// CHECK1-NEXT: [[TMP54:%.]] = bitcast %"class.std::complex.0" [[TMP53]] to i8*			// CHECK1-NEXT: [[TMP55:%.]] = bitcast %"class.std::complex.0" [[TMP54]] to i8*
	// CHECK1-NEXT: [[TMP55:%.]] = bitcast %"class.std::complex.0" [[TMP52]] to i8*			// CHECK1-NEXT: [[TMP56:%.]] = bitcast %"class.std::complex.0" [[TMP53]] to i8*
	// CHECK1-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP54]], i8* align 8 [[TMP55]], i64 16, i1 false), !tbaa.struct !27			// CHECK1-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP55]], i8* align 8 [[TMP56]], i64 16, i1 false), !tbaa.struct !27
	// CHECK1-NEXT: br label [[IFCONT6:%.*]]			// CHECK1-NEXT: br label [[IFCONT6:%.*]]
	// CHECK1: else5:			// CHECK1: else5:
	// CHECK1-NEXT: br label [[IFCONT6]]			// CHECK1-NEXT: br label [[IFCONT6]]
	// CHECK1: ifcont6:			// CHECK1: ifcont6:
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func6			// CHECK1-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func6
	// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {			// CHECK1-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK1-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK1-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[NVPTX_TID:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()			// CHECK1-NEXT: [[TMP3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_TID2:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()			// CHECK1-NEXT: [[TMP4:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK1-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[TMP4]], 31
	// CHECK1-NEXT: [[NVPTX_TID3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()			// CHECK1-NEXT: [[TMP5:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK1-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK1-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[TMP5]], 5
	// CHECK1-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8			// CHECK1-NEXT: [[TMP6:%.]] = load i8, i8** [[DOTADDR]], align 8
	// CHECK1-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]			// CHECK1-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to [1 x i8]
	// CHECK1-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: br label [[PRECOND:%.*]]			// CHECK1-NEXT: br label [[PRECOND:%.*]]
	// CHECK1: precond:			// CHECK1: precond:
	// CHECK1-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 4			// CHECK1-NEXT: [[TMP9:%.*]] = icmp ult i32 [[TMP8]], 4
	// CHECK1-NEXT: br i1 [[TMP6]], label [[BODY:%.]], label [[EXIT:%.]]			// CHECK1-NEXT: br i1 [[TMP9]], label [[BODY:%.]], label [[EXIT:%.]]
	// CHECK1: body:			// CHECK1: body:
	// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK1-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK1-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK1-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK1-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK1: then:			// CHECK1: then:
	// CHECK1-NEXT: [[TMP7:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0			// CHECK1-NEXT: [[TMP10:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP7]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP8:%.]] = load i8, i8** [[TMP7]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: [[TMP11:%.]] = load i8, i8** [[TMP10]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: [[TMP9:%.]] = bitcast i8 [[TMP8]] to i32*			// CHECK1-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP11]] to i32*
	// CHECK1-NEXT: [[TMP10:%.]] = getelementptr i32, i32 [[TMP9]], i32 [[TMP5]]			// CHECK1-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i32 [[TMP8]]
	// CHECK1-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK1-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK1-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP10]], align 4			// CHECK1-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP13]], align 4
	// CHECK1-NEXT: store volatile i32 [[TMP12]], i32 addrspace(3)* [[TMP11]], align 4			// CHECK1-NEXT: store volatile i32 [[TMP15]], i32 addrspace(3)* [[TMP14]], align 4
	// CHECK1-NEXT: br label [[IFCONT:%.*]]			// CHECK1-NEXT: br label [[IFCONT:%.*]]
	// CHECK1: else:			// CHECK1: else:
	// CHECK1-NEXT: br label [[IFCONT]]			// CHECK1-NEXT: br label [[IFCONT]]
	// CHECK1: ifcont:			// CHECK1: ifcont:
	// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK1-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK1-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]			// CHECK1-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[TMP3]], [[TMP16]]
	// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK1-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN2:%.]], label [[ELSE3:%.]]
	// CHECK1: then2:			// CHECK1: then2:
	// CHECK1-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK1-NEXT: [[TMP17:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK1-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0			// CHECK1-NEXT: [[TMP18:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP7]], i64 0, i64 0
	// CHECK1-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8, !tbaa [[TBAA12]]			// CHECK1-NEXT: [[TMP19:%.]] = load i8, i8** [[TMP18]], align 8, !tbaa [[TBAA12]]
	// CHECK1-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*			// CHECK1-NEXT: [[TMP20:%.]] = bitcast i8 [[TMP19]] to i32*
	// CHECK1-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]			// CHECK1-NEXT: [[TMP21:%.]] = getelementptr i32, i32 [[TMP20]], i32 [[TMP8]]
	// CHECK1-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: [[TMP22:%.]] = load volatile i32, i32 addrspace(3) [[TMP17]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 [[TMP22]], i32* [[TMP21]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: br label [[IFCONT6:%.*]]			// CHECK1-NEXT: br label [[IFCONT4:%.*]]
	// CHECK1: else3:			// CHECK1: else3:
	// CHECK1-NEXT: br label [[IFCONT6]]			// CHECK1-NEXT: br label [[IFCONT4]]
	// CHECK1: ifcont4:			// CHECK1: ifcont4:
	// CHECK1-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1			// CHECK1-NEXT: [[TMP23:%.*]] = add nsw i32 [[TMP8]], 1
	// CHECK1-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK1-NEXT: store i32 [[TMP23]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK1-NEXT: br label [[PRECOND]]			// CHECK1-NEXT: br label [[PRECOND]]
	// CHECK1: exit:			// CHECK1: exit:
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper			// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper
	// CHECK1-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {			// CHECK1-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	▲ Show 20 Lines • Show All 136 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[IB:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[IB:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[REF_TMP:%.*]] = alloca float, align 4			// CHECK2-NEXT: [[REF_TMP:%.*]] = alloca float, align 4
	// CHECK2-NEXT: [[REF_TMP2:%.*]] = alloca float, align 4			// CHECK2-NEXT: [[REF_TMP2:%.*]] = alloca float, align 4
	// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 8			// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 8
	// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8, !tbaa [[TBAA12:![0-9]+]]			// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8, !tbaa [[TBAA12:![0-9]+]]
	// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: [[ISTART:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK2-NEXT: [[ISTART:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK2-NEXT: [[ISTART_ON_STACK:%.]] = bitcast i8 [[ISTART]] to i32*			// CHECK2-NEXT: [[ISTART_ON_STACK:%.]] = bitcast i8 [[ISTART]] to i32*
	// CHECK2-NEXT: [[IEND:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK2-NEXT: [[IEND:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK2-NEXT: [[IEND_ON_STACK:%.]] = bitcast i8 [[IEND]] to i32*			// CHECK2-NEXT: [[IEND_ON_STACK:%.]] = bitcast i8 [[IEND]] to i32*
	// CHECK2-NEXT: [[PARTIAL_SUM:%.]] = call i8 @__kmpc_alloc_shared(i64 8)			// CHECK2-NEXT: [[PARTIAL_SUM:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 8)
	// CHECK2-NEXT: [[PARTIAL_SUM_ON_STACK:%.]] = bitcast i8 [[PARTIAL_SUM]] to %"class.std::complex"*			// CHECK2-NEXT: [[PARTIAL_SUM_ON_STACK:%.]] = bitcast i8 [[PARTIAL_SUM]] to %"class.std::complex"*
	// CHECK2-NEXT: [[TMP0:%.]] = bitcast i32 [[DOTOMP_IV]] to i8*			// CHECK2-NEXT: [[TMP0:%.]] = bitcast i32 [[DOTOMP_IV]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP0]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP0]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP1:%.]] = bitcast i32 [[DOTOMP_LB]] to i8*			// CHECK2-NEXT: [[TMP1:%.]] = bitcast i32 [[DOTOMP_LB]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP1]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP1]]) #[[ATTR5]]
	// CHECK2-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[TMP2:%.]] = bitcast i32 [[DOTOMP_UB]] to i8*			// CHECK2-NEXT: [[TMP2:%.]] = bitcast i32 [[DOTOMP_UB]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP2]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP2]]) #[[ATTR5]]
	Show All 36 Lines
	// CHECK2-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]			// CHECK2-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]
	// CHECK2-NEXT: store i32 [[ADD]], i32* [[IB]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 [[ADD]], i32* [[IB]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[TMP14:%.]] = bitcast float [[REF_TMP]] to i8*			// CHECK2-NEXT: [[TMP14:%.]] = bitcast float [[REF_TMP]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP14]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP14]]) #[[ATTR5]]
	// CHECK2-NEXT: store float 0.000000e+00, float* [[REF_TMP]], align 4, !tbaa [[TBAA14:![0-9]+]]			// CHECK2-NEXT: store float 0.000000e+00, float* [[REF_TMP]], align 4, !tbaa [[TBAA14:![0-9]+]]
	// CHECK2-NEXT: [[TMP15:%.]] = bitcast float [[REF_TMP2]] to i8*			// CHECK2-NEXT: [[TMP15:%.]] = bitcast float [[REF_TMP2]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP15]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP15]]) #[[ATTR5]]
	// CHECK2-NEXT: store float 0.000000e+00, float* [[REF_TMP2]], align 4, !tbaa [[TBAA14]]			// CHECK2-NEXT: store float 0.000000e+00, float* [[REF_TMP2]], align 4, !tbaa [[TBAA14]]
	// CHECK2-NEXT: call void @_ZNSt7complexIfEC1ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM_ON_STACK]], float* nonnull align 4 dereferenceable(4) [[REF_TMP]], float* nonnull align 4 dereferenceable(4) [[REF_TMP2]]) #[[ATTR11:[0-9]+]]			// CHECK2-NEXT: call void @_ZNSt7complexIfEC1ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM_ON_STACK]], float* nonnull align 4 dereferenceable(4) [[REF_TMP]], float* nonnull align 4 dereferenceable(4) [[REF_TMP2]]) #[[ATTR10:[0-9]+]]
	// CHECK2-NEXT: [[TMP16:%.]] = bitcast float [[REF_TMP2]] to i8*			// CHECK2-NEXT: [[TMP16:%.]] = bitcast float [[REF_TMP2]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP16]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP16]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP17:%.]] = bitcast float [[REF_TMP]] to i8*			// CHECK2-NEXT: [[TMP17:%.]] = bitcast float [[REF_TMP]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP17]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP17]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP18:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP18:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[MUL3:%.*]] = mul nsw i32 [[TMP18]], 4			// CHECK2-NEXT: [[MUL3:%.*]] = mul nsw i32 [[TMP18]], 4
	// CHECK2-NEXT: store i32 [[MUL3]], i32* [[ISTART_ON_STACK]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 [[MUL3]], i32* [[ISTART_ON_STACK]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[TMP19:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP19:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: [[__RE_ADDR:%.]] = alloca float, align 8			// CHECK2-NEXT: [[__RE_ADDR:%.]] = alloca float, align 8
	// CHECK2-NEXT: [[__IM_ADDR:%.]] = alloca float, align 8			// CHECK2-NEXT: [[__IM_ADDR:%.]] = alloca float, align 8
	// CHECK2-NEXT: store %"class.std::complex"* [[THIS]], %"class.std::complex"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: store %"class.std::complex"* [[THIS]], %"class.std::complex"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: store float* [[__RE]], float** [[__RE_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: store float* [[__RE]], float** [[__RE_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: store float* [[__IM]], float** [[__IM_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: store float* [[__IM]], float** [[__IM_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: [[THIS1:%.]] = load %"class.std::complex", %"class.std::complex"** [[THIS_ADDR]], align 8			// CHECK2-NEXT: [[THIS1:%.]] = load %"class.std::complex", %"class.std::complex"** [[THIS_ADDR]], align 8
	// CHECK2-NEXT: [[TMP0:%.]] = load float, float** [[__RE_ADDR]], align 8			// CHECK2-NEXT: [[TMP0:%.]] = load float, float** [[__RE_ADDR]], align 8
	// CHECK2-NEXT: [[TMP1:%.]] = load float, float** [[__IM_ADDR]], align 8			// CHECK2-NEXT: [[TMP1:%.]] = load float, float** [[__IM_ADDR]], align 8
	// CHECK2-NEXT: call void @_ZNSt7complexIfEC2ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[THIS1]], float* nonnull align 4 dereferenceable(4) [[TMP0]], float* nonnull align 4 dereferenceable(4) [[TMP1]]) #[[ATTR11]]			// CHECK2-NEXT: call void @_ZNSt7complexIfEC2ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[THIS1]], float* nonnull align 4 dereferenceable(4) [[TMP0]], float* nonnull align 4 dereferenceable(4) [[TMP1]]) #[[ATTR10]]
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__1			// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__1
	// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[ISTART:%.]], i32 nonnull align 4 dereferenceable(4) [[IEND:%.]], %"class.std::complex" nonnull align 4 dereferenceable(8) [[PARTIAL_SUM:%.*]]) #[[ATTR0]] {			// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[ISTART:%.]], i32 nonnull align 4 dereferenceable(4) [[IEND:%.]], %"class.std::complex" nonnull align 4 dereferenceable(8) [[PARTIAL_SUM:%.*]]) #[[ATTR0]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: [[TMP21:%.]] = bitcast %"class.std::complex" [[PARTIAL_SUM5]] to i8*			// CHECK2-NEXT: [[TMP21:%.]] = bitcast %"class.std::complex" [[PARTIAL_SUM5]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP21]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP21]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP22:%.]] = bitcast float [[REF_TMP]] to i8*			// CHECK2-NEXT: [[TMP22:%.]] = bitcast float [[REF_TMP]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP22]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP22]]) #[[ATTR5]]
	// CHECK2-NEXT: store float 0.000000e+00, float* [[REF_TMP]], align 4, !tbaa [[TBAA14]]			// CHECK2-NEXT: store float 0.000000e+00, float* [[REF_TMP]], align 4, !tbaa [[TBAA14]]
	// CHECK2-NEXT: [[TMP23:%.]] = bitcast float [[REF_TMP6]] to i8*			// CHECK2-NEXT: [[TMP23:%.]] = bitcast float [[REF_TMP6]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP23]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP23]]) #[[ATTR5]]
	// CHECK2-NEXT: store float 0.000000e+00, float* [[REF_TMP6]], align 4, !tbaa [[TBAA14]]			// CHECK2-NEXT: store float 0.000000e+00, float* [[REF_TMP6]], align 4, !tbaa [[TBAA14]]
	// CHECK2-NEXT: call void @_ZNSt7complexIfEC1ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM5]], float* nonnull align 4 dereferenceable(4) [[REF_TMP]], float* nonnull align 4 dereferenceable(4) [[REF_TMP6]]) #[[ATTR11]]			// CHECK2-NEXT: call void @_ZNSt7complexIfEC1ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM5]], float* nonnull align 4 dereferenceable(4) [[REF_TMP]], float* nonnull align 4 dereferenceable(4) [[REF_TMP6]]) #[[ATTR10]]
	// CHECK2-NEXT: [[TMP24:%.]] = bitcast float [[REF_TMP6]] to i8*			// CHECK2-NEXT: [[TMP24:%.]] = bitcast float [[REF_TMP6]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP24]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP24]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP25:%.]] = bitcast float [[REF_TMP]] to i8*			// CHECK2-NEXT: [[TMP25:%.]] = bitcast float [[REF_TMP]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP25]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP25]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP26:%.]] = bitcast i32 [[I7]] to i8*			// CHECK2-NEXT: [[TMP26:%.]] = bitcast i32 [[I7]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP26]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP26]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP27:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8			// CHECK2-NEXT: [[TMP27:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
	// CHECK2-NEXT: [[TMP28:%.]] = load i32, i32 [[TMP27]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP28:%.]] = load i32, i32 [[TMP27]], align 4, !tbaa [[TBAA8]]
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: [[TMP42:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP42:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP42]] to float			// CHECK2-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP42]] to float
	// CHECK2-NEXT: store float [[CONV]], float* [[REF_TMP15]], align 4, !tbaa [[TBAA14]]			// CHECK2-NEXT: store float [[CONV]], float* [[REF_TMP15]], align 4, !tbaa [[TBAA14]]
	// CHECK2-NEXT: [[TMP43:%.]] = bitcast float [[REF_TMP16]] to i8*			// CHECK2-NEXT: [[TMP43:%.]] = bitcast float [[REF_TMP16]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP43]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP43]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP44:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP44:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[CONV17:%.*]] = sitofp i32 [[TMP44]] to float			// CHECK2-NEXT: [[CONV17:%.*]] = sitofp i32 [[TMP44]] to float
	// CHECK2-NEXT: store float [[CONV17]], float* [[REF_TMP16]], align 4, !tbaa [[TBAA14]]			// CHECK2-NEXT: store float [[CONV17]], float* [[REF_TMP16]], align 4, !tbaa [[TBAA14]]
	// CHECK2-NEXT: call void @_ZNSt7complexIfEC1ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[REF_TMP14]], float* nonnull align 4 dereferenceable(4) [[REF_TMP15]], float* nonnull align 4 dereferenceable(4) [[REF_TMP16]]) #[[ATTR11]]			// CHECK2-NEXT: call void @_ZNSt7complexIfEC1ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[REF_TMP14]], float* nonnull align 4 dereferenceable(4) [[REF_TMP15]], float* nonnull align 4 dereferenceable(4) [[REF_TMP16]]) #[[ATTR10]]
	// CHECK2-NEXT: [[CALL:%.]] = call nonnull align 4 dereferenceable(8) %"class.std::complex" @_ZNSt7complexIfEpLIfEERS0_RKS_IT_E(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM5]], %"class.std::complex"* nonnull align 4 dereferenceable(8) [[REF_TMP14]]) #[[ATTR11]]			// CHECK2-NEXT: [[CALL:%.]] = call nonnull align 4 dereferenceable(8) %"class.std::complex" @_ZNSt7complexIfEpLIfEERS0_RKS_IT_E(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM5]], %"class.std::complex"* nonnull align 4 dereferenceable(8) [[REF_TMP14]]) #[[ATTR10]]
	// CHECK2-NEXT: [[TMP45:%.]] = bitcast float [[REF_TMP16]] to i8*			// CHECK2-NEXT: [[TMP45:%.]] = bitcast float [[REF_TMP16]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP45]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP45]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP46:%.]] = bitcast float [[REF_TMP15]] to i8*			// CHECK2-NEXT: [[TMP46:%.]] = bitcast float [[REF_TMP15]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP46]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP46]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP47:%.]] = bitcast %"class.std::complex" [[REF_TMP14]] to i8*			// CHECK2-NEXT: [[TMP47:%.]] = bitcast %"class.std::complex" [[REF_TMP14]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP47]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP47]]) #[[ATTR5]]
	// CHECK2-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]			// CHECK2-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]
	// CHECK2: omp.body.continue:			// CHECK2: omp.body.continue:
	Show All 24 Lines
	// CHECK2-NEXT: [[TMP57:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 0			// CHECK2-NEXT: [[TMP57:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 0
	// CHECK2-NEXT: [[TMP58:%.]] = bitcast %"class.std::complex" [[PARTIAL_SUM5]] to i8*			// CHECK2-NEXT: [[TMP58:%.]] = bitcast %"class.std::complex" [[PARTIAL_SUM5]] to i8*
	// CHECK2-NEXT: store i8* [[TMP58]], i8** [[TMP57]], align 8			// CHECK2-NEXT: store i8* [[TMP58]], i8** [[TMP57]], align 8
	// CHECK2-NEXT: [[TMP59:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK2-NEXT: [[TMP59:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK2-NEXT: [[TMP60:%.]] = call i32 @__kmpc_nvptx_parallel_reduce_nowait_v2(%struct.ident_t @[[GLOB1]], i32 [[TMP56]], i32 1, i64 8, i8* [[TMP59]], void (i8, i16, i16, i16) @_omp_reduction_shuffle_and_reduce_func, void (i8, i32) @_omp_reduction_inter_warp_copy_func)			// CHECK2-NEXT: [[TMP60:%.]] = call i32 @__kmpc_nvptx_parallel_reduce_nowait_v2(%struct.ident_t @[[GLOB1]], i32 [[TMP56]], i32 1, i64 8, i8* [[TMP59]], void (i8, i16, i16, i16) @_omp_reduction_shuffle_and_reduce_func, void (i8, i32) @_omp_reduction_inter_warp_copy_func)
	// CHECK2-NEXT: [[TMP61:%.*]] = icmp eq i32 [[TMP60]], 1			// CHECK2-NEXT: [[TMP61:%.*]] = icmp eq i32 [[TMP60]], 1
	// CHECK2-NEXT: br i1 [[TMP61]], label [[DOTOMP_REDUCTION_THEN:%.]], label [[DOTOMP_REDUCTION_DONE:%.]]			// CHECK2-NEXT: br i1 [[TMP61]], label [[DOTOMP_REDUCTION_THEN:%.]], label [[DOTOMP_REDUCTION_DONE:%.]]
	// CHECK2: .omp.reduction.then:			// CHECK2: .omp.reduction.then:
	// CHECK2-NEXT: [[CALL21:%.]] = call nonnull align 4 dereferenceable(8) %"class.std::complex" @_ZNSt7complexIfEpLIfEERS0_RKS_IT_E(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[TMP2]], %"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM5]]) #[[ATTR11]]			// CHECK2-NEXT: [[CALL21:%.]] = call nonnull align 4 dereferenceable(8) %"class.std::complex" @_ZNSt7complexIfEpLIfEERS0_RKS_IT_E(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[TMP2]], %"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM5]]) #[[ATTR10]]
	// CHECK2-NEXT: call void @__kmpc_nvptx_end_reduce_nowait(i32 [[TMP56]])			// CHECK2-NEXT: call void @__kmpc_nvptx_end_reduce_nowait(i32 [[TMP56]])
	// CHECK2-NEXT: br label [[DOTOMP_REDUCTION_DONE]]			// CHECK2-NEXT: br label [[DOTOMP_REDUCTION_DONE]]
	// CHECK2: .omp.reduction.done:			// CHECK2: .omp.reduction.done:
	// CHECK2-NEXT: [[TMP62:%.]] = bitcast i32 [[I7]] to i8*			// CHECK2-NEXT: [[TMP62:%.]] = bitcast i32 [[I7]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP62]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP62]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP63:%.]] = bitcast %"class.std::complex" [[PARTIAL_SUM5]] to i8*			// CHECK2-NEXT: [[TMP63:%.]] = bitcast %"class.std::complex" [[PARTIAL_SUM5]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP63]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP63]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP64:%.]] = bitcast i32 [[DOTOMP_IS_LAST]] to i8*			// CHECK2-NEXT: [[TMP64:%.]] = bitcast i32 [[DOTOMP_IS_LAST]] to i8*
	Show All 21 Lines
	// CHECK2-SAME: (%"class.std::complex"* nonnull align 4 dereferenceable(8) [[THIS:%.]], %"class.std::complex" nonnull align 4 dereferenceable(8) [[__C:%.*]]) #[[ATTR4:[0-9]+]] comdat align 2 {			// CHECK2-SAME: (%"class.std::complex"* nonnull align 4 dereferenceable(8) [[THIS:%.]], %"class.std::complex" nonnull align 4 dereferenceable(8) [[__C:%.*]]) #[[ATTR4:[0-9]+]] comdat align 2 {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[THIS_ADDR:%.]] = alloca %"class.std::complex", align 8			// CHECK2-NEXT: [[THIS_ADDR:%.]] = alloca %"class.std::complex", align 8
	// CHECK2-NEXT: [[__C_ADDR:%.]] = alloca %"class.std::complex", align 8			// CHECK2-NEXT: [[__C_ADDR:%.]] = alloca %"class.std::complex", align 8
	// CHECK2-NEXT: store %"class.std::complex"* [[THIS]], %"class.std::complex"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: store %"class.std::complex"* [[THIS]], %"class.std::complex"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: store %"class.std::complex"* [[__C]], %"class.std::complex"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: store %"class.std::complex"* [[__C]], %"class.std::complex"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: [[THIS1:%.]] = load %"class.std::complex", %"class.std::complex"** [[THIS_ADDR]], align 8			// CHECK2-NEXT: [[THIS1:%.]] = load %"class.std::complex", %"class.std::complex"** [[THIS_ADDR]], align 8
	// CHECK2-NEXT: [[TMP0:%.]] = load %"class.std::complex", %"class.std::complex"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: [[TMP0:%.]] = load %"class.std::complex", %"class.std::complex"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: [[CALL:%.]] = call float @_ZNKSt7complexIfE4realEv(%"class.std::complex" nonnull align 4 dereferenceable(8) [[TMP0]]) #[[ATTR11]]			// CHECK2-NEXT: [[CALL:%.]] = call float @_ZNKSt7complexIfE4realEv(%"class.std::complex" nonnull align 4 dereferenceable(8) [[TMP0]]) #[[ATTR10]]
	// CHECK2-NEXT: [[__RE_:%.]] = getelementptr inbounds %"class.std::complex", %"class.std::complex" [[THIS1]], i32 0, i32 0			// CHECK2-NEXT: [[__RE_:%.]] = getelementptr inbounds %"class.std::complex", %"class.std::complex" [[THIS1]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP1:%.]] = load float, float [[__RE_]], align 4, !tbaa [[TBAA16:![0-9]+]]			// CHECK2-NEXT: [[TMP1:%.]] = load float, float [[__RE_]], align 4, !tbaa [[TBAA16:![0-9]+]]
	// CHECK2-NEXT: [[ADD:%.*]] = fadd float [[TMP1]], [[CALL]]			// CHECK2-NEXT: [[ADD:%.*]] = fadd float [[TMP1]], [[CALL]]
	// CHECK2-NEXT: store float [[ADD]], float* [[__RE_]], align 4, !tbaa [[TBAA16]]			// CHECK2-NEXT: store float [[ADD]], float* [[__RE_]], align 4, !tbaa [[TBAA16]]
	// CHECK2-NEXT: [[TMP2:%.]] = load %"class.std::complex", %"class.std::complex"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: [[TMP2:%.]] = load %"class.std::complex", %"class.std::complex"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: [[CALL2:%.]] = call float @_ZNKSt7complexIfE4imagEv(%"class.std::complex" nonnull align 4 dereferenceable(8) [[TMP2]]) #[[ATTR11]]			// CHECK2-NEXT: [[CALL2:%.]] = call float @_ZNKSt7complexIfE4imagEv(%"class.std::complex" nonnull align 4 dereferenceable(8) [[TMP2]]) #[[ATTR10]]
	// CHECK2-NEXT: [[__IM_:%.]] = getelementptr inbounds %"class.std::complex", %"class.std::complex" [[THIS1]], i32 0, i32 1			// CHECK2-NEXT: [[__IM_:%.]] = getelementptr inbounds %"class.std::complex", %"class.std::complex" [[THIS1]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP3:%.]] = load float, float [[__IM_]], align 4, !tbaa [[TBAA18:![0-9]+]]			// CHECK2-NEXT: [[TMP3:%.]] = load float, float [[__IM_]], align 4, !tbaa [[TBAA18:![0-9]+]]
	// CHECK2-NEXT: [[ADD3:%.*]] = fadd float [[TMP3]], [[CALL2]]			// CHECK2-NEXT: [[ADD3:%.*]] = fadd float [[TMP3]], [[CALL2]]
	// CHECK2-NEXT: store float [[ADD3]], float* [[__IM_]], align 4, !tbaa [[TBAA18]]			// CHECK2-NEXT: store float [[ADD3]], float* [[__IM_]], align 4, !tbaa [[TBAA18]]
	// CHECK2-NEXT: ret %"class.std::complex"* [[THIS1]]			// CHECK2-NEXT: ret %"class.std::complex"* [[THIS1]]
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_shuffle_and_reduce_func			// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_shuffle_and_reduce_func
	Show All 18 Lines
	// CHECK2-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 8			// CHECK2-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 8
	// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK2-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to %"class.std::complex"*			// CHECK2-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to %"class.std::complex"*
	// CHECK2-NEXT: [[TMP13:%.]] = getelementptr %"class.std::complex", %"class.std::complex" [[TMP12]], i64 1			// CHECK2-NEXT: [[TMP13:%.]] = getelementptr %"class.std::complex", %"class.std::complex" [[TMP12]], i64 1
	// CHECK2-NEXT: [[TMP14:%.]] = bitcast %"class.std::complex" [[TMP13]] to i8*			// CHECK2-NEXT: [[TMP14:%.]] = bitcast %"class.std::complex" [[TMP13]] to i8*
	// CHECK2-NEXT: [[TMP15:%.]] = bitcast %"class.std::complex" [[TMP12]] to i64*			// CHECK2-NEXT: [[TMP15:%.]] = bitcast %"class.std::complex" [[TMP12]] to i64*
	// CHECK2-NEXT: [[TMP16:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i64*			// CHECK2-NEXT: [[TMP16:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i64*
	// CHECK2-NEXT: [[TMP17:%.]] = load i64, i64 [[TMP15]], align 4			// CHECK2-NEXT: [[TMP17:%.]] = load i64, i64 [[TMP15]], align 4
	// CHECK2-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()			// CHECK2-NEXT: [[TMP18:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK2-NEXT: [[TMP18:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK2-NEXT: [[TMP19:%.*]] = trunc i32 [[TMP18]] to i16
	// CHECK2-NEXT: [[TMP19:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP17]], i16 [[TMP7]], i16 [[TMP18]])			// CHECK2-NEXT: [[TMP20:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP17]], i16 [[TMP7]], i16 [[TMP19]])
	// CHECK2-NEXT: store i64 [[TMP19]], i64* [[TMP16]], align 4			// CHECK2-NEXT: store i64 [[TMP20]], i64* [[TMP16]], align 4
	// CHECK2-NEXT: [[TMP20:%.]] = getelementptr i64, i64 [[TMP15]], i64 1			// CHECK2-NEXT: [[TMP21:%.]] = getelementptr i64, i64 [[TMP15]], i64 1
	// CHECK2-NEXT: [[TMP21:%.]] = getelementptr i64, i64 [[TMP16]], i64 1			// CHECK2-NEXT: [[TMP22:%.]] = getelementptr i64, i64 [[TMP16]], i64 1
	// CHECK2-NEXT: [[TMP22:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK2-NEXT: [[TMP23:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	// CHECK2-NEXT: store i8* [[TMP22]], i8** [[TMP11]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: store i8* [[TMP23]], i8** [[TMP11]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: [[TMP23:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK2-NEXT: [[TMP24:%.*]] = icmp eq i16 [[TMP8]], 0
	// CHECK2-NEXT: [[TMP24:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK2-NEXT: [[TMP25:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK2-NEXT: [[TMP25:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]			// CHECK2-NEXT: [[TMP26:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]
	// CHECK2-NEXT: [[TMP26:%.*]] = and i1 [[TMP24]], [[TMP25]]			// CHECK2-NEXT: [[TMP27:%.*]] = and i1 [[TMP25]], [[TMP26]]
	// CHECK2-NEXT: [[TMP27:%.*]] = icmp eq i16 [[TMP8]], 2			// CHECK2-NEXT: [[TMP28:%.*]] = icmp eq i16 [[TMP8]], 2
	// CHECK2-NEXT: [[TMP28:%.*]] = and i16 [[TMP6]], 1			// CHECK2-NEXT: [[TMP29:%.*]] = and i16 [[TMP6]], 1
	// CHECK2-NEXT: [[TMP29:%.*]] = icmp eq i16 [[TMP28]], 0			// CHECK2-NEXT: [[TMP30:%.*]] = icmp eq i16 [[TMP29]], 0
	// CHECK2-NEXT: [[TMP30:%.*]] = and i1 [[TMP27]], [[TMP29]]			// CHECK2-NEXT: [[TMP31:%.*]] = and i1 [[TMP28]], [[TMP30]]
	// CHECK2-NEXT: [[TMP31:%.*]] = icmp sgt i16 [[TMP7]], 0			// CHECK2-NEXT: [[TMP32:%.*]] = icmp sgt i16 [[TMP7]], 0
	// CHECK2-NEXT: [[TMP32:%.*]] = and i1 [[TMP30]], [[TMP31]]			// CHECK2-NEXT: [[TMP33:%.*]] = and i1 [[TMP31]], [[TMP32]]
	// CHECK2-NEXT: [[TMP33:%.*]] = or i1 [[TMP23]], [[TMP26]]			// CHECK2-NEXT: [[TMP34:%.*]] = or i1 [[TMP24]], [[TMP27]]
	// CHECK2-NEXT: [[TMP34:%.*]] = or i1 [[TMP33]], [[TMP32]]			// CHECK2-NEXT: [[TMP35:%.*]] = or i1 [[TMP34]], [[TMP33]]
	// CHECK2-NEXT: br i1 [[TMP34]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK2-NEXT: br i1 [[TMP35]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK2: then:			// CHECK2: then:
	// CHECK2-NEXT: [[TMP35:%.]] = bitcast [1 x i8]* [[TMP5]] to i8*			// CHECK2-NEXT: [[TMP36:%.]] = bitcast [1 x i8]* [[TMP5]] to i8*
	// CHECK2-NEXT: [[TMP36:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*			// CHECK2-NEXT: [[TMP37:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*
	// CHECK2-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP35]], i8* [[TMP36]]) #[[ATTR5]]			// CHECK2-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP36]], i8* [[TMP37]]) #[[ATTR5]]
	// CHECK2-NEXT: br label [[IFCONT:%.*]]			// CHECK2-NEXT: br label [[IFCONT:%.*]]
	// CHECK2: else:			// CHECK2: else:
	// CHECK2-NEXT: br label [[IFCONT]]			// CHECK2-NEXT: br label [[IFCONT]]
	// CHECK2: ifcont:			// CHECK2: ifcont:
	// CHECK2-NEXT: [[TMP37:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK2-NEXT: [[TMP38:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK2-NEXT: [[TMP38:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]			// CHECK2-NEXT: [[TMP39:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]
	// CHECK2-NEXT: [[TMP39:%.*]] = and i1 [[TMP37]], [[TMP38]]			// CHECK2-NEXT: [[TMP40:%.*]] = and i1 [[TMP38]], [[TMP39]]
	// CHECK2-NEXT: br i1 [[TMP39]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK2-NEXT: br i1 [[TMP40]], label [[THEN4:%.]], label [[ELSE5:%.]]
	// CHECK2: then4:			// CHECK2: then4:
	// CHECK2-NEXT: [[TMP40:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK2-NEXT: [[TMP41:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK2-NEXT: [[TMP41:%.]] = load i8, i8** [[TMP40]], align 8			// CHECK2-NEXT: [[TMP42:%.]] = load i8, i8** [[TMP41]], align 8
	// CHECK2-NEXT: [[TMP42:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP5]], i64 0, i64 0			// CHECK2-NEXT: [[TMP43:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP5]], i64 0, i64 0
	// CHECK2-NEXT: [[TMP43:%.]] = load i8, i8** [[TMP42]], align 8			// CHECK2-NEXT: [[TMP44:%.]] = load i8, i8** [[TMP43]], align 8
	// CHECK2-NEXT: [[TMP44:%.]] = bitcast i8 [[TMP41]] to %"class.std::complex"*			// CHECK2-NEXT: [[TMP45:%.]] = bitcast i8 [[TMP42]] to %"class.std::complex"*
	// CHECK2-NEXT: [[TMP45:%.]] = bitcast i8 [[TMP43]] to %"class.std::complex"*			// CHECK2-NEXT: [[TMP46:%.]] = bitcast i8 [[TMP44]] to %"class.std::complex"*
	// CHECK2-NEXT: [[TMP46:%.]] = bitcast %"class.std::complex" [[TMP45]] to i8*			// CHECK2-NEXT: [[TMP47:%.]] = bitcast %"class.std::complex" [[TMP46]] to i8*
	// CHECK2-NEXT: [[TMP47:%.]] = bitcast %"class.std::complex" [[TMP44]] to i8*			// CHECK2-NEXT: [[TMP48:%.]] = bitcast %"class.std::complex" [[TMP45]] to i8*
	// CHECK2-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 4 [[TMP46]], i8* align 4 [[TMP47]], i64 8, i1 false), !tbaa.struct !21			// CHECK2-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 4 [[TMP47]], i8* align 4 [[TMP48]], i64 8, i1 false), !tbaa.struct !21
	// CHECK2-NEXT: br label [[IFCONT6:%.*]]			// CHECK2-NEXT: br label [[IFCONT6:%.*]]
	// CHECK2: else5:			// CHECK2: else5:
	// CHECK2-NEXT: br label [[IFCONT6]]			// CHECK2-NEXT: br label [[IFCONT6]]
	// CHECK2: ifcont6:			// CHECK2: ifcont6:
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func			// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func
	// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {			// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK2-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[NVPTX_TID:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()			// CHECK2-NEXT: [[TMP3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_TID2:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()			// CHECK2-NEXT: [[TMP4:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK2-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[TMP4]], 31
	// CHECK2-NEXT: [[NVPTX_TID3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()			// CHECK2-NEXT: [[TMP5:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK2-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[TMP5]], 5
	// CHECK2-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8			// CHECK2-NEXT: [[TMP6:%.]] = load i8, i8** [[DOTADDR]], align 8
	// CHECK2-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]			// CHECK2-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to [1 x i8]
	// CHECK2-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: br label [[PRECOND:%.*]]			// CHECK2-NEXT: br label [[PRECOND:%.*]]
	// CHECK2: precond:			// CHECK2: precond:
	// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 2			// CHECK2-NEXT: [[TMP9:%.*]] = icmp ult i32 [[TMP8]], 2
	// CHECK2-NEXT: br i1 [[TMP6]], label [[BODY:%.]], label [[EXIT:%.]]			// CHECK2-NEXT: br i1 [[TMP9]], label [[BODY:%.]], label [[EXIT:%.]]
	// CHECK2: body:			// CHECK2: body:
	// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4:[0-9]+]], i32 [[TMP2]])			// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4:[0-9]+]], i32 [[TMP2]])
	// CHECK2-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK2-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK2-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK2-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK2: then:			// CHECK2: then:
	// CHECK2-NEXT: [[TMP7:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0			// CHECK2-NEXT: [[TMP10:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP7]], i64 0, i64 0
	// CHECK2-NEXT: [[TMP8:%.]] = load i8, i8** [[TMP7]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: [[TMP11:%.]] = load i8, i8** [[TMP10]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: [[TMP9:%.]] = bitcast i8 [[TMP8]] to i32*			// CHECK2-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP11]] to i32*
	// CHECK2-NEXT: [[TMP10:%.]] = getelementptr i32, i32 [[TMP9]], i32 [[TMP5]]			// CHECK2-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i32 [[TMP8]]
	// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK2-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK2-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP10]], align 4			// CHECK2-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP13]], align 4
	// CHECK2-NEXT: store volatile i32 [[TMP12]], i32 addrspace(3)* [[TMP11]], align 4			// CHECK2-NEXT: store volatile i32 [[TMP15]], i32 addrspace(3)* [[TMP14]], align 4
	// CHECK2-NEXT: br label [[IFCONT:%.*]]			// CHECK2-NEXT: br label [[IFCONT:%.*]]
	// CHECK2: else:			// CHECK2: else:
	// CHECK2-NEXT: br label [[IFCONT]]			// CHECK2-NEXT: br label [[IFCONT]]
	// CHECK2: ifcont:			// CHECK2: ifcont:
	// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK2-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]			// CHECK2-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[TMP3]], [[TMP16]]
	// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN2:%.]], label [[ELSE3:%.]]
	// CHECK2: then2:			// CHECK2: then2:
	// CHECK2-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK2-NEXT: [[TMP17:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK2-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0			// CHECK2-NEXT: [[TMP18:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP7]], i64 0, i64 0
	// CHECK2-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: [[TMP19:%.]] = load i8, i8** [[TMP18]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*			// CHECK2-NEXT: [[TMP20:%.]] = bitcast i8 [[TMP19]] to i32*
	// CHECK2-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]			// CHECK2-NEXT: [[TMP21:%.]] = getelementptr i32, i32 [[TMP20]], i32 [[TMP8]]
	// CHECK2-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP22:%.]] = load volatile i32, i32 addrspace(3) [[TMP17]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 [[TMP22]], i32* [[TMP21]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: br label [[IFCONT6:%.*]]			// CHECK2-NEXT: br label [[IFCONT4:%.*]]
	// CHECK2: else3:			// CHECK2: else3:
	// CHECK2-NEXT: br label [[IFCONT6]]			// CHECK2-NEXT: br label [[IFCONT4]]
	// CHECK2: ifcont4:			// CHECK2: ifcont4:
	// CHECK2-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1			// CHECK2-NEXT: [[TMP23:%.*]] = add nsw i32 [[TMP8]], 1
	// CHECK2-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 [[TMP23]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: br label [[PRECOND]]			// CHECK2-NEXT: br label [[PRECOND]]
	// CHECK2: exit:			// CHECK2: exit:
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper			// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
	// CHECK2-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {			// CHECK2-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[IB:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[IB:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[REF_TMP:%.*]] = alloca double, align 8			// CHECK2-NEXT: [[REF_TMP:%.*]] = alloca double, align 8
	// CHECK2-NEXT: [[REF_TMP2:%.*]] = alloca double, align 8			// CHECK2-NEXT: [[REF_TMP2:%.*]] = alloca double, align 8
	// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 8			// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 8
	// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: [[ISTART:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK2-NEXT: [[ISTART:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK2-NEXT: [[ISTART_ON_STACK:%.]] = bitcast i8 [[ISTART]] to i32*			// CHECK2-NEXT: [[ISTART_ON_STACK:%.]] = bitcast i8 [[ISTART]] to i32*
	// CHECK2-NEXT: [[IEND:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK2-NEXT: [[IEND:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK2-NEXT: [[IEND_ON_STACK:%.]] = bitcast i8 [[IEND]] to i32*			// CHECK2-NEXT: [[IEND_ON_STACK:%.]] = bitcast i8 [[IEND]] to i32*
	// CHECK2-NEXT: [[PARTIAL_SUM:%.]] = call i8 @__kmpc_alloc_shared(i64 16)			// CHECK2-NEXT: [[PARTIAL_SUM:%.]] = call align 8 i8 @__kmpc_alloc_shared(i64 16)
	// CHECK2-NEXT: [[PARTIAL_SUM_ON_STACK:%.]] = bitcast i8 [[PARTIAL_SUM]] to %"class.std::complex.0"*			// CHECK2-NEXT: [[PARTIAL_SUM_ON_STACK:%.]] = bitcast i8 [[PARTIAL_SUM]] to %"class.std::complex.0"*
	// CHECK2-NEXT: [[TMP0:%.]] = bitcast i32 [[DOTOMP_IV]] to i8*			// CHECK2-NEXT: [[TMP0:%.]] = bitcast i32 [[DOTOMP_IV]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP0]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP0]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP1:%.]] = bitcast i32 [[DOTOMP_LB]] to i8*			// CHECK2-NEXT: [[TMP1:%.]] = bitcast i32 [[DOTOMP_LB]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP1]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP1]]) #[[ATTR5]]
	// CHECK2-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[TMP2:%.]] = bitcast i32 [[DOTOMP_UB]] to i8*			// CHECK2-NEXT: [[TMP2:%.]] = bitcast i32 [[DOTOMP_UB]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP2]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP2]]) #[[ATTR5]]
	Show All 36 Lines
	// CHECK2-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]			// CHECK2-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]
	// CHECK2-NEXT: store i32 [[ADD]], i32* [[IB]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 [[ADD]], i32* [[IB]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[TMP14:%.]] = bitcast double [[REF_TMP]] to i8*			// CHECK2-NEXT: [[TMP14:%.]] = bitcast double [[REF_TMP]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP14]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP14]]) #[[ATTR5]]
	// CHECK2-NEXT: store double 0.000000e+00, double* [[REF_TMP]], align 8, !tbaa [[TBAA22:![0-9]+]]			// CHECK2-NEXT: store double 0.000000e+00, double* [[REF_TMP]], align 8, !tbaa [[TBAA22:![0-9]+]]
	// CHECK2-NEXT: [[TMP15:%.]] = bitcast double [[REF_TMP2]] to i8*			// CHECK2-NEXT: [[TMP15:%.]] = bitcast double [[REF_TMP2]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP15]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP15]]) #[[ATTR5]]
	// CHECK2-NEXT: store double 0.000000e+00, double* [[REF_TMP2]], align 8, !tbaa [[TBAA22]]			// CHECK2-NEXT: store double 0.000000e+00, double* [[REF_TMP2]], align 8, !tbaa [[TBAA22]]
	// CHECK2-NEXT: call void @_ZNSt7complexIdEC1ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM_ON_STACK]], double* nonnull align 8 dereferenceable(8) [[REF_TMP]], double* nonnull align 8 dereferenceable(8) [[REF_TMP2]]) #[[ATTR11]]			// CHECK2-NEXT: call void @_ZNSt7complexIdEC1ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM_ON_STACK]], double* nonnull align 8 dereferenceable(8) [[REF_TMP]], double* nonnull align 8 dereferenceable(8) [[REF_TMP2]]) #[[ATTR10]]
	// CHECK2-NEXT: [[TMP16:%.]] = bitcast double [[REF_TMP2]] to i8*			// CHECK2-NEXT: [[TMP16:%.]] = bitcast double [[REF_TMP2]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP16]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP16]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP17:%.]] = bitcast double [[REF_TMP]] to i8*			// CHECK2-NEXT: [[TMP17:%.]] = bitcast double [[REF_TMP]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP17]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP17]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP18:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP18:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[MUL3:%.*]] = mul nsw i32 [[TMP18]], 4			// CHECK2-NEXT: [[MUL3:%.*]] = mul nsw i32 [[TMP18]], 4
	// CHECK2-NEXT: store i32 [[MUL3]], i32* [[ISTART_ON_STACK]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 [[MUL3]], i32* [[ISTART_ON_STACK]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[TMP19:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP19:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: [[__RE_ADDR:%.]] = alloca double, align 8			// CHECK2-NEXT: [[__RE_ADDR:%.]] = alloca double, align 8
	// CHECK2-NEXT: [[__IM_ADDR:%.]] = alloca double, align 8			// CHECK2-NEXT: [[__IM_ADDR:%.]] = alloca double, align 8
	// CHECK2-NEXT: store %"class.std::complex.0"* [[THIS]], %"class.std::complex.0"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: store %"class.std::complex.0"* [[THIS]], %"class.std::complex.0"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: store double* [[__RE]], double** [[__RE_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: store double* [[__RE]], double** [[__RE_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: store double* [[__IM]], double** [[__IM_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: store double* [[__IM]], double** [[__IM_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: [[THIS1:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[THIS_ADDR]], align 8			// CHECK2-NEXT: [[THIS1:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[THIS_ADDR]], align 8
	// CHECK2-NEXT: [[TMP0:%.]] = load double, double** [[__RE_ADDR]], align 8			// CHECK2-NEXT: [[TMP0:%.]] = load double, double** [[__RE_ADDR]], align 8
	// CHECK2-NEXT: [[TMP1:%.]] = load double, double** [[__IM_ADDR]], align 8			// CHECK2-NEXT: [[TMP1:%.]] = load double, double** [[__IM_ADDR]], align 8
	// CHECK2-NEXT: call void @_ZNSt7complexIdEC2ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[THIS1]], double* nonnull align 8 dereferenceable(8) [[TMP0]], double* nonnull align 8 dereferenceable(8) [[TMP1]]) #[[ATTR11]]			// CHECK2-NEXT: call void @_ZNSt7complexIdEC2ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[THIS1]], double* nonnull align 8 dereferenceable(8) [[TMP0]], double* nonnull align 8 dereferenceable(8) [[TMP1]]) #[[ATTR10]]
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__3			// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__3
	// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[ISTART:%.]], i32 nonnull align 4 dereferenceable(4) [[IEND:%.]], %"class.std::complex.0" nonnull align 8 dereferenceable(16) [[PARTIAL_SUM:%.*]]) #[[ATTR0]] {			// CHECK2-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[ISTART:%.]], i32 nonnull align 4 dereferenceable(4) [[IEND:%.]], %"class.std::complex.0" nonnull align 8 dereferenceable(16) [[PARTIAL_SUM:%.*]]) #[[ATTR0]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: [[TMP21:%.]] = bitcast %"class.std::complex.0" [[PARTIAL_SUM5]] to i8*			// CHECK2-NEXT: [[TMP21:%.]] = bitcast %"class.std::complex.0" [[PARTIAL_SUM5]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 16, i8* [[TMP21]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 16, i8* [[TMP21]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP22:%.]] = bitcast double [[REF_TMP]] to i8*			// CHECK2-NEXT: [[TMP22:%.]] = bitcast double [[REF_TMP]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP22]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP22]]) #[[ATTR5]]
	// CHECK2-NEXT: store double 0.000000e+00, double* [[REF_TMP]], align 8, !tbaa [[TBAA22]]			// CHECK2-NEXT: store double 0.000000e+00, double* [[REF_TMP]], align 8, !tbaa [[TBAA22]]
	// CHECK2-NEXT: [[TMP23:%.]] = bitcast double [[REF_TMP6]] to i8*			// CHECK2-NEXT: [[TMP23:%.]] = bitcast double [[REF_TMP6]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP23]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP23]]) #[[ATTR5]]
	// CHECK2-NEXT: store double 0.000000e+00, double* [[REF_TMP6]], align 8, !tbaa [[TBAA22]]			// CHECK2-NEXT: store double 0.000000e+00, double* [[REF_TMP6]], align 8, !tbaa [[TBAA22]]
	// CHECK2-NEXT: call void @_ZNSt7complexIdEC1ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM5]], double* nonnull align 8 dereferenceable(8) [[REF_TMP]], double* nonnull align 8 dereferenceable(8) [[REF_TMP6]]) #[[ATTR11]]			// CHECK2-NEXT: call void @_ZNSt7complexIdEC1ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM5]], double* nonnull align 8 dereferenceable(8) [[REF_TMP]], double* nonnull align 8 dereferenceable(8) [[REF_TMP6]]) #[[ATTR10]]
	// CHECK2-NEXT: [[TMP24:%.]] = bitcast double [[REF_TMP6]] to i8*			// CHECK2-NEXT: [[TMP24:%.]] = bitcast double [[REF_TMP6]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP24]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP24]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP25:%.]] = bitcast double [[REF_TMP]] to i8*			// CHECK2-NEXT: [[TMP25:%.]] = bitcast double [[REF_TMP]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP25]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP25]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP26:%.]] = bitcast i32 [[I7]] to i8*			// CHECK2-NEXT: [[TMP26:%.]] = bitcast i32 [[I7]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP26]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP26]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP27:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8			// CHECK2-NEXT: [[TMP27:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
	// CHECK2-NEXT: [[TMP28:%.]] = load i32, i32 [[TMP27]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP28:%.]] = load i32, i32 [[TMP27]], align 4, !tbaa [[TBAA8]]
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: [[TMP42:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP42:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP42]] to double			// CHECK2-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP42]] to double
	// CHECK2-NEXT: store double [[CONV]], double* [[REF_TMP15]], align 8, !tbaa [[TBAA22]]			// CHECK2-NEXT: store double [[CONV]], double* [[REF_TMP15]], align 8, !tbaa [[TBAA22]]
	// CHECK2-NEXT: [[TMP43:%.]] = bitcast double [[REF_TMP16]] to i8*			// CHECK2-NEXT: [[TMP43:%.]] = bitcast double [[REF_TMP16]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP43]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP43]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP44:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP44:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[CONV17:%.*]] = sitofp i32 [[TMP44]] to double			// CHECK2-NEXT: [[CONV17:%.*]] = sitofp i32 [[TMP44]] to double
	// CHECK2-NEXT: store double [[CONV17]], double* [[REF_TMP16]], align 8, !tbaa [[TBAA22]]			// CHECK2-NEXT: store double [[CONV17]], double* [[REF_TMP16]], align 8, !tbaa [[TBAA22]]
	// CHECK2-NEXT: call void @_ZNSt7complexIdEC1ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[REF_TMP14]], double* nonnull align 8 dereferenceable(8) [[REF_TMP15]], double* nonnull align 8 dereferenceable(8) [[REF_TMP16]]) #[[ATTR11]]			// CHECK2-NEXT: call void @_ZNSt7complexIdEC1ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[REF_TMP14]], double* nonnull align 8 dereferenceable(8) [[REF_TMP15]], double* nonnull align 8 dereferenceable(8) [[REF_TMP16]]) #[[ATTR10]]
	// CHECK2-NEXT: [[CALL:%.]] = call nonnull align 8 dereferenceable(16) %"class.std::complex.0" @_ZNSt7complexIdEpLIdEERS0_RKS_IT_E(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM5]], %"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[REF_TMP14]]) #[[ATTR11]]			// CHECK2-NEXT: [[CALL:%.]] = call nonnull align 8 dereferenceable(16) %"class.std::complex.0" @_ZNSt7complexIdEpLIdEERS0_RKS_IT_E(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM5]], %"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[REF_TMP14]]) #[[ATTR10]]
	// CHECK2-NEXT: [[TMP45:%.]] = bitcast double [[REF_TMP16]] to i8*			// CHECK2-NEXT: [[TMP45:%.]] = bitcast double [[REF_TMP16]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP45]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP45]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP46:%.]] = bitcast double [[REF_TMP15]] to i8*			// CHECK2-NEXT: [[TMP46:%.]] = bitcast double [[REF_TMP15]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP46]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP46]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP47:%.]] = bitcast %"class.std::complex.0" [[REF_TMP14]] to i8*			// CHECK2-NEXT: [[TMP47:%.]] = bitcast %"class.std::complex.0" [[REF_TMP14]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 16, i8* [[TMP47]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 16, i8* [[TMP47]]) #[[ATTR5]]
	// CHECK2-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]			// CHECK2-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]
	// CHECK2: omp.body.continue:			// CHECK2: omp.body.continue:
	Show All 24 Lines
	// CHECK2-NEXT: [[TMP57:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 0			// CHECK2-NEXT: [[TMP57:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 0
	// CHECK2-NEXT: [[TMP58:%.]] = bitcast %"class.std::complex.0" [[PARTIAL_SUM5]] to i8*			// CHECK2-NEXT: [[TMP58:%.]] = bitcast %"class.std::complex.0" [[PARTIAL_SUM5]] to i8*
	// CHECK2-NEXT: store i8* [[TMP58]], i8** [[TMP57]], align 8			// CHECK2-NEXT: store i8* [[TMP58]], i8** [[TMP57]], align 8
	// CHECK2-NEXT: [[TMP59:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK2-NEXT: [[TMP59:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK2-NEXT: [[TMP60:%.]] = call i32 @__kmpc_nvptx_parallel_reduce_nowait_v2(%struct.ident_t @[[GLOB1]], i32 [[TMP56]], i32 1, i64 8, i8* [[TMP59]], void (i8, i16, i16, i16) @_omp_reduction_shuffle_and_reduce_func5, void (i8, i32) @_omp_reduction_inter_warp_copy_func6)			// CHECK2-NEXT: [[TMP60:%.]] = call i32 @__kmpc_nvptx_parallel_reduce_nowait_v2(%struct.ident_t @[[GLOB1]], i32 [[TMP56]], i32 1, i64 8, i8* [[TMP59]], void (i8, i16, i16, i16) @_omp_reduction_shuffle_and_reduce_func5, void (i8, i32) @_omp_reduction_inter_warp_copy_func6)
	// CHECK2-NEXT: [[TMP61:%.*]] = icmp eq i32 [[TMP60]], 1			// CHECK2-NEXT: [[TMP61:%.*]] = icmp eq i32 [[TMP60]], 1
	// CHECK2-NEXT: br i1 [[TMP61]], label [[DOTOMP_REDUCTION_THEN:%.]], label [[DOTOMP_REDUCTION_DONE:%.]]			// CHECK2-NEXT: br i1 [[TMP61]], label [[DOTOMP_REDUCTION_THEN:%.]], label [[DOTOMP_REDUCTION_DONE:%.]]
	// CHECK2: .omp.reduction.then:			// CHECK2: .omp.reduction.then:
	// CHECK2-NEXT: [[CALL21:%.]] = call nonnull align 8 dereferenceable(16) %"class.std::complex.0" @_ZNSt7complexIdEpLIdEERS0_RKS_IT_E(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[TMP2]], %"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM5]]) #[[ATTR11]]			// CHECK2-NEXT: [[CALL21:%.]] = call nonnull align 8 dereferenceable(16) %"class.std::complex.0" @_ZNSt7complexIdEpLIdEERS0_RKS_IT_E(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[TMP2]], %"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM5]]) #[[ATTR10]]
	// CHECK2-NEXT: call void @__kmpc_nvptx_end_reduce_nowait(i32 [[TMP56]])			// CHECK2-NEXT: call void @__kmpc_nvptx_end_reduce_nowait(i32 [[TMP56]])
	// CHECK2-NEXT: br label [[DOTOMP_REDUCTION_DONE]]			// CHECK2-NEXT: br label [[DOTOMP_REDUCTION_DONE]]
	// CHECK2: .omp.reduction.done:			// CHECK2: .omp.reduction.done:
	// CHECK2-NEXT: [[TMP62:%.]] = bitcast i32 [[I7]] to i8*			// CHECK2-NEXT: [[TMP62:%.]] = bitcast i32 [[I7]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP62]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP62]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP63:%.]] = bitcast %"class.std::complex.0" [[PARTIAL_SUM5]] to i8*			// CHECK2-NEXT: [[TMP63:%.]] = bitcast %"class.std::complex.0" [[PARTIAL_SUM5]] to i8*
	// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 16, i8* [[TMP63]]) #[[ATTR5]]			// CHECK2-NEXT: call void @llvm.lifetime.end.p0i8(i64 16, i8* [[TMP63]]) #[[ATTR5]]
	// CHECK2-NEXT: [[TMP64:%.]] = bitcast i32 [[DOTOMP_IS_LAST]] to i8*			// CHECK2-NEXT: [[TMP64:%.]] = bitcast i32 [[DOTOMP_IS_LAST]] to i8*
	Show All 21 Lines
	// CHECK2-SAME: (%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[THIS:%.]], %"class.std::complex.0" nonnull align 8 dereferenceable(16) [[__C:%.*]]) #[[ATTR4]] comdat align 2 {			// CHECK2-SAME: (%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[THIS:%.]], %"class.std::complex.0" nonnull align 8 dereferenceable(16) [[__C:%.*]]) #[[ATTR4]] comdat align 2 {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[THIS_ADDR:%.]] = alloca %"class.std::complex.0", align 8			// CHECK2-NEXT: [[THIS_ADDR:%.]] = alloca %"class.std::complex.0", align 8
	// CHECK2-NEXT: [[__C_ADDR:%.]] = alloca %"class.std::complex.0", align 8			// CHECK2-NEXT: [[__C_ADDR:%.]] = alloca %"class.std::complex.0", align 8
	// CHECK2-NEXT: store %"class.std::complex.0"* [[THIS]], %"class.std::complex.0"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: store %"class.std::complex.0"* [[THIS]], %"class.std::complex.0"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: store %"class.std::complex.0"* [[__C]], %"class.std::complex.0"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: store %"class.std::complex.0"* [[__C]], %"class.std::complex.0"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: [[THIS1:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[THIS_ADDR]], align 8			// CHECK2-NEXT: [[THIS1:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[THIS_ADDR]], align 8
	// CHECK2-NEXT: [[TMP0:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: [[TMP0:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: [[CALL:%.]] = call double @_ZNKSt7complexIdE4realEv(%"class.std::complex.0" nonnull align 8 dereferenceable(16) [[TMP0]]) #[[ATTR11]]			// CHECK2-NEXT: [[CALL:%.]] = call double @_ZNKSt7complexIdE4realEv(%"class.std::complex.0" nonnull align 8 dereferenceable(16) [[TMP0]]) #[[ATTR10]]
	// CHECK2-NEXT: [[__RE_:%.]] = getelementptr inbounds %"class.std::complex.0", %"class.std::complex.0" [[THIS1]], i32 0, i32 0			// CHECK2-NEXT: [[__RE_:%.]] = getelementptr inbounds %"class.std::complex.0", %"class.std::complex.0" [[THIS1]], i32 0, i32 0
	// CHECK2-NEXT: [[TMP1:%.]] = load double, double [[__RE_]], align 8, !tbaa [[TBAA24:![0-9]+]]			// CHECK2-NEXT: [[TMP1:%.]] = load double, double [[__RE_]], align 8, !tbaa [[TBAA24:![0-9]+]]
	// CHECK2-NEXT: [[ADD:%.*]] = fadd double [[TMP1]], [[CALL]]			// CHECK2-NEXT: [[ADD:%.*]] = fadd double [[TMP1]], [[CALL]]
	// CHECK2-NEXT: store double [[ADD]], double* [[__RE_]], align 8, !tbaa [[TBAA24]]			// CHECK2-NEXT: store double [[ADD]], double* [[__RE_]], align 8, !tbaa [[TBAA24]]
	// CHECK2-NEXT: [[TMP2:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: [[TMP2:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: [[CALL2:%.]] = call double @_ZNKSt7complexIdE4imagEv(%"class.std::complex.0" nonnull align 8 dereferenceable(16) [[TMP2]]) #[[ATTR11]]			// CHECK2-NEXT: [[CALL2:%.]] = call double @_ZNKSt7complexIdE4imagEv(%"class.std::complex.0" nonnull align 8 dereferenceable(16) [[TMP2]]) #[[ATTR10]]
	// CHECK2-NEXT: [[__IM_:%.]] = getelementptr inbounds %"class.std::complex.0", %"class.std::complex.0" [[THIS1]], i32 0, i32 1			// CHECK2-NEXT: [[__IM_:%.]] = getelementptr inbounds %"class.std::complex.0", %"class.std::complex.0" [[THIS1]], i32 0, i32 1
	// CHECK2-NEXT: [[TMP3:%.]] = load double, double [[__IM_]], align 8, !tbaa [[TBAA26:![0-9]+]]			// CHECK2-NEXT: [[TMP3:%.]] = load double, double [[__IM_]], align 8, !tbaa [[TBAA26:![0-9]+]]
	// CHECK2-NEXT: [[ADD3:%.*]] = fadd double [[TMP3]], [[CALL2]]			// CHECK2-NEXT: [[ADD3:%.*]] = fadd double [[TMP3]], [[CALL2]]
	// CHECK2-NEXT: store double [[ADD3]], double* [[__IM_]], align 8, !tbaa [[TBAA26]]			// CHECK2-NEXT: store double [[ADD3]], double* [[__IM_]], align 8, !tbaa [[TBAA26]]
	// CHECK2-NEXT: ret %"class.std::complex.0"* [[THIS1]]			// CHECK2-NEXT: ret %"class.std::complex.0"* [[THIS1]]
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_shuffle_and_reduce_func5			// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_shuffle_and_reduce_func5
	Show All 19 Lines
	// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK2-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to %"class.std::complex.0"*			// CHECK2-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to %"class.std::complex.0"*
	// CHECK2-NEXT: [[TMP13:%.]] = getelementptr %"class.std::complex.0", %"class.std::complex.0" [[TMP12]], i64 1			// CHECK2-NEXT: [[TMP13:%.]] = getelementptr %"class.std::complex.0", %"class.std::complex.0" [[TMP12]], i64 1
	// CHECK2-NEXT: [[TMP14:%.]] = bitcast %"class.std::complex.0" [[TMP13]] to i8*			// CHECK2-NEXT: [[TMP14:%.]] = bitcast %"class.std::complex.0" [[TMP13]] to i8*
	// CHECK2-NEXT: [[TMP15:%.]] = bitcast %"class.std::complex.0" [[TMP12]] to i64*			// CHECK2-NEXT: [[TMP15:%.]] = bitcast %"class.std::complex.0" [[TMP12]] to i64*
	// CHECK2-NEXT: [[TMP16:%.]] = bitcast %"class.std::complex.0" [[DOTOMP_REDUCTION_ELEMENT]] to i64*			// CHECK2-NEXT: [[TMP16:%.]] = bitcast %"class.std::complex.0" [[DOTOMP_REDUCTION_ELEMENT]] to i64*
	// CHECK2-NEXT: br label [[DOTSHUFFLE_PRE_COND:%.*]]			// CHECK2-NEXT: br label [[DOTSHUFFLE_PRE_COND:%.*]]
	// CHECK2: .shuffle.pre_cond:			// CHECK2: .shuffle.pre_cond:
	// CHECK2-NEXT: [[TMP17:%.]] = phi i64 [ [[TMP15]], [[ENTRY:%.]] ], [ [[TMP28:%.]], [[DOTSHUFFLE_THEN:%.*]] ]			// CHECK2-NEXT: [[TMP17:%.]] = phi i64 [ [[TMP15]], [[ENTRY:%.]] ], [ [[TMP29:%.]], [[DOTSHUFFLE_THEN:%.*]] ]
	// CHECK2-NEXT: [[TMP18:%.]] = phi i64 [ [[TMP16]], [[ENTRY]] ], [ [[TMP29:%.*]], [[DOTSHUFFLE_THEN]] ]			// CHECK2-NEXT: [[TMP18:%.]] = phi i64 [ [[TMP16]], [[ENTRY]] ], [ [[TMP30:%.*]], [[DOTSHUFFLE_THEN]] ]
	// CHECK2-NEXT: [[TMP19:%.]] = bitcast i64 [[TMP17]] to i8*			// CHECK2-NEXT: [[TMP19:%.]] = bitcast i64 [[TMP17]] to i8*
	// CHECK2-NEXT: [[TMP20:%.]] = ptrtoint i8 [[TMP14]] to i64			// CHECK2-NEXT: [[TMP20:%.]] = ptrtoint i8 [[TMP14]] to i64
	// CHECK2-NEXT: [[TMP21:%.]] = ptrtoint i8 [[TMP19]] to i64			// CHECK2-NEXT: [[TMP21:%.]] = ptrtoint i8 [[TMP19]] to i64
	// CHECK2-NEXT: [[TMP22:%.*]] = sub i64 [[TMP20]], [[TMP21]]			// CHECK2-NEXT: [[TMP22:%.*]] = sub i64 [[TMP20]], [[TMP21]]
	// CHECK2-NEXT: [[TMP23:%.]] = sdiv exact i64 [[TMP22]], ptrtoint (i8 getelementptr (i8, i8* null, i32 1) to i64)			// CHECK2-NEXT: [[TMP23:%.]] = sdiv exact i64 [[TMP22]], ptrtoint (i8 getelementptr (i8, i8* null, i32 1) to i64)
	// CHECK2-NEXT: [[TMP24:%.*]] = icmp sgt i64 [[TMP23]], 7			// CHECK2-NEXT: [[TMP24:%.*]] = icmp sgt i64 [[TMP23]], 7
	// CHECK2-NEXT: br i1 [[TMP24]], label [[DOTSHUFFLE_THEN]], label [[DOTSHUFFLE_EXIT:%.*]]			// CHECK2-NEXT: br i1 [[TMP24]], label [[DOTSHUFFLE_THEN]], label [[DOTSHUFFLE_EXIT:%.*]]
	// CHECK2: .shuffle.then:			// CHECK2: .shuffle.then:
	// CHECK2-NEXT: [[TMP25:%.]] = load i64, i64 [[TMP17]], align 8			// CHECK2-NEXT: [[TMP25:%.]] = load i64, i64 [[TMP17]], align 8
	// CHECK2-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()			// CHECK2-NEXT: [[TMP26:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK2-NEXT: [[TMP26:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK2-NEXT: [[TMP27:%.*]] = trunc i32 [[TMP26]] to i16
	// CHECK2-NEXT: [[TMP27:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP25]], i16 [[TMP7]], i16 [[TMP26]])			// CHECK2-NEXT: [[TMP28:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP25]], i16 [[TMP7]], i16 [[TMP27]])
	// CHECK2-NEXT: store i64 [[TMP27]], i64* [[TMP18]], align 8			// CHECK2-NEXT: store i64 [[TMP28]], i64* [[TMP18]], align 8
	// CHECK2-NEXT: [[TMP28]] = getelementptr i64, i64* [[TMP17]], i64 1			// CHECK2-NEXT: [[TMP29]] = getelementptr i64, i64* [[TMP17]], i64 1
	// CHECK2-NEXT: [[TMP29]] = getelementptr i64, i64* [[TMP18]], i64 1			// CHECK2-NEXT: [[TMP30]] = getelementptr i64, i64* [[TMP18]], i64 1
	// CHECK2-NEXT: br label [[DOTSHUFFLE_PRE_COND]]			// CHECK2-NEXT: br label [[DOTSHUFFLE_PRE_COND]]
	// CHECK2: .shuffle.exit:			// CHECK2: .shuffle.exit:
	// CHECK2-NEXT: [[TMP30:%.]] = bitcast %"class.std::complex.0" [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK2-NEXT: [[TMP31:%.]] = bitcast %"class.std::complex.0" [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	// CHECK2-NEXT: store i8* [[TMP30]], i8** [[TMP11]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: store i8* [[TMP31]], i8** [[TMP11]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: [[TMP31:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK2-NEXT: [[TMP32:%.*]] = icmp eq i16 [[TMP8]], 0
	// CHECK2-NEXT: [[TMP32:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK2-NEXT: [[TMP33:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK2-NEXT: [[TMP33:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]			// CHECK2-NEXT: [[TMP34:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]
	// CHECK2-NEXT: [[TMP34:%.*]] = and i1 [[TMP32]], [[TMP33]]			// CHECK2-NEXT: [[TMP35:%.*]] = and i1 [[TMP33]], [[TMP34]]
	// CHECK2-NEXT: [[TMP35:%.*]] = icmp eq i16 [[TMP8]], 2			// CHECK2-NEXT: [[TMP36:%.*]] = icmp eq i16 [[TMP8]], 2
	// CHECK2-NEXT: [[TMP36:%.*]] = and i16 [[TMP6]], 1			// CHECK2-NEXT: [[TMP37:%.*]] = and i16 [[TMP6]], 1
	// CHECK2-NEXT: [[TMP37:%.*]] = icmp eq i16 [[TMP36]], 0			// CHECK2-NEXT: [[TMP38:%.*]] = icmp eq i16 [[TMP37]], 0
	// CHECK2-NEXT: [[TMP38:%.*]] = and i1 [[TMP35]], [[TMP37]]			// CHECK2-NEXT: [[TMP39:%.*]] = and i1 [[TMP36]], [[TMP38]]
	// CHECK2-NEXT: [[TMP39:%.*]] = icmp sgt i16 [[TMP7]], 0			// CHECK2-NEXT: [[TMP40:%.*]] = icmp sgt i16 [[TMP7]], 0
	// CHECK2-NEXT: [[TMP40:%.*]] = and i1 [[TMP38]], [[TMP39]]			// CHECK2-NEXT: [[TMP41:%.*]] = and i1 [[TMP39]], [[TMP40]]
	// CHECK2-NEXT: [[TMP41:%.*]] = or i1 [[TMP31]], [[TMP34]]			// CHECK2-NEXT: [[TMP42:%.*]] = or i1 [[TMP32]], [[TMP35]]
	// CHECK2-NEXT: [[TMP42:%.*]] = or i1 [[TMP41]], [[TMP40]]			// CHECK2-NEXT: [[TMP43:%.*]] = or i1 [[TMP42]], [[TMP41]]
	// CHECK2-NEXT: br i1 [[TMP42]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK2-NEXT: br i1 [[TMP43]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK2: then:			// CHECK2: then:
	// CHECK2-NEXT: [[TMP43:%.]] = bitcast [1 x i8]* [[TMP5]] to i8*			// CHECK2-NEXT: [[TMP44:%.]] = bitcast [1 x i8]* [[TMP5]] to i8*
	// CHECK2-NEXT: [[TMP44:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*			// CHECK2-NEXT: [[TMP45:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*
	// CHECK2-NEXT: call void @"_omp$reduction$reduction_func4"(i8* [[TMP43]], i8* [[TMP44]]) #[[ATTR5]]			// CHECK2-NEXT: call void @"_omp$reduction$reduction_func4"(i8* [[TMP44]], i8* [[TMP45]]) #[[ATTR5]]
	// CHECK2-NEXT: br label [[IFCONT:%.*]]			// CHECK2-NEXT: br label [[IFCONT:%.*]]
	// CHECK2: else:			// CHECK2: else:
	// CHECK2-NEXT: br label [[IFCONT]]			// CHECK2-NEXT: br label [[IFCONT]]
	// CHECK2: ifcont:			// CHECK2: ifcont:
	// CHECK2-NEXT: [[TMP45:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK2-NEXT: [[TMP46:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK2-NEXT: [[TMP46:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]			// CHECK2-NEXT: [[TMP47:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]
	// CHECK2-NEXT: [[TMP47:%.*]] = and i1 [[TMP45]], [[TMP46]]			// CHECK2-NEXT: [[TMP48:%.*]] = and i1 [[TMP46]], [[TMP47]]
	// CHECK2-NEXT: br i1 [[TMP47]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK2-NEXT: br i1 [[TMP48]], label [[THEN4:%.]], label [[ELSE5:%.]]
	// CHECK2: then4:			// CHECK2: then4:
	// CHECK2-NEXT: [[TMP48:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK2-NEXT: [[TMP49:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK2-NEXT: [[TMP49:%.]] = load i8, i8** [[TMP48]], align 8			// CHECK2-NEXT: [[TMP50:%.]] = load i8, i8** [[TMP49]], align 8
	// CHECK2-NEXT: [[TMP50:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP5]], i64 0, i64 0			// CHECK2-NEXT: [[TMP51:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP5]], i64 0, i64 0
	// CHECK2-NEXT: [[TMP51:%.]] = load i8, i8** [[TMP50]], align 8			// CHECK2-NEXT: [[TMP52:%.]] = load i8, i8** [[TMP51]], align 8
	// CHECK2-NEXT: [[TMP52:%.]] = bitcast i8 [[TMP49]] to %"class.std::complex.0"*			// CHECK2-NEXT: [[TMP53:%.]] = bitcast i8 [[TMP50]] to %"class.std::complex.0"*
	// CHECK2-NEXT: [[TMP53:%.]] = bitcast i8 [[TMP51]] to %"class.std::complex.0"*			// CHECK2-NEXT: [[TMP54:%.]] = bitcast i8 [[TMP52]] to %"class.std::complex.0"*
	// CHECK2-NEXT: [[TMP54:%.]] = bitcast %"class.std::complex.0" [[TMP53]] to i8*			// CHECK2-NEXT: [[TMP55:%.]] = bitcast %"class.std::complex.0" [[TMP54]] to i8*
	// CHECK2-NEXT: [[TMP55:%.]] = bitcast %"class.std::complex.0" [[TMP52]] to i8*			// CHECK2-NEXT: [[TMP56:%.]] = bitcast %"class.std::complex.0" [[TMP53]] to i8*
	// CHECK2-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP54]], i8* align 8 [[TMP55]], i64 16, i1 false), !tbaa.struct !27			// CHECK2-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP55]], i8* align 8 [[TMP56]], i64 16, i1 false), !tbaa.struct !27
	// CHECK2-NEXT: br label [[IFCONT6:%.*]]			// CHECK2-NEXT: br label [[IFCONT6:%.*]]
	// CHECK2: else5:			// CHECK2: else5:
	// CHECK2-NEXT: br label [[IFCONT6]]			// CHECK2-NEXT: br label [[IFCONT6]]
	// CHECK2: ifcont6:			// CHECK2: ifcont6:
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func6			// CHECK2-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func6
	// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {			// CHECK2-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK2-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK2-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[NVPTX_TID:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()			// CHECK2-NEXT: [[TMP3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_TID2:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()			// CHECK2-NEXT: [[TMP4:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK2-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[TMP4]], 31
	// CHECK2-NEXT: [[NVPTX_TID3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()			// CHECK2-NEXT: [[TMP5:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK2-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK2-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[TMP5]], 5
	// CHECK2-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8			// CHECK2-NEXT: [[TMP6:%.]] = load i8, i8** [[DOTADDR]], align 8
	// CHECK2-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]			// CHECK2-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to [1 x i8]
	// CHECK2-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: br label [[PRECOND:%.*]]			// CHECK2-NEXT: br label [[PRECOND:%.*]]
	// CHECK2: precond:			// CHECK2: precond:
	// CHECK2-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 4			// CHECK2-NEXT: [[TMP9:%.*]] = icmp ult i32 [[TMP8]], 4
	// CHECK2-NEXT: br i1 [[TMP6]], label [[BODY:%.]], label [[EXIT:%.]]			// CHECK2-NEXT: br i1 [[TMP9]], label [[BODY:%.]], label [[EXIT:%.]]
	// CHECK2: body:			// CHECK2: body:
	// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK2-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK2-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK2-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK2-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK2: then:			// CHECK2: then:
	// CHECK2-NEXT: [[TMP7:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0			// CHECK2-NEXT: [[TMP10:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP7]], i64 0, i64 0
	// CHECK2-NEXT: [[TMP8:%.]] = load i8, i8** [[TMP7]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: [[TMP11:%.]] = load i8, i8** [[TMP10]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: [[TMP9:%.]] = bitcast i8 [[TMP8]] to i32*			// CHECK2-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP11]] to i32*
	// CHECK2-NEXT: [[TMP10:%.]] = getelementptr i32, i32 [[TMP9]], i32 [[TMP5]]			// CHECK2-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i32 [[TMP8]]
	// CHECK2-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK2-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK2-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP10]], align 4			// CHECK2-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP13]], align 4
	// CHECK2-NEXT: store volatile i32 [[TMP12]], i32 addrspace(3)* [[TMP11]], align 4			// CHECK2-NEXT: store volatile i32 [[TMP15]], i32 addrspace(3)* [[TMP14]], align 4
	// CHECK2-NEXT: br label [[IFCONT:%.*]]			// CHECK2-NEXT: br label [[IFCONT:%.*]]
	// CHECK2: else:			// CHECK2: else:
	// CHECK2-NEXT: br label [[IFCONT]]			// CHECK2-NEXT: br label [[IFCONT]]
	// CHECK2: ifcont:			// CHECK2: ifcont:
	// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK2-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK2-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]			// CHECK2-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[TMP3]], [[TMP16]]
	// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK2-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN2:%.]], label [[ELSE3:%.]]
	// CHECK2: then2:			// CHECK2: then2:
	// CHECK2-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK2-NEXT: [[TMP17:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK2-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0			// CHECK2-NEXT: [[TMP18:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP7]], i64 0, i64 0
	// CHECK2-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8, !tbaa [[TBAA12]]			// CHECK2-NEXT: [[TMP19:%.]] = load i8, i8** [[TMP18]], align 8, !tbaa [[TBAA12]]
	// CHECK2-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*			// CHECK2-NEXT: [[TMP20:%.]] = bitcast i8 [[TMP19]] to i32*
	// CHECK2-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]			// CHECK2-NEXT: [[TMP21:%.]] = getelementptr i32, i32 [[TMP20]], i32 [[TMP8]]
	// CHECK2-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: [[TMP22:%.]] = load volatile i32, i32 addrspace(3) [[TMP17]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 [[TMP22]], i32* [[TMP21]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: br label [[IFCONT6:%.*]]			// CHECK2-NEXT: br label [[IFCONT4:%.*]]
	// CHECK2: else3:			// CHECK2: else3:
	// CHECK2-NEXT: br label [[IFCONT6]]			// CHECK2-NEXT: br label [[IFCONT4]]
	// CHECK2: ifcont4:			// CHECK2: ifcont4:
	// CHECK2-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1			// CHECK2-NEXT: [[TMP23:%.*]] = add nsw i32 [[TMP8]], 1
	// CHECK2-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK2-NEXT: store i32 [[TMP23]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK2-NEXT: br label [[PRECOND]]			// CHECK2-NEXT: br label [[PRECOND]]
	// CHECK2: exit:			// CHECK2: exit:
	// CHECK2-NEXT: ret void			// CHECK2-NEXT: ret void
	//			//
	//			//
	// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper			// CHECK2-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper
	// CHECK2-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {			// CHECK2-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {
	// CHECK2-NEXT: entry:			// CHECK2-NEXT: entry:
	▲ Show 20 Lines • Show All 136 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[IB:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[IB:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[REF_TMP:%.*]] = alloca float, align 4			// CHECK3-NEXT: [[REF_TMP:%.*]] = alloca float, align 4
	// CHECK3-NEXT: [[REF_TMP2:%.*]] = alloca float, align 4			// CHECK3-NEXT: [[REF_TMP2:%.*]] = alloca float, align 4
	// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 8			// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 8
	// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8, !tbaa [[TBAA12:![0-9]+]]			// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8, !tbaa [[TBAA12:![0-9]+]]
	// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: [[ISTART:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK3-NEXT: [[ISTART:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK3-NEXT: [[ISTART_ON_STACK:%.]] = bitcast i8 [[ISTART]] to i32*			// CHECK3-NEXT: [[ISTART_ON_STACK:%.]] = bitcast i8 [[ISTART]] to i32*
	// CHECK3-NEXT: [[IEND:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK3-NEXT: [[IEND:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK3-NEXT: [[IEND_ON_STACK:%.]] = bitcast i8 [[IEND]] to i32*			// CHECK3-NEXT: [[IEND_ON_STACK:%.]] = bitcast i8 [[IEND]] to i32*
	// CHECK3-NEXT: [[PARTIAL_SUM:%.]] = call i8 @__kmpc_alloc_shared(i64 8)			// CHECK3-NEXT: [[PARTIAL_SUM:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 8)
	// CHECK3-NEXT: [[PARTIAL_SUM_ON_STACK:%.]] = bitcast i8 [[PARTIAL_SUM]] to %"class.std::complex"*			// CHECK3-NEXT: [[PARTIAL_SUM_ON_STACK:%.]] = bitcast i8 [[PARTIAL_SUM]] to %"class.std::complex"*
	// CHECK3-NEXT: [[TMP0:%.]] = bitcast i32 [[DOTOMP_IV]] to i8*			// CHECK3-NEXT: [[TMP0:%.]] = bitcast i32 [[DOTOMP_IV]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP0]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP0]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP1:%.]] = bitcast i32 [[DOTOMP_LB]] to i8*			// CHECK3-NEXT: [[TMP1:%.]] = bitcast i32 [[DOTOMP_LB]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP1]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP1]]) #[[ATTR5]]
	// CHECK3-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[TMP2:%.]] = bitcast i32 [[DOTOMP_UB]] to i8*			// CHECK3-NEXT: [[TMP2:%.]] = bitcast i32 [[DOTOMP_UB]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP2]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP2]]) #[[ATTR5]]
	Show All 36 Lines
	// CHECK3-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]			// CHECK3-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]
	// CHECK3-NEXT: store i32 [[ADD]], i32* [[IB]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 [[ADD]], i32* [[IB]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[TMP14:%.]] = bitcast float [[REF_TMP]] to i8*			// CHECK3-NEXT: [[TMP14:%.]] = bitcast float [[REF_TMP]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP14]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP14]]) #[[ATTR5]]
	// CHECK3-NEXT: store float 0.000000e+00, float* [[REF_TMP]], align 4, !tbaa [[TBAA14:![0-9]+]]			// CHECK3-NEXT: store float 0.000000e+00, float* [[REF_TMP]], align 4, !tbaa [[TBAA14:![0-9]+]]
	// CHECK3-NEXT: [[TMP15:%.]] = bitcast float [[REF_TMP2]] to i8*			// CHECK3-NEXT: [[TMP15:%.]] = bitcast float [[REF_TMP2]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP15]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP15]]) #[[ATTR5]]
	// CHECK3-NEXT: store float 0.000000e+00, float* [[REF_TMP2]], align 4, !tbaa [[TBAA14]]			// CHECK3-NEXT: store float 0.000000e+00, float* [[REF_TMP2]], align 4, !tbaa [[TBAA14]]
	// CHECK3-NEXT: call void @_ZNSt7complexIfEC1ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM_ON_STACK]], float* nonnull align 4 dereferenceable(4) [[REF_TMP]], float* nonnull align 4 dereferenceable(4) [[REF_TMP2]]) #[[ATTR11:[0-9]+]]			// CHECK3-NEXT: call void @_ZNSt7complexIfEC1ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM_ON_STACK]], float* nonnull align 4 dereferenceable(4) [[REF_TMP]], float* nonnull align 4 dereferenceable(4) [[REF_TMP2]]) #[[ATTR10:[0-9]+]]
	// CHECK3-NEXT: [[TMP16:%.]] = bitcast float [[REF_TMP2]] to i8*			// CHECK3-NEXT: [[TMP16:%.]] = bitcast float [[REF_TMP2]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP16]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP16]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP17:%.]] = bitcast float [[REF_TMP]] to i8*			// CHECK3-NEXT: [[TMP17:%.]] = bitcast float [[REF_TMP]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP17]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP17]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP18:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP18:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[MUL3:%.*]] = mul nsw i32 [[TMP18]], 4			// CHECK3-NEXT: [[MUL3:%.*]] = mul nsw i32 [[TMP18]], 4
	// CHECK3-NEXT: store i32 [[MUL3]], i32* [[ISTART_ON_STACK]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 [[MUL3]], i32* [[ISTART_ON_STACK]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[TMP19:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP19:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: [[__RE_ADDR:%.]] = alloca float, align 8			// CHECK3-NEXT: [[__RE_ADDR:%.]] = alloca float, align 8
	// CHECK3-NEXT: [[__IM_ADDR:%.]] = alloca float, align 8			// CHECK3-NEXT: [[__IM_ADDR:%.]] = alloca float, align 8
	// CHECK3-NEXT: store %"class.std::complex"* [[THIS]], %"class.std::complex"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: store %"class.std::complex"* [[THIS]], %"class.std::complex"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: store float* [[__RE]], float** [[__RE_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: store float* [[__RE]], float** [[__RE_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: store float* [[__IM]], float** [[__IM_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: store float* [[__IM]], float** [[__IM_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: [[THIS1:%.]] = load %"class.std::complex", %"class.std::complex"** [[THIS_ADDR]], align 8			// CHECK3-NEXT: [[THIS1:%.]] = load %"class.std::complex", %"class.std::complex"** [[THIS_ADDR]], align 8
	// CHECK3-NEXT: [[TMP0:%.]] = load float, float** [[__RE_ADDR]], align 8			// CHECK3-NEXT: [[TMP0:%.]] = load float, float** [[__RE_ADDR]], align 8
	// CHECK3-NEXT: [[TMP1:%.]] = load float, float** [[__IM_ADDR]], align 8			// CHECK3-NEXT: [[TMP1:%.]] = load float, float** [[__IM_ADDR]], align 8
	// CHECK3-NEXT: call void @_ZNSt7complexIfEC2ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[THIS1]], float* nonnull align 4 dereferenceable(4) [[TMP0]], float* nonnull align 4 dereferenceable(4) [[TMP1]]) #[[ATTR11]]			// CHECK3-NEXT: call void @_ZNSt7complexIfEC2ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[THIS1]], float* nonnull align 4 dereferenceable(4) [[TMP0]], float* nonnull align 4 dereferenceable(4) [[TMP1]]) #[[ATTR10]]
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__1			// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__1
	// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[ISTART:%.]], i32 nonnull align 4 dereferenceable(4) [[IEND:%.]], %"class.std::complex" nonnull align 4 dereferenceable(8) [[PARTIAL_SUM:%.*]]) #[[ATTR0]] {			// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[ISTART:%.]], i32 nonnull align 4 dereferenceable(4) [[IEND:%.]], %"class.std::complex" nonnull align 4 dereferenceable(8) [[PARTIAL_SUM:%.*]]) #[[ATTR0]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: [[TMP21:%.]] = bitcast %"class.std::complex" [[PARTIAL_SUM5]] to i8*			// CHECK3-NEXT: [[TMP21:%.]] = bitcast %"class.std::complex" [[PARTIAL_SUM5]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP21]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP21]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP22:%.]] = bitcast float [[REF_TMP]] to i8*			// CHECK3-NEXT: [[TMP22:%.]] = bitcast float [[REF_TMP]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP22]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP22]]) #[[ATTR5]]
	// CHECK3-NEXT: store float 0.000000e+00, float* [[REF_TMP]], align 4, !tbaa [[TBAA14]]			// CHECK3-NEXT: store float 0.000000e+00, float* [[REF_TMP]], align 4, !tbaa [[TBAA14]]
	// CHECK3-NEXT: [[TMP23:%.]] = bitcast float [[REF_TMP6]] to i8*			// CHECK3-NEXT: [[TMP23:%.]] = bitcast float [[REF_TMP6]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP23]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP23]]) #[[ATTR5]]
	// CHECK3-NEXT: store float 0.000000e+00, float* [[REF_TMP6]], align 4, !tbaa [[TBAA14]]			// CHECK3-NEXT: store float 0.000000e+00, float* [[REF_TMP6]], align 4, !tbaa [[TBAA14]]
	// CHECK3-NEXT: call void @_ZNSt7complexIfEC1ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM5]], float* nonnull align 4 dereferenceable(4) [[REF_TMP]], float* nonnull align 4 dereferenceable(4) [[REF_TMP6]]) #[[ATTR11]]			// CHECK3-NEXT: call void @_ZNSt7complexIfEC1ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM5]], float* nonnull align 4 dereferenceable(4) [[REF_TMP]], float* nonnull align 4 dereferenceable(4) [[REF_TMP6]]) #[[ATTR10]]
	// CHECK3-NEXT: [[TMP24:%.]] = bitcast float [[REF_TMP6]] to i8*			// CHECK3-NEXT: [[TMP24:%.]] = bitcast float [[REF_TMP6]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP24]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP24]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP25:%.]] = bitcast float [[REF_TMP]] to i8*			// CHECK3-NEXT: [[TMP25:%.]] = bitcast float [[REF_TMP]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP25]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP25]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP26:%.]] = bitcast i32 [[I7]] to i8*			// CHECK3-NEXT: [[TMP26:%.]] = bitcast i32 [[I7]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP26]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP26]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP27:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8			// CHECK3-NEXT: [[TMP27:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
	// CHECK3-NEXT: [[TMP28:%.]] = load i32, i32 [[TMP27]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP28:%.]] = load i32, i32 [[TMP27]], align 4, !tbaa [[TBAA8]]
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: [[TMP42:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP42:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP42]] to float			// CHECK3-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP42]] to float
	// CHECK3-NEXT: store float [[CONV]], float* [[REF_TMP15]], align 4, !tbaa [[TBAA14]]			// CHECK3-NEXT: store float [[CONV]], float* [[REF_TMP15]], align 4, !tbaa [[TBAA14]]
	// CHECK3-NEXT: [[TMP43:%.]] = bitcast float [[REF_TMP16]] to i8*			// CHECK3-NEXT: [[TMP43:%.]] = bitcast float [[REF_TMP16]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP43]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP43]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP44:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP44:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[CONV17:%.*]] = sitofp i32 [[TMP44]] to float			// CHECK3-NEXT: [[CONV17:%.*]] = sitofp i32 [[TMP44]] to float
	// CHECK3-NEXT: store float [[CONV17]], float* [[REF_TMP16]], align 4, !tbaa [[TBAA14]]			// CHECK3-NEXT: store float [[CONV17]], float* [[REF_TMP16]], align 4, !tbaa [[TBAA14]]
	// CHECK3-NEXT: call void @_ZNSt7complexIfEC1ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[REF_TMP14]], float* nonnull align 4 dereferenceable(4) [[REF_TMP15]], float* nonnull align 4 dereferenceable(4) [[REF_TMP16]]) #[[ATTR11]]			// CHECK3-NEXT: call void @_ZNSt7complexIfEC1ERKfS2_(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[REF_TMP14]], float* nonnull align 4 dereferenceable(4) [[REF_TMP15]], float* nonnull align 4 dereferenceable(4) [[REF_TMP16]]) #[[ATTR10]]
	// CHECK3-NEXT: [[CALL:%.]] = call nonnull align 4 dereferenceable(8) %"class.std::complex" @_ZNSt7complexIfEpLIfEERS0_RKS_IT_E(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM5]], %"class.std::complex"* nonnull align 4 dereferenceable(8) [[REF_TMP14]]) #[[ATTR11]]			// CHECK3-NEXT: [[CALL:%.]] = call nonnull align 4 dereferenceable(8) %"class.std::complex" @_ZNSt7complexIfEpLIfEERS0_RKS_IT_E(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM5]], %"class.std::complex"* nonnull align 4 dereferenceable(8) [[REF_TMP14]]) #[[ATTR10]]
	// CHECK3-NEXT: [[TMP45:%.]] = bitcast float [[REF_TMP16]] to i8*			// CHECK3-NEXT: [[TMP45:%.]] = bitcast float [[REF_TMP16]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP45]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP45]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP46:%.]] = bitcast float [[REF_TMP15]] to i8*			// CHECK3-NEXT: [[TMP46:%.]] = bitcast float [[REF_TMP15]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP46]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP46]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP47:%.]] = bitcast %"class.std::complex" [[REF_TMP14]] to i8*			// CHECK3-NEXT: [[TMP47:%.]] = bitcast %"class.std::complex" [[REF_TMP14]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP47]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP47]]) #[[ATTR5]]
	// CHECK3-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]			// CHECK3-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]
	// CHECK3: omp.body.continue:			// CHECK3: omp.body.continue:
	Show All 24 Lines
	// CHECK3-NEXT: [[TMP57:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 0			// CHECK3-NEXT: [[TMP57:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 0
	// CHECK3-NEXT: [[TMP58:%.]] = bitcast %"class.std::complex" [[PARTIAL_SUM5]] to i8*			// CHECK3-NEXT: [[TMP58:%.]] = bitcast %"class.std::complex" [[PARTIAL_SUM5]] to i8*
	// CHECK3-NEXT: store i8* [[TMP58]], i8** [[TMP57]], align 8			// CHECK3-NEXT: store i8* [[TMP58]], i8** [[TMP57]], align 8
	// CHECK3-NEXT: [[TMP59:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK3-NEXT: [[TMP59:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK3-NEXT: [[TMP60:%.]] = call i32 @__kmpc_nvptx_parallel_reduce_nowait_v2(%struct.ident_t @[[GLOB1]], i32 [[TMP56]], i32 1, i64 8, i8* [[TMP59]], void (i8, i16, i16, i16) @_omp_reduction_shuffle_and_reduce_func, void (i8, i32) @_omp_reduction_inter_warp_copy_func)			// CHECK3-NEXT: [[TMP60:%.]] = call i32 @__kmpc_nvptx_parallel_reduce_nowait_v2(%struct.ident_t @[[GLOB1]], i32 [[TMP56]], i32 1, i64 8, i8* [[TMP59]], void (i8, i16, i16, i16) @_omp_reduction_shuffle_and_reduce_func, void (i8, i32) @_omp_reduction_inter_warp_copy_func)
	// CHECK3-NEXT: [[TMP61:%.*]] = icmp eq i32 [[TMP60]], 1			// CHECK3-NEXT: [[TMP61:%.*]] = icmp eq i32 [[TMP60]], 1
	// CHECK3-NEXT: br i1 [[TMP61]], label [[DOTOMP_REDUCTION_THEN:%.]], label [[DOTOMP_REDUCTION_DONE:%.]]			// CHECK3-NEXT: br i1 [[TMP61]], label [[DOTOMP_REDUCTION_THEN:%.]], label [[DOTOMP_REDUCTION_DONE:%.]]
	// CHECK3: .omp.reduction.then:			// CHECK3: .omp.reduction.then:
	// CHECK3-NEXT: [[CALL21:%.]] = call nonnull align 4 dereferenceable(8) %"class.std::complex" @_ZNSt7complexIfEpLIfEERS0_RKS_IT_E(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[TMP2]], %"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM5]]) #[[ATTR11]]			// CHECK3-NEXT: [[CALL21:%.]] = call nonnull align 4 dereferenceable(8) %"class.std::complex" @_ZNSt7complexIfEpLIfEERS0_RKS_IT_E(%"class.std::complex"* nonnull align 4 dereferenceable(8) [[TMP2]], %"class.std::complex"* nonnull align 4 dereferenceable(8) [[PARTIAL_SUM5]]) #[[ATTR10]]
	// CHECK3-NEXT: call void @__kmpc_nvptx_end_reduce_nowait(i32 [[TMP56]])			// CHECK3-NEXT: call void @__kmpc_nvptx_end_reduce_nowait(i32 [[TMP56]])
	// CHECK3-NEXT: br label [[DOTOMP_REDUCTION_DONE]]			// CHECK3-NEXT: br label [[DOTOMP_REDUCTION_DONE]]
	// CHECK3: .omp.reduction.done:			// CHECK3: .omp.reduction.done:
	// CHECK3-NEXT: [[TMP62:%.]] = bitcast i32 [[I7]] to i8*			// CHECK3-NEXT: [[TMP62:%.]] = bitcast i32 [[I7]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP62]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP62]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP63:%.]] = bitcast %"class.std::complex" [[PARTIAL_SUM5]] to i8*			// CHECK3-NEXT: [[TMP63:%.]] = bitcast %"class.std::complex" [[PARTIAL_SUM5]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP63]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP63]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP64:%.]] = bitcast i32 [[DOTOMP_IS_LAST]] to i8*			// CHECK3-NEXT: [[TMP64:%.]] = bitcast i32 [[DOTOMP_IS_LAST]] to i8*
	Show All 21 Lines
	// CHECK3-SAME: (%"class.std::complex"* nonnull align 4 dereferenceable(8) [[THIS:%.]], %"class.std::complex" nonnull align 4 dereferenceable(8) [[__C:%.*]]) #[[ATTR4:[0-9]+]] comdat align 2 {			// CHECK3-SAME: (%"class.std::complex"* nonnull align 4 dereferenceable(8) [[THIS:%.]], %"class.std::complex" nonnull align 4 dereferenceable(8) [[__C:%.*]]) #[[ATTR4:[0-9]+]] comdat align 2 {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[THIS_ADDR:%.]] = alloca %"class.std::complex", align 8			// CHECK3-NEXT: [[THIS_ADDR:%.]] = alloca %"class.std::complex", align 8
	// CHECK3-NEXT: [[__C_ADDR:%.]] = alloca %"class.std::complex", align 8			// CHECK3-NEXT: [[__C_ADDR:%.]] = alloca %"class.std::complex", align 8
	// CHECK3-NEXT: store %"class.std::complex"* [[THIS]], %"class.std::complex"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: store %"class.std::complex"* [[THIS]], %"class.std::complex"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: store %"class.std::complex"* [[__C]], %"class.std::complex"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: store %"class.std::complex"* [[__C]], %"class.std::complex"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: [[THIS1:%.]] = load %"class.std::complex", %"class.std::complex"** [[THIS_ADDR]], align 8			// CHECK3-NEXT: [[THIS1:%.]] = load %"class.std::complex", %"class.std::complex"** [[THIS_ADDR]], align 8
	// CHECK3-NEXT: [[TMP0:%.]] = load %"class.std::complex", %"class.std::complex"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: [[TMP0:%.]] = load %"class.std::complex", %"class.std::complex"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: [[CALL:%.]] = call float @_ZNKSt7complexIfE4realEv(%"class.std::complex" nonnull align 4 dereferenceable(8) [[TMP0]]) #[[ATTR11]]			// CHECK3-NEXT: [[CALL:%.]] = call float @_ZNKSt7complexIfE4realEv(%"class.std::complex" nonnull align 4 dereferenceable(8) [[TMP0]]) #[[ATTR10]]
	// CHECK3-NEXT: [[__RE_:%.]] = getelementptr inbounds %"class.std::complex", %"class.std::complex" [[THIS1]], i32 0, i32 0			// CHECK3-NEXT: [[__RE_:%.]] = getelementptr inbounds %"class.std::complex", %"class.std::complex" [[THIS1]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP1:%.]] = load float, float [[__RE_]], align 4, !tbaa [[TBAA16:![0-9]+]]			// CHECK3-NEXT: [[TMP1:%.]] = load float, float [[__RE_]], align 4, !tbaa [[TBAA16:![0-9]+]]
	// CHECK3-NEXT: [[ADD:%.*]] = fadd float [[TMP1]], [[CALL]]			// CHECK3-NEXT: [[ADD:%.*]] = fadd float [[TMP1]], [[CALL]]
	// CHECK3-NEXT: store float [[ADD]], float* [[__RE_]], align 4, !tbaa [[TBAA16]]			// CHECK3-NEXT: store float [[ADD]], float* [[__RE_]], align 4, !tbaa [[TBAA16]]
	// CHECK3-NEXT: [[TMP2:%.]] = load %"class.std::complex", %"class.std::complex"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: [[TMP2:%.]] = load %"class.std::complex", %"class.std::complex"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: [[CALL2:%.]] = call float @_ZNKSt7complexIfE4imagEv(%"class.std::complex" nonnull align 4 dereferenceable(8) [[TMP2]]) #[[ATTR11]]			// CHECK3-NEXT: [[CALL2:%.]] = call float @_ZNKSt7complexIfE4imagEv(%"class.std::complex" nonnull align 4 dereferenceable(8) [[TMP2]]) #[[ATTR10]]
	// CHECK3-NEXT: [[__IM_:%.]] = getelementptr inbounds %"class.std::complex", %"class.std::complex" [[THIS1]], i32 0, i32 1			// CHECK3-NEXT: [[__IM_:%.]] = getelementptr inbounds %"class.std::complex", %"class.std::complex" [[THIS1]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP3:%.]] = load float, float [[__IM_]], align 4, !tbaa [[TBAA18:![0-9]+]]			// CHECK3-NEXT: [[TMP3:%.]] = load float, float [[__IM_]], align 4, !tbaa [[TBAA18:![0-9]+]]
	// CHECK3-NEXT: [[ADD3:%.*]] = fadd float [[TMP3]], [[CALL2]]			// CHECK3-NEXT: [[ADD3:%.*]] = fadd float [[TMP3]], [[CALL2]]
	// CHECK3-NEXT: store float [[ADD3]], float* [[__IM_]], align 4, !tbaa [[TBAA18]]			// CHECK3-NEXT: store float [[ADD3]], float* [[__IM_]], align 4, !tbaa [[TBAA18]]
	// CHECK3-NEXT: ret %"class.std::complex"* [[THIS1]]			// CHECK3-NEXT: ret %"class.std::complex"* [[THIS1]]
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_shuffle_and_reduce_func			// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_shuffle_and_reduce_func
	Show All 18 Lines
	// CHECK3-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 8			// CHECK3-NEXT: [[TMP10:%.]] = load i8, i8** [[TMP9]], align 8
	// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK3-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to %"class.std::complex"*			// CHECK3-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to %"class.std::complex"*
	// CHECK3-NEXT: [[TMP13:%.]] = getelementptr %"class.std::complex", %"class.std::complex" [[TMP12]], i64 1			// CHECK3-NEXT: [[TMP13:%.]] = getelementptr %"class.std::complex", %"class.std::complex" [[TMP12]], i64 1
	// CHECK3-NEXT: [[TMP14:%.]] = bitcast %"class.std::complex" [[TMP13]] to i8*			// CHECK3-NEXT: [[TMP14:%.]] = bitcast %"class.std::complex" [[TMP13]] to i8*
	// CHECK3-NEXT: [[TMP15:%.]] = bitcast %"class.std::complex" [[TMP12]] to i64*			// CHECK3-NEXT: [[TMP15:%.]] = bitcast %"class.std::complex" [[TMP12]] to i64*
	// CHECK3-NEXT: [[TMP16:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i64*			// CHECK3-NEXT: [[TMP16:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i64*
	// CHECK3-NEXT: [[TMP17:%.]] = load i64, i64 [[TMP15]], align 4			// CHECK3-NEXT: [[TMP17:%.]] = load i64, i64 [[TMP15]], align 4
	// CHECK3-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()			// CHECK3-NEXT: [[TMP18:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK3-NEXT: [[TMP18:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK3-NEXT: [[TMP19:%.*]] = trunc i32 [[TMP18]] to i16
	// CHECK3-NEXT: [[TMP19:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP17]], i16 [[TMP7]], i16 [[TMP18]])			// CHECK3-NEXT: [[TMP20:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP17]], i16 [[TMP7]], i16 [[TMP19]])
	// CHECK3-NEXT: store i64 [[TMP19]], i64* [[TMP16]], align 4			// CHECK3-NEXT: store i64 [[TMP20]], i64* [[TMP16]], align 4
	// CHECK3-NEXT: [[TMP20:%.]] = getelementptr i64, i64 [[TMP15]], i64 1			// CHECK3-NEXT: [[TMP21:%.]] = getelementptr i64, i64 [[TMP15]], i64 1
	// CHECK3-NEXT: [[TMP21:%.]] = getelementptr i64, i64 [[TMP16]], i64 1			// CHECK3-NEXT: [[TMP22:%.]] = getelementptr i64, i64 [[TMP16]], i64 1
	// CHECK3-NEXT: [[TMP22:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK3-NEXT: [[TMP23:%.]] = bitcast %"class.std::complex" [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	// CHECK3-NEXT: store i8* [[TMP22]], i8** [[TMP11]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: store i8* [[TMP23]], i8** [[TMP11]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: [[TMP23:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK3-NEXT: [[TMP24:%.*]] = icmp eq i16 [[TMP8]], 0
	// CHECK3-NEXT: [[TMP24:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK3-NEXT: [[TMP25:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK3-NEXT: [[TMP25:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]			// CHECK3-NEXT: [[TMP26:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]
	// CHECK3-NEXT: [[TMP26:%.*]] = and i1 [[TMP24]], [[TMP25]]			// CHECK3-NEXT: [[TMP27:%.*]] = and i1 [[TMP25]], [[TMP26]]
	// CHECK3-NEXT: [[TMP27:%.*]] = icmp eq i16 [[TMP8]], 2			// CHECK3-NEXT: [[TMP28:%.*]] = icmp eq i16 [[TMP8]], 2
	// CHECK3-NEXT: [[TMP28:%.*]] = and i16 [[TMP6]], 1			// CHECK3-NEXT: [[TMP29:%.*]] = and i16 [[TMP6]], 1
	// CHECK3-NEXT: [[TMP29:%.*]] = icmp eq i16 [[TMP28]], 0			// CHECK3-NEXT: [[TMP30:%.*]] = icmp eq i16 [[TMP29]], 0
	// CHECK3-NEXT: [[TMP30:%.*]] = and i1 [[TMP27]], [[TMP29]]			// CHECK3-NEXT: [[TMP31:%.*]] = and i1 [[TMP28]], [[TMP30]]
	// CHECK3-NEXT: [[TMP31:%.*]] = icmp sgt i16 [[TMP7]], 0			// CHECK3-NEXT: [[TMP32:%.*]] = icmp sgt i16 [[TMP7]], 0
	// CHECK3-NEXT: [[TMP32:%.*]] = and i1 [[TMP30]], [[TMP31]]			// CHECK3-NEXT: [[TMP33:%.*]] = and i1 [[TMP31]], [[TMP32]]
	// CHECK3-NEXT: [[TMP33:%.*]] = or i1 [[TMP23]], [[TMP26]]			// CHECK3-NEXT: [[TMP34:%.*]] = or i1 [[TMP24]], [[TMP27]]
	// CHECK3-NEXT: [[TMP34:%.*]] = or i1 [[TMP33]], [[TMP32]]			// CHECK3-NEXT: [[TMP35:%.*]] = or i1 [[TMP34]], [[TMP33]]
	// CHECK3-NEXT: br i1 [[TMP34]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK3-NEXT: br i1 [[TMP35]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK3: then:			// CHECK3: then:
	// CHECK3-NEXT: [[TMP35:%.]] = bitcast [1 x i8]* [[TMP5]] to i8*			// CHECK3-NEXT: [[TMP36:%.]] = bitcast [1 x i8]* [[TMP5]] to i8*
	// CHECK3-NEXT: [[TMP36:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*			// CHECK3-NEXT: [[TMP37:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*
	// CHECK3-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP35]], i8* [[TMP36]]) #[[ATTR5]]			// CHECK3-NEXT: call void @"_omp$reduction$reduction_func"(i8* [[TMP36]], i8* [[TMP37]]) #[[ATTR5]]
	// CHECK3-NEXT: br label [[IFCONT:%.*]]			// CHECK3-NEXT: br label [[IFCONT:%.*]]
	// CHECK3: else:			// CHECK3: else:
	// CHECK3-NEXT: br label [[IFCONT]]			// CHECK3-NEXT: br label [[IFCONT]]
	// CHECK3: ifcont:			// CHECK3: ifcont:
	// CHECK3-NEXT: [[TMP37:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK3-NEXT: [[TMP38:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK3-NEXT: [[TMP38:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]			// CHECK3-NEXT: [[TMP39:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]
	// CHECK3-NEXT: [[TMP39:%.*]] = and i1 [[TMP37]], [[TMP38]]			// CHECK3-NEXT: [[TMP40:%.*]] = and i1 [[TMP38]], [[TMP39]]
	// CHECK3-NEXT: br i1 [[TMP39]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK3-NEXT: br i1 [[TMP40]], label [[THEN4:%.]], label [[ELSE5:%.]]
	// CHECK3: then4:			// CHECK3: then4:
	// CHECK3-NEXT: [[TMP40:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK3-NEXT: [[TMP41:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK3-NEXT: [[TMP41:%.]] = load i8, i8** [[TMP40]], align 8			// CHECK3-NEXT: [[TMP42:%.]] = load i8, i8** [[TMP41]], align 8
	// CHECK3-NEXT: [[TMP42:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP5]], i64 0, i64 0			// CHECK3-NEXT: [[TMP43:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP5]], i64 0, i64 0
	// CHECK3-NEXT: [[TMP43:%.]] = load i8, i8** [[TMP42]], align 8			// CHECK3-NEXT: [[TMP44:%.]] = load i8, i8** [[TMP43]], align 8
	// CHECK3-NEXT: [[TMP44:%.]] = bitcast i8 [[TMP41]] to %"class.std::complex"*			// CHECK3-NEXT: [[TMP45:%.]] = bitcast i8 [[TMP42]] to %"class.std::complex"*
	// CHECK3-NEXT: [[TMP45:%.]] = bitcast i8 [[TMP43]] to %"class.std::complex"*			// CHECK3-NEXT: [[TMP46:%.]] = bitcast i8 [[TMP44]] to %"class.std::complex"*
	// CHECK3-NEXT: [[TMP46:%.]] = bitcast %"class.std::complex" [[TMP45]] to i8*			// CHECK3-NEXT: [[TMP47:%.]] = bitcast %"class.std::complex" [[TMP46]] to i8*
	// CHECK3-NEXT: [[TMP47:%.]] = bitcast %"class.std::complex" [[TMP44]] to i8*			// CHECK3-NEXT: [[TMP48:%.]] = bitcast %"class.std::complex" [[TMP45]] to i8*
	// CHECK3-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 4 [[TMP46]], i8* align 4 [[TMP47]], i64 8, i1 false), !tbaa.struct !21			// CHECK3-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 4 [[TMP47]], i8* align 4 [[TMP48]], i64 8, i1 false), !tbaa.struct !21
	// CHECK3-NEXT: br label [[IFCONT6:%.*]]			// CHECK3-NEXT: br label [[IFCONT6:%.*]]
	// CHECK3: else5:			// CHECK3: else5:
	// CHECK3-NEXT: br label [[IFCONT6]]			// CHECK3-NEXT: br label [[IFCONT6]]
	// CHECK3: ifcont6:			// CHECK3: ifcont6:
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func			// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func
	// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {			// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK3-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[NVPTX_TID:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()			// CHECK3-NEXT: [[TMP3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_TID2:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()			// CHECK3-NEXT: [[TMP4:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK3-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[TMP4]], 31
	// CHECK3-NEXT: [[NVPTX_TID3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()			// CHECK3-NEXT: [[TMP5:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK3-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[TMP5]], 5
	// CHECK3-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8			// CHECK3-NEXT: [[TMP6:%.]] = load i8, i8** [[DOTADDR]], align 8
	// CHECK3-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]			// CHECK3-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to [1 x i8]
	// CHECK3-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: br label [[PRECOND:%.*]]			// CHECK3-NEXT: br label [[PRECOND:%.*]]
	// CHECK3: precond:			// CHECK3: precond:
	// CHECK3-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 2			// CHECK3-NEXT: [[TMP9:%.*]] = icmp ult i32 [[TMP8]], 2
	// CHECK3-NEXT: br i1 [[TMP6]], label [[BODY:%.]], label [[EXIT:%.]]			// CHECK3-NEXT: br i1 [[TMP9]], label [[BODY:%.]], label [[EXIT:%.]]
	// CHECK3: body:			// CHECK3: body:
	// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4:[0-9]+]], i32 [[TMP2]])			// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4:[0-9]+]], i32 [[TMP2]])
	// CHECK3-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK3-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK3-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK3-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK3: then:			// CHECK3: then:
	// CHECK3-NEXT: [[TMP7:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0			// CHECK3-NEXT: [[TMP10:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP7]], i64 0, i64 0
	// CHECK3-NEXT: [[TMP8:%.]] = load i8, i8** [[TMP7]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: [[TMP11:%.]] = load i8, i8** [[TMP10]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: [[TMP9:%.]] = bitcast i8 [[TMP8]] to i32*			// CHECK3-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP11]] to i32*
	// CHECK3-NEXT: [[TMP10:%.]] = getelementptr i32, i32 [[TMP9]], i32 [[TMP5]]			// CHECK3-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i32 [[TMP8]]
	// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK3-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK3-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP10]], align 4			// CHECK3-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP13]], align 4
	// CHECK3-NEXT: store volatile i32 [[TMP12]], i32 addrspace(3)* [[TMP11]], align 4			// CHECK3-NEXT: store volatile i32 [[TMP15]], i32 addrspace(3)* [[TMP14]], align 4
	// CHECK3-NEXT: br label [[IFCONT:%.*]]			// CHECK3-NEXT: br label [[IFCONT:%.*]]
	// CHECK3: else:			// CHECK3: else:
	// CHECK3-NEXT: br label [[IFCONT]]			// CHECK3-NEXT: br label [[IFCONT]]
	// CHECK3: ifcont:			// CHECK3: ifcont:
	// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK3-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]			// CHECK3-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[TMP3]], [[TMP16]]
	// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN2:%.]], label [[ELSE3:%.]]
	// CHECK3: then2:			// CHECK3: then2:
	// CHECK3-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK3-NEXT: [[TMP17:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK3-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0			// CHECK3-NEXT: [[TMP18:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP7]], i64 0, i64 0
	// CHECK3-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: [[TMP19:%.]] = load i8, i8** [[TMP18]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*			// CHECK3-NEXT: [[TMP20:%.]] = bitcast i8 [[TMP19]] to i32*
	// CHECK3-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]			// CHECK3-NEXT: [[TMP21:%.]] = getelementptr i32, i32 [[TMP20]], i32 [[TMP8]]
	// CHECK3-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP22:%.]] = load volatile i32, i32 addrspace(3) [[TMP17]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 [[TMP22]], i32* [[TMP21]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: br label [[IFCONT6:%.*]]			// CHECK3-NEXT: br label [[IFCONT4:%.*]]
	// CHECK3: else3:			// CHECK3: else3:
	// CHECK3-NEXT: br label [[IFCONT6]]			// CHECK3-NEXT: br label [[IFCONT4]]
	// CHECK3: ifcont4:			// CHECK3: ifcont4:
	// CHECK3-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1			// CHECK3-NEXT: [[TMP23:%.*]] = add nsw i32 [[TMP8]], 1
	// CHECK3-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 [[TMP23]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: br label [[PRECOND]]			// CHECK3-NEXT: br label [[PRECOND]]
	// CHECK3: exit:			// CHECK3: exit:
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper			// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__1_wrapper
	// CHECK3-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {			// CHECK3-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[IB:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[IB:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[REF_TMP:%.*]] = alloca double, align 8			// CHECK3-NEXT: [[REF_TMP:%.*]] = alloca double, align 8
	// CHECK3-NEXT: [[REF_TMP2:%.*]] = alloca double, align 8			// CHECK3-NEXT: [[REF_TMP2:%.*]] = alloca double, align 8
	// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 8			// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [3 x i8], align 8
	// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: [[ISTART:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK3-NEXT: [[ISTART:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK3-NEXT: [[ISTART_ON_STACK:%.]] = bitcast i8 [[ISTART]] to i32*			// CHECK3-NEXT: [[ISTART_ON_STACK:%.]] = bitcast i8 [[ISTART]] to i32*
	// CHECK3-NEXT: [[IEND:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK3-NEXT: [[IEND:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK3-NEXT: [[IEND_ON_STACK:%.]] = bitcast i8 [[IEND]] to i32*			// CHECK3-NEXT: [[IEND_ON_STACK:%.]] = bitcast i8 [[IEND]] to i32*
	// CHECK3-NEXT: [[PARTIAL_SUM:%.]] = call i8 @__kmpc_alloc_shared(i64 16)			// CHECK3-NEXT: [[PARTIAL_SUM:%.]] = call align 8 i8 @__kmpc_alloc_shared(i64 16)
	// CHECK3-NEXT: [[PARTIAL_SUM_ON_STACK:%.]] = bitcast i8 [[PARTIAL_SUM]] to %"class.std::complex.0"*			// CHECK3-NEXT: [[PARTIAL_SUM_ON_STACK:%.]] = bitcast i8 [[PARTIAL_SUM]] to %"class.std::complex.0"*
	// CHECK3-NEXT: [[TMP0:%.]] = bitcast i32 [[DOTOMP_IV]] to i8*			// CHECK3-NEXT: [[TMP0:%.]] = bitcast i32 [[DOTOMP_IV]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP0]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP0]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP1:%.]] = bitcast i32 [[DOTOMP_LB]] to i8*			// CHECK3-NEXT: [[TMP1:%.]] = bitcast i32 [[DOTOMP_LB]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP1]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP1]]) #[[ATTR5]]
	// CHECK3-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[TMP2:%.]] = bitcast i32 [[DOTOMP_UB]] to i8*			// CHECK3-NEXT: [[TMP2:%.]] = bitcast i32 [[DOTOMP_UB]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP2]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP2]]) #[[ATTR5]]
	Show All 36 Lines
	// CHECK3-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]			// CHECK3-NEXT: [[ADD:%.*]] = add nsw i32 0, [[MUL]]
	// CHECK3-NEXT: store i32 [[ADD]], i32* [[IB]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 [[ADD]], i32* [[IB]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[TMP14:%.]] = bitcast double [[REF_TMP]] to i8*			// CHECK3-NEXT: [[TMP14:%.]] = bitcast double [[REF_TMP]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP14]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP14]]) #[[ATTR5]]
	// CHECK3-NEXT: store double 0.000000e+00, double* [[REF_TMP]], align 8, !tbaa [[TBAA22:![0-9]+]]			// CHECK3-NEXT: store double 0.000000e+00, double* [[REF_TMP]], align 8, !tbaa [[TBAA22:![0-9]+]]
	// CHECK3-NEXT: [[TMP15:%.]] = bitcast double [[REF_TMP2]] to i8*			// CHECK3-NEXT: [[TMP15:%.]] = bitcast double [[REF_TMP2]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP15]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP15]]) #[[ATTR5]]
	// CHECK3-NEXT: store double 0.000000e+00, double* [[REF_TMP2]], align 8, !tbaa [[TBAA22]]			// CHECK3-NEXT: store double 0.000000e+00, double* [[REF_TMP2]], align 8, !tbaa [[TBAA22]]
	// CHECK3-NEXT: call void @_ZNSt7complexIdEC1ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM_ON_STACK]], double* nonnull align 8 dereferenceable(8) [[REF_TMP]], double* nonnull align 8 dereferenceable(8) [[REF_TMP2]]) #[[ATTR11]]			// CHECK3-NEXT: call void @_ZNSt7complexIdEC1ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM_ON_STACK]], double* nonnull align 8 dereferenceable(8) [[REF_TMP]], double* nonnull align 8 dereferenceable(8) [[REF_TMP2]]) #[[ATTR10]]
	// CHECK3-NEXT: [[TMP16:%.]] = bitcast double [[REF_TMP2]] to i8*			// CHECK3-NEXT: [[TMP16:%.]] = bitcast double [[REF_TMP2]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP16]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP16]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP17:%.]] = bitcast double [[REF_TMP]] to i8*			// CHECK3-NEXT: [[TMP17:%.]] = bitcast double [[REF_TMP]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP17]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP17]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP18:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP18:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[MUL3:%.*]] = mul nsw i32 [[TMP18]], 4			// CHECK3-NEXT: [[MUL3:%.*]] = mul nsw i32 [[TMP18]], 4
	// CHECK3-NEXT: store i32 [[MUL3]], i32* [[ISTART_ON_STACK]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 [[MUL3]], i32* [[ISTART_ON_STACK]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[TMP19:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP19:%.]] = load i32, i32 [[IB]], align 4, !tbaa [[TBAA8]]
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: [[__RE_ADDR:%.]] = alloca double, align 8			// CHECK3-NEXT: [[__RE_ADDR:%.]] = alloca double, align 8
	// CHECK3-NEXT: [[__IM_ADDR:%.]] = alloca double, align 8			// CHECK3-NEXT: [[__IM_ADDR:%.]] = alloca double, align 8
	// CHECK3-NEXT: store %"class.std::complex.0"* [[THIS]], %"class.std::complex.0"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: store %"class.std::complex.0"* [[THIS]], %"class.std::complex.0"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: store double* [[__RE]], double** [[__RE_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: store double* [[__RE]], double** [[__RE_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: store double* [[__IM]], double** [[__IM_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: store double* [[__IM]], double** [[__IM_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: [[THIS1:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[THIS_ADDR]], align 8			// CHECK3-NEXT: [[THIS1:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[THIS_ADDR]], align 8
	// CHECK3-NEXT: [[TMP0:%.]] = load double, double** [[__RE_ADDR]], align 8			// CHECK3-NEXT: [[TMP0:%.]] = load double, double** [[__RE_ADDR]], align 8
	// CHECK3-NEXT: [[TMP1:%.]] = load double, double** [[__IM_ADDR]], align 8			// CHECK3-NEXT: [[TMP1:%.]] = load double, double** [[__IM_ADDR]], align 8
	// CHECK3-NEXT: call void @_ZNSt7complexIdEC2ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[THIS1]], double* nonnull align 8 dereferenceable(8) [[TMP0]], double* nonnull align 8 dereferenceable(8) [[TMP1]]) #[[ATTR11]]			// CHECK3-NEXT: call void @_ZNSt7complexIdEC2ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[THIS1]], double* nonnull align 8 dereferenceable(8) [[TMP0]], double* nonnull align 8 dereferenceable(8) [[TMP1]]) #[[ATTR10]]
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__3			// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__3
	// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[ISTART:%.]], i32 nonnull align 4 dereferenceable(4) [[IEND:%.]], %"class.std::complex.0" nonnull align 8 dereferenceable(16) [[PARTIAL_SUM:%.*]]) #[[ATTR0]] {			// CHECK3-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], i32 nonnull align 4 dereferenceable(4) [[ISTART:%.]], i32 nonnull align 4 dereferenceable(4) [[IEND:%.]], %"class.std::complex.0" nonnull align 8 dereferenceable(16) [[PARTIAL_SUM:%.*]]) #[[ATTR0]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: [[TMP21:%.]] = bitcast %"class.std::complex.0" [[PARTIAL_SUM5]] to i8*			// CHECK3-NEXT: [[TMP21:%.]] = bitcast %"class.std::complex.0" [[PARTIAL_SUM5]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 16, i8* [[TMP21]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 16, i8* [[TMP21]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP22:%.]] = bitcast double [[REF_TMP]] to i8*			// CHECK3-NEXT: [[TMP22:%.]] = bitcast double [[REF_TMP]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP22]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP22]]) #[[ATTR5]]
	// CHECK3-NEXT: store double 0.000000e+00, double* [[REF_TMP]], align 8, !tbaa [[TBAA22]]			// CHECK3-NEXT: store double 0.000000e+00, double* [[REF_TMP]], align 8, !tbaa [[TBAA22]]
	// CHECK3-NEXT: [[TMP23:%.]] = bitcast double [[REF_TMP6]] to i8*			// CHECK3-NEXT: [[TMP23:%.]] = bitcast double [[REF_TMP6]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP23]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP23]]) #[[ATTR5]]
	// CHECK3-NEXT: store double 0.000000e+00, double* [[REF_TMP6]], align 8, !tbaa [[TBAA22]]			// CHECK3-NEXT: store double 0.000000e+00, double* [[REF_TMP6]], align 8, !tbaa [[TBAA22]]
	// CHECK3-NEXT: call void @_ZNSt7complexIdEC1ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM5]], double* nonnull align 8 dereferenceable(8) [[REF_TMP]], double* nonnull align 8 dereferenceable(8) [[REF_TMP6]]) #[[ATTR11]]			// CHECK3-NEXT: call void @_ZNSt7complexIdEC1ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM5]], double* nonnull align 8 dereferenceable(8) [[REF_TMP]], double* nonnull align 8 dereferenceable(8) [[REF_TMP6]]) #[[ATTR10]]
	// CHECK3-NEXT: [[TMP24:%.]] = bitcast double [[REF_TMP6]] to i8*			// CHECK3-NEXT: [[TMP24:%.]] = bitcast double [[REF_TMP6]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP24]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP24]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP25:%.]] = bitcast double [[REF_TMP]] to i8*			// CHECK3-NEXT: [[TMP25:%.]] = bitcast double [[REF_TMP]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP25]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP25]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP26:%.]] = bitcast i32 [[I7]] to i8*			// CHECK3-NEXT: [[TMP26:%.]] = bitcast i32 [[I7]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP26]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 4, i8* [[TMP26]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP27:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8			// CHECK3-NEXT: [[TMP27:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
	// CHECK3-NEXT: [[TMP28:%.]] = load i32, i32 [[TMP27]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP28:%.]] = load i32, i32 [[TMP27]], align 4, !tbaa [[TBAA8]]
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: [[TMP42:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP42:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP42]] to double			// CHECK3-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP42]] to double
	// CHECK3-NEXT: store double [[CONV]], double* [[REF_TMP15]], align 8, !tbaa [[TBAA22]]			// CHECK3-NEXT: store double [[CONV]], double* [[REF_TMP15]], align 8, !tbaa [[TBAA22]]
	// CHECK3-NEXT: [[TMP43:%.]] = bitcast double [[REF_TMP16]] to i8*			// CHECK3-NEXT: [[TMP43:%.]] = bitcast double [[REF_TMP16]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP43]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.start.p0i8(i64 8, i8* [[TMP43]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP44:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP44:%.]] = load i32, i32 [[I7]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[CONV17:%.*]] = sitofp i32 [[TMP44]] to double			// CHECK3-NEXT: [[CONV17:%.*]] = sitofp i32 [[TMP44]] to double
	// CHECK3-NEXT: store double [[CONV17]], double* [[REF_TMP16]], align 8, !tbaa [[TBAA22]]			// CHECK3-NEXT: store double [[CONV17]], double* [[REF_TMP16]], align 8, !tbaa [[TBAA22]]
	// CHECK3-NEXT: call void @_ZNSt7complexIdEC1ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[REF_TMP14]], double* nonnull align 8 dereferenceable(8) [[REF_TMP15]], double* nonnull align 8 dereferenceable(8) [[REF_TMP16]]) #[[ATTR11]]			// CHECK3-NEXT: call void @_ZNSt7complexIdEC1ERKdS2_(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[REF_TMP14]], double* nonnull align 8 dereferenceable(8) [[REF_TMP15]], double* nonnull align 8 dereferenceable(8) [[REF_TMP16]]) #[[ATTR10]]
	// CHECK3-NEXT: [[CALL:%.]] = call nonnull align 8 dereferenceable(16) %"class.std::complex.0" @_ZNSt7complexIdEpLIdEERS0_RKS_IT_E(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM5]], %"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[REF_TMP14]]) #[[ATTR11]]			// CHECK3-NEXT: [[CALL:%.]] = call nonnull align 8 dereferenceable(16) %"class.std::complex.0" @_ZNSt7complexIdEpLIdEERS0_RKS_IT_E(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM5]], %"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[REF_TMP14]]) #[[ATTR10]]
	// CHECK3-NEXT: [[TMP45:%.]] = bitcast double [[REF_TMP16]] to i8*			// CHECK3-NEXT: [[TMP45:%.]] = bitcast double [[REF_TMP16]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP45]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP45]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP46:%.]] = bitcast double [[REF_TMP15]] to i8*			// CHECK3-NEXT: [[TMP46:%.]] = bitcast double [[REF_TMP15]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP46]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 8, i8* [[TMP46]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP47:%.]] = bitcast %"class.std::complex.0" [[REF_TMP14]] to i8*			// CHECK3-NEXT: [[TMP47:%.]] = bitcast %"class.std::complex.0" [[REF_TMP14]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 16, i8* [[TMP47]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 16, i8* [[TMP47]]) #[[ATTR5]]
	// CHECK3-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]			// CHECK3-NEXT: br label [[OMP_BODY_CONTINUE:%.*]]
	// CHECK3: omp.body.continue:			// CHECK3: omp.body.continue:
	Show All 24 Lines
	// CHECK3-NEXT: [[TMP57:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 0			// CHECK3-NEXT: [[TMP57:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 0
	// CHECK3-NEXT: [[TMP58:%.]] = bitcast %"class.std::complex.0" [[PARTIAL_SUM5]] to i8*			// CHECK3-NEXT: [[TMP58:%.]] = bitcast %"class.std::complex.0" [[PARTIAL_SUM5]] to i8*
	// CHECK3-NEXT: store i8* [[TMP58]], i8** [[TMP57]], align 8			// CHECK3-NEXT: store i8* [[TMP58]], i8** [[TMP57]], align 8
	// CHECK3-NEXT: [[TMP59:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*			// CHECK3-NEXT: [[TMP59:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_RED_LIST]] to i8*
	// CHECK3-NEXT: [[TMP60:%.]] = call i32 @__kmpc_nvptx_parallel_reduce_nowait_v2(%struct.ident_t @[[GLOB1]], i32 [[TMP56]], i32 1, i64 8, i8* [[TMP59]], void (i8, i16, i16, i16) @_omp_reduction_shuffle_and_reduce_func5, void (i8, i32) @_omp_reduction_inter_warp_copy_func6)			// CHECK3-NEXT: [[TMP60:%.]] = call i32 @__kmpc_nvptx_parallel_reduce_nowait_v2(%struct.ident_t @[[GLOB1]], i32 [[TMP56]], i32 1, i64 8, i8* [[TMP59]], void (i8, i16, i16, i16) @_omp_reduction_shuffle_and_reduce_func5, void (i8, i32) @_omp_reduction_inter_warp_copy_func6)
	// CHECK3-NEXT: [[TMP61:%.*]] = icmp eq i32 [[TMP60]], 1			// CHECK3-NEXT: [[TMP61:%.*]] = icmp eq i32 [[TMP60]], 1
	// CHECK3-NEXT: br i1 [[TMP61]], label [[DOTOMP_REDUCTION_THEN:%.]], label [[DOTOMP_REDUCTION_DONE:%.]]			// CHECK3-NEXT: br i1 [[TMP61]], label [[DOTOMP_REDUCTION_THEN:%.]], label [[DOTOMP_REDUCTION_DONE:%.]]
	// CHECK3: .omp.reduction.then:			// CHECK3: .omp.reduction.then:
	// CHECK3-NEXT: [[CALL21:%.]] = call nonnull align 8 dereferenceable(16) %"class.std::complex.0" @_ZNSt7complexIdEpLIdEERS0_RKS_IT_E(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[TMP2]], %"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM5]]) #[[ATTR11]]			// CHECK3-NEXT: [[CALL21:%.]] = call nonnull align 8 dereferenceable(16) %"class.std::complex.0" @_ZNSt7complexIdEpLIdEERS0_RKS_IT_E(%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[TMP2]], %"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[PARTIAL_SUM5]]) #[[ATTR10]]
	// CHECK3-NEXT: call void @__kmpc_nvptx_end_reduce_nowait(i32 [[TMP56]])			// CHECK3-NEXT: call void @__kmpc_nvptx_end_reduce_nowait(i32 [[TMP56]])
	// CHECK3-NEXT: br label [[DOTOMP_REDUCTION_DONE]]			// CHECK3-NEXT: br label [[DOTOMP_REDUCTION_DONE]]
	// CHECK3: .omp.reduction.done:			// CHECK3: .omp.reduction.done:
	// CHECK3-NEXT: [[TMP62:%.]] = bitcast i32 [[I7]] to i8*			// CHECK3-NEXT: [[TMP62:%.]] = bitcast i32 [[I7]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP62]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 4, i8* [[TMP62]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP63:%.]] = bitcast %"class.std::complex.0" [[PARTIAL_SUM5]] to i8*			// CHECK3-NEXT: [[TMP63:%.]] = bitcast %"class.std::complex.0" [[PARTIAL_SUM5]] to i8*
	// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 16, i8* [[TMP63]]) #[[ATTR5]]			// CHECK3-NEXT: call void @llvm.lifetime.end.p0i8(i64 16, i8* [[TMP63]]) #[[ATTR5]]
	// CHECK3-NEXT: [[TMP64:%.]] = bitcast i32 [[DOTOMP_IS_LAST]] to i8*			// CHECK3-NEXT: [[TMP64:%.]] = bitcast i32 [[DOTOMP_IS_LAST]] to i8*
	Show All 21 Lines
	// CHECK3-SAME: (%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[THIS:%.]], %"class.std::complex.0" nonnull align 8 dereferenceable(16) [[__C:%.*]]) #[[ATTR4]] comdat align 2 {			// CHECK3-SAME: (%"class.std::complex.0"* nonnull align 8 dereferenceable(16) [[THIS:%.]], %"class.std::complex.0" nonnull align 8 dereferenceable(16) [[__C:%.*]]) #[[ATTR4]] comdat align 2 {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[THIS_ADDR:%.]] = alloca %"class.std::complex.0", align 8			// CHECK3-NEXT: [[THIS_ADDR:%.]] = alloca %"class.std::complex.0", align 8
	// CHECK3-NEXT: [[__C_ADDR:%.]] = alloca %"class.std::complex.0", align 8			// CHECK3-NEXT: [[__C_ADDR:%.]] = alloca %"class.std::complex.0", align 8
	// CHECK3-NEXT: store %"class.std::complex.0"* [[THIS]], %"class.std::complex.0"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: store %"class.std::complex.0"* [[THIS]], %"class.std::complex.0"** [[THIS_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: store %"class.std::complex.0"* [[__C]], %"class.std::complex.0"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: store %"class.std::complex.0"* [[__C]], %"class.std::complex.0"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: [[THIS1:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[THIS_ADDR]], align 8			// CHECK3-NEXT: [[THIS1:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[THIS_ADDR]], align 8
	// CHECK3-NEXT: [[TMP0:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: [[TMP0:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: [[CALL:%.]] = call double @_ZNKSt7complexIdE4realEv(%"class.std::complex.0" nonnull align 8 dereferenceable(16) [[TMP0]]) #[[ATTR11]]			// CHECK3-NEXT: [[CALL:%.]] = call double @_ZNKSt7complexIdE4realEv(%"class.std::complex.0" nonnull align 8 dereferenceable(16) [[TMP0]]) #[[ATTR10]]
	// CHECK3-NEXT: [[__RE_:%.]] = getelementptr inbounds %"class.std::complex.0", %"class.std::complex.0" [[THIS1]], i32 0, i32 0			// CHECK3-NEXT: [[__RE_:%.]] = getelementptr inbounds %"class.std::complex.0", %"class.std::complex.0" [[THIS1]], i32 0, i32 0
	// CHECK3-NEXT: [[TMP1:%.]] = load double, double [[__RE_]], align 8, !tbaa [[TBAA24:![0-9]+]]			// CHECK3-NEXT: [[TMP1:%.]] = load double, double [[__RE_]], align 8, !tbaa [[TBAA24:![0-9]+]]
	// CHECK3-NEXT: [[ADD:%.*]] = fadd double [[TMP1]], [[CALL]]			// CHECK3-NEXT: [[ADD:%.*]] = fadd double [[TMP1]], [[CALL]]
	// CHECK3-NEXT: store double [[ADD]], double* [[__RE_]], align 8, !tbaa [[TBAA24]]			// CHECK3-NEXT: store double [[ADD]], double* [[__RE_]], align 8, !tbaa [[TBAA24]]
	// CHECK3-NEXT: [[TMP2:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: [[TMP2:%.]] = load %"class.std::complex.0", %"class.std::complex.0"** [[__C_ADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: [[CALL2:%.]] = call double @_ZNKSt7complexIdE4imagEv(%"class.std::complex.0" nonnull align 8 dereferenceable(16) [[TMP2]]) #[[ATTR11]]			// CHECK3-NEXT: [[CALL2:%.]] = call double @_ZNKSt7complexIdE4imagEv(%"class.std::complex.0" nonnull align 8 dereferenceable(16) [[TMP2]]) #[[ATTR10]]
	// CHECK3-NEXT: [[__IM_:%.]] = getelementptr inbounds %"class.std::complex.0", %"class.std::complex.0" [[THIS1]], i32 0, i32 1			// CHECK3-NEXT: [[__IM_:%.]] = getelementptr inbounds %"class.std::complex.0", %"class.std::complex.0" [[THIS1]], i32 0, i32 1
	// CHECK3-NEXT: [[TMP3:%.]] = load double, double [[__IM_]], align 8, !tbaa [[TBAA26:![0-9]+]]			// CHECK3-NEXT: [[TMP3:%.]] = load double, double [[__IM_]], align 8, !tbaa [[TBAA26:![0-9]+]]
	// CHECK3-NEXT: [[ADD3:%.*]] = fadd double [[TMP3]], [[CALL2]]			// CHECK3-NEXT: [[ADD3:%.*]] = fadd double [[TMP3]], [[CALL2]]
	// CHECK3-NEXT: store double [[ADD3]], double* [[__IM_]], align 8, !tbaa [[TBAA26]]			// CHECK3-NEXT: store double [[ADD3]], double* [[__IM_]], align 8, !tbaa [[TBAA26]]
	// CHECK3-NEXT: ret %"class.std::complex.0"* [[THIS1]]			// CHECK3-NEXT: ret %"class.std::complex.0"* [[THIS1]]
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_shuffle_and_reduce_func5			// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_shuffle_and_reduce_func5
	Show All 19 Lines
	// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK3-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to %"class.std::complex.0"*			// CHECK3-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP10]] to %"class.std::complex.0"*
	// CHECK3-NEXT: [[TMP13:%.]] = getelementptr %"class.std::complex.0", %"class.std::complex.0" [[TMP12]], i64 1			// CHECK3-NEXT: [[TMP13:%.]] = getelementptr %"class.std::complex.0", %"class.std::complex.0" [[TMP12]], i64 1
	// CHECK3-NEXT: [[TMP14:%.]] = bitcast %"class.std::complex.0" [[TMP13]] to i8*			// CHECK3-NEXT: [[TMP14:%.]] = bitcast %"class.std::complex.0" [[TMP13]] to i8*
	// CHECK3-NEXT: [[TMP15:%.]] = bitcast %"class.std::complex.0" [[TMP12]] to i64*			// CHECK3-NEXT: [[TMP15:%.]] = bitcast %"class.std::complex.0" [[TMP12]] to i64*
	// CHECK3-NEXT: [[TMP16:%.]] = bitcast %"class.std::complex.0" [[DOTOMP_REDUCTION_ELEMENT]] to i64*			// CHECK3-NEXT: [[TMP16:%.]] = bitcast %"class.std::complex.0" [[DOTOMP_REDUCTION_ELEMENT]] to i64*
	// CHECK3-NEXT: br label [[DOTSHUFFLE_PRE_COND:%.*]]			// CHECK3-NEXT: br label [[DOTSHUFFLE_PRE_COND:%.*]]
	// CHECK3: .shuffle.pre_cond:			// CHECK3: .shuffle.pre_cond:
	// CHECK3-NEXT: [[TMP17:%.]] = phi i64 [ [[TMP15]], [[ENTRY:%.]] ], [ [[TMP28:%.]], [[DOTSHUFFLE_THEN:%.*]] ]			// CHECK3-NEXT: [[TMP17:%.]] = phi i64 [ [[TMP15]], [[ENTRY:%.]] ], [ [[TMP29:%.]], [[DOTSHUFFLE_THEN:%.*]] ]
	// CHECK3-NEXT: [[TMP18:%.]] = phi i64 [ [[TMP16]], [[ENTRY]] ], [ [[TMP29:%.*]], [[DOTSHUFFLE_THEN]] ]			// CHECK3-NEXT: [[TMP18:%.]] = phi i64 [ [[TMP16]], [[ENTRY]] ], [ [[TMP30:%.*]], [[DOTSHUFFLE_THEN]] ]
	// CHECK3-NEXT: [[TMP19:%.]] = bitcast i64 [[TMP17]] to i8*			// CHECK3-NEXT: [[TMP19:%.]] = bitcast i64 [[TMP17]] to i8*
	// CHECK3-NEXT: [[TMP20:%.]] = ptrtoint i8 [[TMP14]] to i64			// CHECK3-NEXT: [[TMP20:%.]] = ptrtoint i8 [[TMP14]] to i64
	// CHECK3-NEXT: [[TMP21:%.]] = ptrtoint i8 [[TMP19]] to i64			// CHECK3-NEXT: [[TMP21:%.]] = ptrtoint i8 [[TMP19]] to i64
	// CHECK3-NEXT: [[TMP22:%.*]] = sub i64 [[TMP20]], [[TMP21]]			// CHECK3-NEXT: [[TMP22:%.*]] = sub i64 [[TMP20]], [[TMP21]]
	// CHECK3-NEXT: [[TMP23:%.]] = sdiv exact i64 [[TMP22]], ptrtoint (i8 getelementptr (i8, i8* null, i32 1) to i64)			// CHECK3-NEXT: [[TMP23:%.]] = sdiv exact i64 [[TMP22]], ptrtoint (i8 getelementptr (i8, i8* null, i32 1) to i64)
	// CHECK3-NEXT: [[TMP24:%.*]] = icmp sgt i64 [[TMP23]], 7			// CHECK3-NEXT: [[TMP24:%.*]] = icmp sgt i64 [[TMP23]], 7
	// CHECK3-NEXT: br i1 [[TMP24]], label [[DOTSHUFFLE_THEN]], label [[DOTSHUFFLE_EXIT:%.*]]			// CHECK3-NEXT: br i1 [[TMP24]], label [[DOTSHUFFLE_THEN]], label [[DOTSHUFFLE_EXIT:%.*]]
	// CHECK3: .shuffle.then:			// CHECK3: .shuffle.then:
	// CHECK3-NEXT: [[TMP25:%.]] = load i64, i64 [[TMP17]], align 8			// CHECK3-NEXT: [[TMP25:%.]] = load i64, i64 [[TMP17]], align 8
	// CHECK3-NEXT: [[NVPTX_WARP_SIZE:%.*]] = call i32 @__kmpc_get_warp_size()			// CHECK3-NEXT: [[TMP26:%.*]] = call i32 @__kmpc_get_warp_size()
	// CHECK3-NEXT: [[TMP26:%.*]] = trunc i32 [[NVPTX_WARP_SIZE]] to i16			// CHECK3-NEXT: [[TMP27:%.*]] = trunc i32 [[TMP26]] to i16
	// CHECK3-NEXT: [[TMP27:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP25]], i16 [[TMP7]], i16 [[TMP26]])			// CHECK3-NEXT: [[TMP28:%.*]] = call i64 @__kmpc_shuffle_int64(i64 [[TMP25]], i16 [[TMP7]], i16 [[TMP27]])
	// CHECK3-NEXT: store i64 [[TMP27]], i64* [[TMP18]], align 8			// CHECK3-NEXT: store i64 [[TMP28]], i64* [[TMP18]], align 8
	// CHECK3-NEXT: [[TMP28]] = getelementptr i64, i64* [[TMP17]], i64 1			// CHECK3-NEXT: [[TMP29]] = getelementptr i64, i64* [[TMP17]], i64 1
	// CHECK3-NEXT: [[TMP29]] = getelementptr i64, i64* [[TMP18]], i64 1			// CHECK3-NEXT: [[TMP30]] = getelementptr i64, i64* [[TMP18]], i64 1
	// CHECK3-NEXT: br label [[DOTSHUFFLE_PRE_COND]]			// CHECK3-NEXT: br label [[DOTSHUFFLE_PRE_COND]]
	// CHECK3: .shuffle.exit:			// CHECK3: .shuffle.exit:
	// CHECK3-NEXT: [[TMP30:%.]] = bitcast %"class.std::complex.0" [[DOTOMP_REDUCTION_ELEMENT]] to i8*			// CHECK3-NEXT: [[TMP31:%.]] = bitcast %"class.std::complex.0" [[DOTOMP_REDUCTION_ELEMENT]] to i8*
	// CHECK3-NEXT: store i8* [[TMP30]], i8** [[TMP11]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: store i8* [[TMP31]], i8** [[TMP11]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: [[TMP31:%.*]] = icmp eq i16 [[TMP8]], 0			// CHECK3-NEXT: [[TMP32:%.*]] = icmp eq i16 [[TMP8]], 0
	// CHECK3-NEXT: [[TMP32:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK3-NEXT: [[TMP33:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK3-NEXT: [[TMP33:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]			// CHECK3-NEXT: [[TMP34:%.*]] = icmp ult i16 [[TMP6]], [[TMP7]]
	// CHECK3-NEXT: [[TMP34:%.*]] = and i1 [[TMP32]], [[TMP33]]			// CHECK3-NEXT: [[TMP35:%.*]] = and i1 [[TMP33]], [[TMP34]]
	// CHECK3-NEXT: [[TMP35:%.*]] = icmp eq i16 [[TMP8]], 2			// CHECK3-NEXT: [[TMP36:%.*]] = icmp eq i16 [[TMP8]], 2
	// CHECK3-NEXT: [[TMP36:%.*]] = and i16 [[TMP6]], 1			// CHECK3-NEXT: [[TMP37:%.*]] = and i16 [[TMP6]], 1
	// CHECK3-NEXT: [[TMP37:%.*]] = icmp eq i16 [[TMP36]], 0			// CHECK3-NEXT: [[TMP38:%.*]] = icmp eq i16 [[TMP37]], 0
	// CHECK3-NEXT: [[TMP38:%.*]] = and i1 [[TMP35]], [[TMP37]]			// CHECK3-NEXT: [[TMP39:%.*]] = and i1 [[TMP36]], [[TMP38]]
	// CHECK3-NEXT: [[TMP39:%.*]] = icmp sgt i16 [[TMP7]], 0			// CHECK3-NEXT: [[TMP40:%.*]] = icmp sgt i16 [[TMP7]], 0
	// CHECK3-NEXT: [[TMP40:%.*]] = and i1 [[TMP38]], [[TMP39]]			// CHECK3-NEXT: [[TMP41:%.*]] = and i1 [[TMP39]], [[TMP40]]
	// CHECK3-NEXT: [[TMP41:%.*]] = or i1 [[TMP31]], [[TMP34]]			// CHECK3-NEXT: [[TMP42:%.*]] = or i1 [[TMP32]], [[TMP35]]
	// CHECK3-NEXT: [[TMP42:%.*]] = or i1 [[TMP41]], [[TMP40]]			// CHECK3-NEXT: [[TMP43:%.*]] = or i1 [[TMP42]], [[TMP41]]
	// CHECK3-NEXT: br i1 [[TMP42]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK3-NEXT: br i1 [[TMP43]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK3: then:			// CHECK3: then:
	// CHECK3-NEXT: [[TMP43:%.]] = bitcast [1 x i8]* [[TMP5]] to i8*			// CHECK3-NEXT: [[TMP44:%.]] = bitcast [1 x i8]* [[TMP5]] to i8*
	// CHECK3-NEXT: [[TMP44:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*			// CHECK3-NEXT: [[TMP45:%.]] = bitcast [1 x i8]* [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]] to i8*
	// CHECK3-NEXT: call void @"_omp$reduction$reduction_func4"(i8* [[TMP43]], i8* [[TMP44]]) #[[ATTR5]]			// CHECK3-NEXT: call void @"_omp$reduction$reduction_func4"(i8* [[TMP44]], i8* [[TMP45]]) #[[ATTR5]]
	// CHECK3-NEXT: br label [[IFCONT:%.*]]			// CHECK3-NEXT: br label [[IFCONT:%.*]]
	// CHECK3: else:			// CHECK3: else:
	// CHECK3-NEXT: br label [[IFCONT]]			// CHECK3-NEXT: br label [[IFCONT]]
	// CHECK3: ifcont:			// CHECK3: ifcont:
	// CHECK3-NEXT: [[TMP45:%.*]] = icmp eq i16 [[TMP8]], 1			// CHECK3-NEXT: [[TMP46:%.*]] = icmp eq i16 [[TMP8]], 1
	// CHECK3-NEXT: [[TMP46:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]			// CHECK3-NEXT: [[TMP47:%.*]] = icmp uge i16 [[TMP6]], [[TMP7]]
	// CHECK3-NEXT: [[TMP47:%.*]] = and i1 [[TMP45]], [[TMP46]]			// CHECK3-NEXT: [[TMP48:%.*]] = and i1 [[TMP46]], [[TMP47]]
	// CHECK3-NEXT: br i1 [[TMP47]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK3-NEXT: br i1 [[TMP48]], label [[THEN4:%.]], label [[ELSE5:%.]]
	// CHECK3: then4:			// CHECK3: then4:
	// CHECK3-NEXT: [[TMP48:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0			// CHECK3-NEXT: [[TMP49:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_REMOTE_REDUCE_LIST]], i64 0, i64 0
	// CHECK3-NEXT: [[TMP49:%.]] = load i8, i8** [[TMP48]], align 8			// CHECK3-NEXT: [[TMP50:%.]] = load i8, i8** [[TMP49]], align 8
	// CHECK3-NEXT: [[TMP50:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP5]], i64 0, i64 0			// CHECK3-NEXT: [[TMP51:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP5]], i64 0, i64 0
	// CHECK3-NEXT: [[TMP51:%.]] = load i8, i8** [[TMP50]], align 8			// CHECK3-NEXT: [[TMP52:%.]] = load i8, i8** [[TMP51]], align 8
	// CHECK3-NEXT: [[TMP52:%.]] = bitcast i8 [[TMP49]] to %"class.std::complex.0"*			// CHECK3-NEXT: [[TMP53:%.]] = bitcast i8 [[TMP50]] to %"class.std::complex.0"*
	// CHECK3-NEXT: [[TMP53:%.]] = bitcast i8 [[TMP51]] to %"class.std::complex.0"*			// CHECK3-NEXT: [[TMP54:%.]] = bitcast i8 [[TMP52]] to %"class.std::complex.0"*
	// CHECK3-NEXT: [[TMP54:%.]] = bitcast %"class.std::complex.0" [[TMP53]] to i8*			// CHECK3-NEXT: [[TMP55:%.]] = bitcast %"class.std::complex.0" [[TMP54]] to i8*
	// CHECK3-NEXT: [[TMP55:%.]] = bitcast %"class.std::complex.0" [[TMP52]] to i8*			// CHECK3-NEXT: [[TMP56:%.]] = bitcast %"class.std::complex.0" [[TMP53]] to i8*
	// CHECK3-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP54]], i8* align 8 [[TMP55]], i64 16, i1 false), !tbaa.struct !27			// CHECK3-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 8 [[TMP55]], i8* align 8 [[TMP56]], i64 16, i1 false), !tbaa.struct !27
	// CHECK3-NEXT: br label [[IFCONT6:%.*]]			// CHECK3-NEXT: br label [[IFCONT6:%.*]]
	// CHECK3: else5:			// CHECK3: else5:
	// CHECK3-NEXT: br label [[IFCONT6]]			// CHECK3-NEXT: br label [[IFCONT6]]
	// CHECK3: ifcont6:			// CHECK3: ifcont6:
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func6			// CHECK3-LABEL: define {{[^@]+}}@_omp_reduction_inter_warp_copy_func6
	// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {			// CHECK3-SAME: (i8* [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 8			// CHECK3-NEXT: [[DOTADDR:%.]] = alloca i8, align 8
	// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTADDR1:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTCNT_ADDR:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK3-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: store i8* [[TMP0]], i8** [[DOTADDR]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[NVPTX_TID:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()			// CHECK3-NEXT: [[TMP3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_TID2:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()			// CHECK3-NEXT: [[TMP4:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[NVPTX_TID2]], 31			// CHECK3-NEXT: [[NVPTX_LANE_ID:%.*]] = and i32 [[TMP4]], 31
	// CHECK3-NEXT: [[NVPTX_TID3:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()			// CHECK3-NEXT: [[TMP5:%.*]] = call i32 @__kmpc_get_hardware_thread_id_in_block()
	// CHECK3-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[NVPTX_TID3]], 5			// CHECK3-NEXT: [[NVPTX_WARP_ID:%.*]] = ashr i32 [[TMP5]], 5
	// CHECK3-NEXT: [[TMP3:%.]] = load i8, i8** [[DOTADDR]], align 8			// CHECK3-NEXT: [[TMP6:%.]] = load i8, i8** [[DOTADDR]], align 8
	// CHECK3-NEXT: [[TMP4:%.]] = bitcast i8 [[TMP3]] to [1 x i8]			// CHECK3-NEXT: [[TMP7:%.]] = bitcast i8 [[TMP6]] to [1 x i8]
	// CHECK3-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 0, i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: br label [[PRECOND:%.*]]			// CHECK3-NEXT: br label [[PRECOND:%.*]]
	// CHECK3: precond:			// CHECK3: precond:
	// CHECK3-NEXT: [[TMP5:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP8:%.]] = load i32, i32 [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[TMP6:%.*]] = icmp ult i32 [[TMP5]], 4			// CHECK3-NEXT: [[TMP9:%.*]] = icmp ult i32 [[TMP8]], 4
	// CHECK3-NEXT: br i1 [[TMP6]], label [[BODY:%.]], label [[EXIT:%.]]			// CHECK3-NEXT: br i1 [[TMP9]], label [[BODY:%.]], label [[EXIT:%.]]
	// CHECK3: body:			// CHECK3: body:
	// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK3-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0			// CHECK3-NEXT: [[WARP_MASTER:%.*]] = icmp eq i32 [[NVPTX_LANE_ID]], 0
	// CHECK3-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]			// CHECK3-NEXT: br i1 [[WARP_MASTER]], label [[THEN:%.]], label [[ELSE:%.]]
	// CHECK3: then:			// CHECK3: then:
	// CHECK3-NEXT: [[TMP7:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0			// CHECK3-NEXT: [[TMP10:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP7]], i64 0, i64 0
	// CHECK3-NEXT: [[TMP8:%.]] = load i8, i8** [[TMP7]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: [[TMP11:%.]] = load i8, i8** [[TMP10]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: [[TMP9:%.]] = bitcast i8 [[TMP8]] to i32*			// CHECK3-NEXT: [[TMP12:%.]] = bitcast i8 [[TMP11]] to i32*
	// CHECK3-NEXT: [[TMP10:%.]] = getelementptr i32, i32 [[TMP9]], i32 [[TMP5]]			// CHECK3-NEXT: [[TMP13:%.]] = getelementptr i32, i32 [[TMP12]], i32 [[TMP8]]
	// CHECK3-NEXT: [[TMP11:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]			// CHECK3-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_WARP_ID]]
	// CHECK3-NEXT: [[TMP12:%.]] = load i32, i32 [[TMP10]], align 4			// CHECK3-NEXT: [[TMP15:%.]] = load i32, i32 [[TMP13]], align 4
	// CHECK3-NEXT: store volatile i32 [[TMP12]], i32 addrspace(3)* [[TMP11]], align 4			// CHECK3-NEXT: store volatile i32 [[TMP15]], i32 addrspace(3)* [[TMP14]], align 4
	// CHECK3-NEXT: br label [[IFCONT:%.*]]			// CHECK3-NEXT: br label [[IFCONT:%.*]]
	// CHECK3: else:			// CHECK3: else:
	// CHECK3-NEXT: br label [[IFCONT]]			// CHECK3-NEXT: br label [[IFCONT]]
	// CHECK3: ifcont:			// CHECK3: ifcont:
	// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])			// CHECK3-NEXT: call void @__kmpc_barrier(%struct.ident_t* @[[GLOB4]], i32 [[TMP2]])
	// CHECK3-NEXT: [[TMP13:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP16:%.]] = load i32, i32 [[DOTADDR1]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[NVPTX_TID]], [[TMP13]]			// CHECK3-NEXT: [[IS_ACTIVE_THREAD:%.*]] = icmp ult i32 [[TMP3]], [[TMP16]]
	// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN4:%.]], label [[ELSE5:%.]]			// CHECK3-NEXT: br i1 [[IS_ACTIVE_THREAD]], label [[THEN2:%.]], label [[ELSE3:%.]]
	// CHECK3: then2:			// CHECK3: then2:
	// CHECK3-NEXT: [[TMP14:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[NVPTX_TID]]			// CHECK3-NEXT: [[TMP17:%.]] = getelementptr inbounds [32 x i32], [32 x i32] addrspace(3) @__openmp_nvptx_data_transfer_temporary_storage, i64 0, i32 [[TMP3]]
	// CHECK3-NEXT: [[TMP15:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP4]], i64 0, i64 0			// CHECK3-NEXT: [[TMP18:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[TMP7]], i64 0, i64 0
	// CHECK3-NEXT: [[TMP16:%.]] = load i8, i8** [[TMP15]], align 8, !tbaa [[TBAA12]]			// CHECK3-NEXT: [[TMP19:%.]] = load i8, i8** [[TMP18]], align 8, !tbaa [[TBAA12]]
	// CHECK3-NEXT: [[TMP17:%.]] = bitcast i8 [[TMP16]] to i32*			// CHECK3-NEXT: [[TMP20:%.]] = bitcast i8 [[TMP19]] to i32*
	// CHECK3-NEXT: [[TMP18:%.]] = getelementptr i32, i32 [[TMP17]], i32 [[TMP5]]			// CHECK3-NEXT: [[TMP21:%.]] = getelementptr i32, i32 [[TMP20]], i32 [[TMP8]]
	// CHECK3-NEXT: [[TMP19:%.]] = load volatile i32, i32 addrspace(3) [[TMP14]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: [[TMP22:%.]] = load volatile i32, i32 addrspace(3) [[TMP17]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: store i32 [[TMP19]], i32* [[TMP18]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 [[TMP22]], i32* [[TMP21]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: br label [[IFCONT6:%.*]]			// CHECK3-NEXT: br label [[IFCONT4:%.*]]
	// CHECK3: else3:			// CHECK3: else3:
	// CHECK3-NEXT: br label [[IFCONT6]]			// CHECK3-NEXT: br label [[IFCONT4]]
	// CHECK3: ifcont4:			// CHECK3: ifcont4:
	// CHECK3-NEXT: [[TMP20:%.*]] = add nsw i32 [[TMP5]], 1			// CHECK3-NEXT: [[TMP23:%.*]] = add nsw i32 [[TMP8]], 1
	// CHECK3-NEXT: store i32 [[TMP20]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]			// CHECK3-NEXT: store i32 [[TMP23]], i32* [[DOTCNT_ADDR]], align 4, !tbaa [[TBAA8]]
	// CHECK3-NEXT: br label [[PRECOND]]			// CHECK3-NEXT: br label [[PRECOND]]
	// CHECK3: exit:			// CHECK3: exit:
	// CHECK3-NEXT: ret void			// CHECK3-NEXT: ret void
	//			//
	//			//
	// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper			// CHECK3-LABEL: define {{[^@]+}}@__omp_outlined__3_wrapper
	// CHECK3-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {			// CHECK3-SAME: (i16 zeroext [[TMP0:%.]], i32 [[TMP1:%.]]) #[[ATTR6]] {
	// CHECK3-NEXT: entry:			// CHECK3-NEXT: entry:
	▲ Show 20 Lines • Show All 107 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_target_teams_distribute_codegen.cpp

	Show First 20 Lines • Show All 601 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: [[TMP:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[TMP:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8			// CHECK1-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 8
	// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8			// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
	// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8			// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
	// CHECK1-NEXT: [[I:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK1-NEXT: [[I:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK1-NEXT: [[I_ON_STACK:%.]] = bitcast i8 [[I]] to i32*			// CHECK1-NEXT: [[I_ON_STACK:%.]] = bitcast i8 [[I]] to i32*
	// CHECK1-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4			// CHECK1-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4
	// CHECK1-NEXT: store i32 9, i32* [[DOTOMP_UB]], align 4			// CHECK1-NEXT: store i32 9, i32* [[DOTOMP_UB]], align 4
	// CHECK1-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4			// CHECK1-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
	// CHECK1-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4			// CHECK1-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
	// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8			// CHECK1-NEXT: [[TMP0:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
	// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32 [[TMP0]], align 4			// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32 [[TMP0]], align 4
	// CHECK1-NEXT: call void @__kmpc_distribute_static_init_4(%struct.ident_t* @[[GLOB2:[0-9]+]], i32 [[TMP1]], i32 92, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 1)			// CHECK1-NEXT: call void @__kmpc_distribute_static_init_4(%struct.ident_t* @[[GLOB2:[0-9]+]], i32 [[TMP1]], i32 92, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 1)
	▲ Show 20 Lines • Show All 105 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: [[TMP:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[TMP:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4			// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
	// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4			// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
	// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4			// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
	// CHECK2-NEXT: [[I:%.]] = call i8 @__kmpc_alloc_shared(i32 4)			// CHECK2-NEXT: [[I:%.]] = call align 4 i8 @__kmpc_alloc_shared(i32 4)
	// CHECK2-NEXT: [[I_ON_STACK:%.]] = bitcast i8 [[I]] to i32*			// CHECK2-NEXT: [[I_ON_STACK:%.]] = bitcast i8 [[I]] to i32*
	// CHECK2-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4			// CHECK2-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4
	// CHECK2-NEXT: store i32 9, i32* [[DOTOMP_UB]], align 4			// CHECK2-NEXT: store i32 9, i32* [[DOTOMP_UB]], align 4
	// CHECK2-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4			// CHECK2-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
	// CHECK2-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4			// CHECK2-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
	// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4			// CHECK2-NEXT: [[TMP0:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
	// CHECK2-NEXT: [[TMP1:%.]] = load i32, i32 [[TMP0]], align 4			// CHECK2-NEXT: [[TMP1:%.]] = load i32, i32 [[TMP0]], align 4
	// CHECK2-NEXT: call void @__kmpc_distribute_static_init_4(%struct.ident_t* @[[GLOB2:[0-9]+]], i32 [[TMP1]], i32 92, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 1)			// CHECK2-NEXT: call void @__kmpc_distribute_static_init_4(%struct.ident_t* @[[GLOB2:[0-9]+]], i32 [[TMP1]], i32 92, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 1)
	▲ Show 20 Lines • Show All 105 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: [[TMP:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[TMP:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTOMP_LB:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTOMP_UB:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTOMP_STRIDE:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTOMP_IS_LAST:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4			// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [1 x i8], align 4
	// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4			// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
	// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4			// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
	// CHECK3-NEXT: [[I:%.]] = call i8 @__kmpc_alloc_shared(i32 4)			// CHECK3-NEXT: [[I:%.]] = call align 4 i8 @__kmpc_alloc_shared(i32 4)
	// CHECK3-NEXT: [[I_ON_STACK:%.]] = bitcast i8 [[I]] to i32*			// CHECK3-NEXT: [[I_ON_STACK:%.]] = bitcast i8 [[I]] to i32*
	// CHECK3-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4			// CHECK3-NEXT: store i32 0, i32* [[DOTOMP_LB]], align 4
	// CHECK3-NEXT: store i32 9, i32* [[DOTOMP_UB]], align 4			// CHECK3-NEXT: store i32 9, i32* [[DOTOMP_UB]], align 4
	// CHECK3-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4			// CHECK3-NEXT: store i32 1, i32* [[DOTOMP_STRIDE]], align 4
	// CHECK3-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4			// CHECK3-NEXT: store i32 0, i32* [[DOTOMP_IS_LAST]], align 4
	// CHECK3-NEXT: [[TMP0:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4			// CHECK3-NEXT: [[TMP0:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
	// CHECK3-NEXT: [[TMP1:%.]] = load i32, i32 [[TMP0]], align 4			// CHECK3-NEXT: [[TMP1:%.]] = load i32, i32 [[TMP0]], align 4
	// CHECK3-NEXT: call void @__kmpc_distribute_static_init_4(%struct.ident_t* @[[GLOB2:[0-9]+]], i32 [[TMP1]], i32 92, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 1)			// CHECK3-NEXT: call void @__kmpc_distribute_static_init_4(%struct.ident_t* @[[GLOB2:[0-9]+]], i32 [[TMP1]], i32 92, i32* [[DOTOMP_IS_LAST]], i32* [[DOTOMP_LB]], i32* [[DOTOMP_UB]], i32* [[DOTOMP_STRIDE]], i32 1, i32 1)
	▲ Show 20 Lines • Show All 79 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_target_teams_distribute_parallel_for_codegen.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 18,528 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8			// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
	// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8			// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
	// CHECK1-NEXT: store i64 [[N]], i64* [[N_ADDR]], align 8			// CHECK1-NEXT: store i64 [[N]], i64* [[N_ADDR]], align 8
	// CHECK1-NEXT: store [1000 x i32]* [[A]], [1000 x i32]** [[A_ADDR]], align 8			// CHECK1-NEXT: store [1000 x i32]* [[A]], [1000 x i32]** [[A_ADDR]], align 8
	// CHECK1-NEXT: store i64 [[L]], i64* [[L_ADDR]], align 8			// CHECK1-NEXT: store i64 [[L]], i64* [[L_ADDR]], align 8
	// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[N_ADDR]] to i32*			// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[N_ADDR]] to i32*
	// CHECK1-NEXT: [[TMP0:%.]] = load [1000 x i32], [1000 x i32]** [[A_ADDR]], align 8			// CHECK1-NEXT: [[TMP0:%.]] = load [1000 x i32], [1000 x i32]** [[A_ADDR]], align 8
	// CHECK1-NEXT: [[CONV1:%.]] = bitcast i64 [[L_ADDR]] to i32*			// CHECK1-NEXT: [[CONV1:%.]] = bitcast i64 [[L_ADDR]] to i32*
	// CHECK1-NEXT: [[L2:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK1-NEXT: [[L2:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK1-NEXT: [[L_ON_STACK:%.]] = bitcast i8 [[L2]] to i32*			// CHECK1-NEXT: [[L_ON_STACK:%.]] = bitcast i8 [[L2]] to i32*
	// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32 [[CONV]], align 8			// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32 [[CONV]], align 8
	// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_]], align 4			// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_]], align 4
	// CHECK1-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_]], align 4			// CHECK1-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_]], align 4
	// CHECK1-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0			// CHECK1-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0
	// CHECK1-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1			// CHECK1-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
	// CHECK1-NEXT: [[SUB4:%.*]] = sub nsw i32 [[DIV]], 1			// CHECK1-NEXT: [[SUB4:%.*]] = sub nsw i32 [[DIV]], 1
	// CHECK1-NEXT: store i32 [[SUB4]], i32* [[DOTCAPTURE_EXPR_3]], align 4			// CHECK1-NEXT: store i32 [[SUB4]], i32* [[DOTCAPTURE_EXPR_3]], align 4
	▲ Show 20 Lines • Show All 1,577 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8			// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
	// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8			// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
	// CHECK2-NEXT: store i64 [[N]], i64* [[N_ADDR]], align 8			// CHECK2-NEXT: store i64 [[N]], i64* [[N_ADDR]], align 8
	// CHECK2-NEXT: store [1000 x i32]* [[A]], [1000 x i32]** [[A_ADDR]], align 8			// CHECK2-NEXT: store [1000 x i32]* [[A]], [1000 x i32]** [[A_ADDR]], align 8
	// CHECK2-NEXT: store i64 [[L]], i64* [[L_ADDR]], align 8			// CHECK2-NEXT: store i64 [[L]], i64* [[L_ADDR]], align 8
	// CHECK2-NEXT: [[CONV:%.]] = bitcast i64 [[N_ADDR]] to i32*			// CHECK2-NEXT: [[CONV:%.]] = bitcast i64 [[N_ADDR]] to i32*
	// CHECK2-NEXT: [[TMP0:%.]] = load [1000 x i32], [1000 x i32]** [[A_ADDR]], align 8			// CHECK2-NEXT: [[TMP0:%.]] = load [1000 x i32], [1000 x i32]** [[A_ADDR]], align 8
	// CHECK2-NEXT: [[CONV1:%.]] = bitcast i64 [[L_ADDR]] to i32*			// CHECK2-NEXT: [[CONV1:%.]] = bitcast i64 [[L_ADDR]] to i32*
	// CHECK2-NEXT: [[L2:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK2-NEXT: [[L2:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK2-NEXT: [[L_ON_STACK:%.]] = bitcast i8 [[L2]] to i32*			// CHECK2-NEXT: [[L_ON_STACK:%.]] = bitcast i8 [[L2]] to i32*
	// CHECK2-NEXT: [[TMP1:%.]] = load i32, i32 [[CONV]], align 8			// CHECK2-NEXT: [[TMP1:%.]] = load i32, i32 [[CONV]], align 8
	// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_]], align 4			// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_]], align 4
	// CHECK2-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_]], align 4			// CHECK2-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_]], align 4
	// CHECK2-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0			// CHECK2-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0
	// CHECK2-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1			// CHECK2-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
	// CHECK2-NEXT: [[SUB4:%.*]] = sub nsw i32 [[DIV]], 1			// CHECK2-NEXT: [[SUB4:%.*]] = sub nsw i32 [[DIV]], 1
	// CHECK2-NEXT: store i32 [[SUB4]], i32* [[DOTCAPTURE_EXPR_3]], align 4			// CHECK2-NEXT: store i32 [[SUB4]], i32* [[DOTCAPTURE_EXPR_3]], align 4
	▲ Show 20 Lines • Show All 1,566 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: [[L_CASTED:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[L_CASTED:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [5 x i8], align 4			// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [5 x i8], align 4
	// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4			// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
	// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4			// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
	// CHECK3-NEXT: store i32 [[N]], i32* [[N_ADDR]], align 4			// CHECK3-NEXT: store i32 [[N]], i32* [[N_ADDR]], align 4
	// CHECK3-NEXT: store [1000 x i32]* [[A]], [1000 x i32]** [[A_ADDR]], align 4			// CHECK3-NEXT: store [1000 x i32]* [[A]], [1000 x i32]** [[A_ADDR]], align 4
	// CHECK3-NEXT: store i32 [[L]], i32* [[L_ADDR]], align 4			// CHECK3-NEXT: store i32 [[L]], i32* [[L_ADDR]], align 4
	// CHECK3-NEXT: [[TMP0:%.]] = load [1000 x i32], [1000 x i32]** [[A_ADDR]], align 4			// CHECK3-NEXT: [[TMP0:%.]] = load [1000 x i32], [1000 x i32]** [[A_ADDR]], align 4
	// CHECK3-NEXT: [[L1:%.]] = call i8 @__kmpc_alloc_shared(i32 4)			// CHECK3-NEXT: [[L1:%.]] = call align 4 i8 @__kmpc_alloc_shared(i32 4)
	// CHECK3-NEXT: [[L_ON_STACK:%.]] = bitcast i8 [[L1]] to i32*			// CHECK3-NEXT: [[L_ON_STACK:%.]] = bitcast i8 [[L1]] to i32*
	// CHECK3-NEXT: [[TMP1:%.]] = load i32, i32 [[N_ADDR]], align 4			// CHECK3-NEXT: [[TMP1:%.]] = load i32, i32 [[N_ADDR]], align 4
	// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_]], align 4			// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_]], align 4
	// CHECK3-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_]], align 4			// CHECK3-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_]], align 4
	// CHECK3-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0			// CHECK3-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0
	// CHECK3-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1			// CHECK3-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
	// CHECK3-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1			// CHECK3-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1
	// CHECK3-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4			// CHECK3-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4
	▲ Show 20 Lines • Show All 1,517 Lines • ▼ Show 20 Lines
	// CHECK4-NEXT: [[L_CASTED:%.*]] = alloca i32, align 4			// CHECK4-NEXT: [[L_CASTED:%.*]] = alloca i32, align 4
	// CHECK4-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [5 x i8], align 4			// CHECK4-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [5 x i8], align 4
	// CHECK4-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4			// CHECK4-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
	// CHECK4-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4			// CHECK4-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
	// CHECK4-NEXT: store i32 [[N]], i32* [[N_ADDR]], align 4			// CHECK4-NEXT: store i32 [[N]], i32* [[N_ADDR]], align 4
	// CHECK4-NEXT: store [1000 x i32]* [[A]], [1000 x i32]** [[A_ADDR]], align 4			// CHECK4-NEXT: store [1000 x i32]* [[A]], [1000 x i32]** [[A_ADDR]], align 4
	// CHECK4-NEXT: store i32 [[L]], i32* [[L_ADDR]], align 4			// CHECK4-NEXT: store i32 [[L]], i32* [[L_ADDR]], align 4
	// CHECK4-NEXT: [[TMP0:%.]] = load [1000 x i32], [1000 x i32]** [[A_ADDR]], align 4			// CHECK4-NEXT: [[TMP0:%.]] = load [1000 x i32], [1000 x i32]** [[A_ADDR]], align 4
	// CHECK4-NEXT: [[L1:%.]] = call i8 @__kmpc_alloc_shared(i32 4)			// CHECK4-NEXT: [[L1:%.]] = call align 4 i8 @__kmpc_alloc_shared(i32 4)
	// CHECK4-NEXT: [[L_ON_STACK:%.]] = bitcast i8 [[L1]] to i32*			// CHECK4-NEXT: [[L_ON_STACK:%.]] = bitcast i8 [[L1]] to i32*
	// CHECK4-NEXT: [[TMP1:%.]] = load i32, i32 [[N_ADDR]], align 4			// CHECK4-NEXT: [[TMP1:%.]] = load i32, i32 [[N_ADDR]], align 4
	// CHECK4-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_]], align 4			// CHECK4-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_]], align 4
	// CHECK4-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_]], align 4			// CHECK4-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_]], align 4
	// CHECK4-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0			// CHECK4-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0
	// CHECK4-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1			// CHECK4-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
	// CHECK4-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1			// CHECK4-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1
	// CHECK4-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4			// CHECK4-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4
	▲ Show 20 Lines • Show All 1,463 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_target_teams_distribute_parallel_for_simd_codegen.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 9,441 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8			// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
	// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8			// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
	// CHECK1-NEXT: store i64 [[N]], i64* [[N_ADDR]], align 8			// CHECK1-NEXT: store i64 [[N]], i64* [[N_ADDR]], align 8
	// CHECK1-NEXT: store [1000 x i32]* [[A]], [1000 x i32]** [[A_ADDR]], align 8			// CHECK1-NEXT: store [1000 x i32]* [[A]], [1000 x i32]** [[A_ADDR]], align 8
	// CHECK1-NEXT: store i64 [[L]], i64* [[L_ADDR]], align 8			// CHECK1-NEXT: store i64 [[L]], i64* [[L_ADDR]], align 8
	// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[N_ADDR]] to i32*			// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[N_ADDR]] to i32*
	// CHECK1-NEXT: [[TMP0:%.]] = load [1000 x i32], [1000 x i32]** [[A_ADDR]], align 8			// CHECK1-NEXT: [[TMP0:%.]] = load [1000 x i32], [1000 x i32]** [[A_ADDR]], align 8
	// CHECK1-NEXT: [[CONV1:%.]] = bitcast i64 [[L_ADDR]] to i32*			// CHECK1-NEXT: [[CONV1:%.]] = bitcast i64 [[L_ADDR]] to i32*
	// CHECK1-NEXT: [[L2:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK1-NEXT: [[L2:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK1-NEXT: [[L_ON_STACK:%.]] = bitcast i8 [[L2]] to i32*			// CHECK1-NEXT: [[L_ON_STACK:%.]] = bitcast i8 [[L2]] to i32*
	// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32 [[CONV]], align 8			// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32 [[CONV]], align 8
	// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_]], align 4			// CHECK1-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_]], align 4
	// CHECK1-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_]], align 4			// CHECK1-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_]], align 4
	// CHECK1-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0			// CHECK1-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0
	// CHECK1-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1			// CHECK1-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
	// CHECK1-NEXT: [[SUB4:%.*]] = sub nsw i32 [[DIV]], 1			// CHECK1-NEXT: [[SUB4:%.*]] = sub nsw i32 [[DIV]], 1
	// CHECK1-NEXT: store i32 [[SUB4]], i32* [[DOTCAPTURE_EXPR_3]], align 4			// CHECK1-NEXT: store i32 [[SUB4]], i32* [[DOTCAPTURE_EXPR_3]], align 4
	▲ Show 20 Lines • Show All 1,061 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: [[L_CASTED:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[L_CASTED:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [5 x i8], align 4			// CHECK2-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [5 x i8], align 4
	// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4			// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
	// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4			// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
	// CHECK2-NEXT: store i32 [[N]], i32* [[N_ADDR]], align 4			// CHECK2-NEXT: store i32 [[N]], i32* [[N_ADDR]], align 4
	// CHECK2-NEXT: store [1000 x i32]* [[A]], [1000 x i32]** [[A_ADDR]], align 4			// CHECK2-NEXT: store [1000 x i32]* [[A]], [1000 x i32]** [[A_ADDR]], align 4
	// CHECK2-NEXT: store i32 [[L]], i32* [[L_ADDR]], align 4			// CHECK2-NEXT: store i32 [[L]], i32* [[L_ADDR]], align 4
	// CHECK2-NEXT: [[TMP0:%.]] = load [1000 x i32], [1000 x i32]** [[A_ADDR]], align 4			// CHECK2-NEXT: [[TMP0:%.]] = load [1000 x i32], [1000 x i32]** [[A_ADDR]], align 4
	// CHECK2-NEXT: [[L1:%.]] = call i8 @__kmpc_alloc_shared(i32 4)			// CHECK2-NEXT: [[L1:%.]] = call align 4 i8 @__kmpc_alloc_shared(i32 4)
	// CHECK2-NEXT: [[L_ON_STACK:%.]] = bitcast i8 [[L1]] to i32*			// CHECK2-NEXT: [[L_ON_STACK:%.]] = bitcast i8 [[L1]] to i32*
	// CHECK2-NEXT: [[TMP1:%.]] = load i32, i32 [[N_ADDR]], align 4			// CHECK2-NEXT: [[TMP1:%.]] = load i32, i32 [[N_ADDR]], align 4
	// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_]], align 4			// CHECK2-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_]], align 4
	// CHECK2-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_]], align 4			// CHECK2-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_]], align 4
	// CHECK2-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0			// CHECK2-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0
	// CHECK2-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1			// CHECK2-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
	// CHECK2-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1			// CHECK2-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1
	// CHECK2-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4			// CHECK2-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4
	▲ Show 20 Lines • Show All 1,021 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: [[L_CASTED:%.*]] = alloca i32, align 4			// CHECK3-NEXT: [[L_CASTED:%.*]] = alloca i32, align 4
	// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [5 x i8], align 4			// CHECK3-NEXT: [[CAPTURED_VARS_ADDRS:%.]] = alloca [5 x i8], align 4
	// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4			// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
	// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4			// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
	// CHECK3-NEXT: store i32 [[N]], i32* [[N_ADDR]], align 4			// CHECK3-NEXT: store i32 [[N]], i32* [[N_ADDR]], align 4
	// CHECK3-NEXT: store [1000 x i32]* [[A]], [1000 x i32]** [[A_ADDR]], align 4			// CHECK3-NEXT: store [1000 x i32]* [[A]], [1000 x i32]** [[A_ADDR]], align 4
	// CHECK3-NEXT: store i32 [[L]], i32* [[L_ADDR]], align 4			// CHECK3-NEXT: store i32 [[L]], i32* [[L_ADDR]], align 4
	// CHECK3-NEXT: [[TMP0:%.]] = load [1000 x i32], [1000 x i32]** [[A_ADDR]], align 4			// CHECK3-NEXT: [[TMP0:%.]] = load [1000 x i32], [1000 x i32]** [[A_ADDR]], align 4
	// CHECK3-NEXT: [[L1:%.]] = call i8 @__kmpc_alloc_shared(i32 4)			// CHECK3-NEXT: [[L1:%.]] = call align 4 i8 @__kmpc_alloc_shared(i32 4)
	// CHECK3-NEXT: [[L_ON_STACK:%.]] = bitcast i8 [[L1]] to i32*			// CHECK3-NEXT: [[L_ON_STACK:%.]] = bitcast i8 [[L1]] to i32*
	// CHECK3-NEXT: [[TMP1:%.]] = load i32, i32 [[N_ADDR]], align 4			// CHECK3-NEXT: [[TMP1:%.]] = load i32, i32 [[N_ADDR]], align 4
	// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_]], align 4			// CHECK3-NEXT: store i32 [[TMP1]], i32* [[DOTCAPTURE_EXPR_]], align 4
	// CHECK3-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_]], align 4			// CHECK3-NEXT: [[TMP2:%.]] = load i32, i32 [[DOTCAPTURE_EXPR_]], align 4
	// CHECK3-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0			// CHECK3-NEXT: [[SUB:%.*]] = sub nsw i32 [[TMP2]], 0
	// CHECK3-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1			// CHECK3-NEXT: [[DIV:%.*]] = sdiv i32 [[SUB]], 1
	// CHECK3-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1			// CHECK3-NEXT: [[SUB3:%.*]] = sub nsw i32 [[DIV]], 1
	// CHECK3-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4			// CHECK3-NEXT: store i32 [[SUB3]], i32* [[DOTCAPTURE_EXPR_2]], align 4
	▲ Show 20 Lines • Show All 967 Lines • Show Last 20 Lines

clang/test/OpenMP/nvptx_teams_codegen.cpp

	Show First 20 Lines • Show All 897 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: store i64 [[ARGC]], i64* [[ARGC_ADDR]], align 8			// CHECK1-NEXT: store i64 [[ARGC]], i64* [[ARGC_ADDR]], align 8
	// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[ARGC_ADDR]] to i32*			// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[ARGC_ADDR]] to i32*
	// CHECK1-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i8 1, i1 true, i1 true)			// CHECK1-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i8 1, i1 true, i1 true)
	// CHECK1-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			// CHECK1-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	// CHECK1-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK1-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK1: user_code.entry:			// CHECK1: user_code.entry:
	// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32 [[CONV]], align 8			// CHECK1-NEXT: [[TMP1:%.]] = load i32, i32 [[CONV]], align 8
	// CHECK1-NEXT: [[ARGC1:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK1-NEXT: [[ARGC1:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK1-NEXT: [[ARGC_ON_STACK:%.]] = bitcast i8 [[ARGC1]] to i32*			// CHECK1-NEXT: [[ARGC_ON_STACK:%.]] = bitcast i8 [[ARGC1]] to i32*
	// CHECK1-NEXT: store i32 [[TMP1]], i32* [[ARGC_ON_STACK]], align 4			// CHECK1-NEXT: store i32 [[TMP1]], i32* [[ARGC_ON_STACK]], align 4
	// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK1-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK1-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK1-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32* [[ARGC_ON_STACK]]) #[[ATTR2:[0-9]+]]			// CHECK1-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32* [[ARGC_ON_STACK]]) #[[ATTR2:[0-9]+]]
	// CHECK1-NEXT: call void @__kmpc_free_shared(i8* [[ARGC1]], i64 4)			// CHECK1-NEXT: call void @__kmpc_free_shared(i8* [[ARGC1]], i64 4)
	// CHECK1-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)			// CHECK1-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)
	Show All 23 Lines
	// CHECK1-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: store i8 [[ARGC]], i8* [[ARGC_ADDR]], align 8			// CHECK1-NEXT: store i8 [[ARGC]], i8* [[ARGC_ADDR]], align 8
	// CHECK1-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 true, i1 true)			// CHECK1-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 true, i1 true)
	// CHECK1-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			// CHECK1-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	// CHECK1-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK1-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK1: user_code.entry:			// CHECK1: user_code.entry:
	// CHECK1-NEXT: [[TMP1:%.]] = load i8, i8** [[ARGC_ADDR]], align 8			// CHECK1-NEXT: [[TMP1:%.]] = load i8, i8** [[ARGC_ADDR]], align 8
	// CHECK1-NEXT: [[ARGC1:%.]] = call i8 @__kmpc_alloc_shared(i64 8)			// CHECK1-NEXT: [[ARGC1:%.]] = call align 8 i8 @__kmpc_alloc_shared(i64 8)
	// CHECK1-NEXT: [[ARGC_ON_STACK:%.]] = bitcast i8 [[ARGC1]] to i8***			// CHECK1-NEXT: [[ARGC_ON_STACK:%.]] = bitcast i8 [[ARGC1]] to i8***
	// CHECK1-NEXT: store i8 [[TMP1]], i8* [[ARGC_ON_STACK]], align 8			// CHECK1-NEXT: store i8 [[TMP1]], i8* [[ARGC_ON_STACK]], align 8
	// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK1-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK1-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK1-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i8*** [[ARGC_ON_STACK]]) #[[ATTR2]]			// CHECK1-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i8*** [[ARGC_ON_STACK]]) #[[ATTR2]]
	// CHECK1-NEXT: call void @__kmpc_free_shared(i8* [[ARGC1]], i64 8)			// CHECK1-NEXT: call void @__kmpc_free_shared(i8* [[ARGC1]], i64 8)
	// CHECK1-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)			// CHECK1-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)
	Show All 23 Lines
	// CHECK2-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4			// CHECK2-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4
	// CHECK2-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i8 1, i1 true, i1 true)			// CHECK2-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i8 1, i1 true, i1 true)
	// CHECK2-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			// CHECK2-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	// CHECK2-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK2-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK2: user_code.entry:			// CHECK2: user_code.entry:
	// CHECK2-NEXT: [[TMP1:%.]] = load i32, i32 [[ARGC_ADDR]], align 4			// CHECK2-NEXT: [[TMP1:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
	// CHECK2-NEXT: [[ARGC1:%.]] = call i8 @__kmpc_alloc_shared(i32 4)			// CHECK2-NEXT: [[ARGC1:%.]] = call align 4 i8 @__kmpc_alloc_shared(i32 4)
	// CHECK2-NEXT: [[ARGC_ON_STACK:%.]] = bitcast i8 [[ARGC1]] to i32*			// CHECK2-NEXT: [[ARGC_ON_STACK:%.]] = bitcast i8 [[ARGC1]] to i32*
	// CHECK2-NEXT: store i32 [[TMP1]], i32* [[ARGC_ON_STACK]], align 4			// CHECK2-NEXT: store i32 [[TMP1]], i32* [[ARGC_ON_STACK]], align 4
	// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK2-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK2-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK2-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32* [[ARGC_ON_STACK]]) #[[ATTR2:[0-9]+]]			// CHECK2-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32* [[ARGC_ON_STACK]]) #[[ATTR2:[0-9]+]]
	// CHECK2-NEXT: call void @__kmpc_free_shared(i8* [[ARGC1]], i32 4)			// CHECK2-NEXT: call void @__kmpc_free_shared(i8* [[ARGC1]], i32 4)
	// CHECK2-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)			// CHECK2-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)
	Show All 23 Lines
	// CHECK2-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTZERO_ADDR:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	// CHECK2-NEXT: store i8 [[ARGC]], i8* [[ARGC_ADDR]], align 4			// CHECK2-NEXT: store i8 [[ARGC]], i8* [[ARGC_ADDR]], align 4
	// CHECK2-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 true, i1 true)			// CHECK2-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 true, i1 true)
	// CHECK2-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			// CHECK2-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	// CHECK2-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK2-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK2: user_code.entry:			// CHECK2: user_code.entry:
	// CHECK2-NEXT: [[TMP1:%.]] = load i8, i8** [[ARGC_ADDR]], align 4			// CHECK2-NEXT: [[TMP1:%.]] = load i8, i8** [[ARGC_ADDR]], align 4
	// CHECK2-NEXT: [[ARGC1:%.]] = call i8 @__kmpc_alloc_shared(i32 4)			// CHECK2-NEXT: [[ARGC1:%.]] = call align 4 i8 @__kmpc_alloc_shared(i32 4)
	// CHECK2-NEXT: [[ARGC_ON_STACK:%.]] = bitcast i8 [[ARGC1]] to i8***			// CHECK2-NEXT: [[ARGC_ON_STACK:%.]] = bitcast i8 [[ARGC1]] to i8***
	// CHECK2-NEXT: store i8 [[TMP1]], i8* [[ARGC_ON_STACK]], align 4			// CHECK2-NEXT: store i8 [[TMP1]], i8* [[ARGC_ON_STACK]], align 4
	// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK2-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK2-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK2-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK2-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i8*** [[ARGC_ON_STACK]]) #[[ATTR2]]			// CHECK2-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i8*** [[ARGC_ON_STACK]]) #[[ATTR2]]
	// CHECK2-NEXT: call void @__kmpc_free_shared(i8* [[ARGC1]], i32 4)			// CHECK2-NEXT: call void @__kmpc_free_shared(i8* [[ARGC1]], i32 4)
	// CHECK2-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)			// CHECK2-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)
	Show All 30 Lines
	// CHECK3-NEXT: [[CONV:%.]] = bitcast i64 [[A_ADDR]] to i32*			// CHECK3-NEXT: [[CONV:%.]] = bitcast i64 [[A_ADDR]] to i32*
	// CHECK3-NEXT: [[CONV1:%.]] = bitcast i64 [[B_ADDR]] to i32*			// CHECK3-NEXT: [[CONV1:%.]] = bitcast i64 [[B_ADDR]] to i32*
	// CHECK3-NEXT: [[CONV2:%.]] = bitcast i64 [[ARGC_ADDR]] to i32*			// CHECK3-NEXT: [[CONV2:%.]] = bitcast i64 [[ARGC_ADDR]] to i32*
	// CHECK3-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i8 1, i1 true, i1 true)			// CHECK3-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i8 1, i1 true, i1 true)
	// CHECK3-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			// CHECK3-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	// CHECK3-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK3-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK3: user_code.entry:			// CHECK3: user_code.entry:
	// CHECK3-NEXT: [[TMP1:%.]] = load i32, i32 [[CONV2]], align 8			// CHECK3-NEXT: [[TMP1:%.]] = load i32, i32 [[CONV2]], align 8
	// CHECK3-NEXT: [[ARGC3:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK3-NEXT: [[ARGC3:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK3-NEXT: [[ARGC_ON_STACK:%.]] = bitcast i8 [[ARGC3]] to i32*			// CHECK3-NEXT: [[ARGC_ON_STACK:%.]] = bitcast i8 [[ARGC3]] to i32*
	// CHECK3-NEXT: store i32 [[TMP1]], i32* [[ARGC_ON_STACK]], align 4			// CHECK3-NEXT: store i32 [[TMP1]], i32* [[ARGC_ON_STACK]], align 4
	// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK3-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK3-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK3-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK3-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK3-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32* [[ARGC_ON_STACK]]) #[[ATTR2:[0-9]+]]			// CHECK3-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32* [[ARGC_ON_STACK]]) #[[ATTR2:[0-9]+]]
	// CHECK3-NEXT: call void @__kmpc_free_shared(i8* [[ARGC3]], i64 4)			// CHECK3-NEXT: call void @__kmpc_free_shared(i8* [[ARGC3]], i64 4)
	// CHECK3-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)			// CHECK3-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)
	Show All 29 Lines
	// CHECK3-NEXT: store i8 [[ARGC]], i8* [[ARGC_ADDR]], align 8			// CHECK3-NEXT: store i8 [[ARGC]], i8* [[ARGC_ADDR]], align 8
	// CHECK3-NEXT: [[CONV:%.]] = bitcast i64 [[A_ADDR]] to i32*			// CHECK3-NEXT: [[CONV:%.]] = bitcast i64 [[A_ADDR]] to i32*
	// CHECK3-NEXT: [[CONV1:%.]] = bitcast i64 [[B_ADDR]] to i32*			// CHECK3-NEXT: [[CONV1:%.]] = bitcast i64 [[B_ADDR]] to i32*
	// CHECK3-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 true, i1 true)			// CHECK3-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 true, i1 true)
	// CHECK3-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			// CHECK3-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	// CHECK3-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK3-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK3: user_code.entry:			// CHECK3: user_code.entry:
	// CHECK3-NEXT: [[TMP1:%.]] = load i8, i8** [[ARGC_ADDR]], align 8			// CHECK3-NEXT: [[TMP1:%.]] = load i8, i8** [[ARGC_ADDR]], align 8
	// CHECK3-NEXT: [[ARGC2:%.]] = call i8 @__kmpc_alloc_shared(i64 8)			// CHECK3-NEXT: [[ARGC2:%.]] = call align 8 i8 @__kmpc_alloc_shared(i64 8)
	// CHECK3-NEXT: [[ARGC_ON_STACK:%.]] = bitcast i8 [[ARGC2]] to i8***			// CHECK3-NEXT: [[ARGC_ON_STACK:%.]] = bitcast i8 [[ARGC2]] to i8***
	// CHECK3-NEXT: store i8 [[TMP1]], i8* [[ARGC_ON_STACK]], align 8			// CHECK3-NEXT: store i8 [[TMP1]], i8* [[ARGC_ON_STACK]], align 8
	// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK3-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK3-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK3-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK3-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK3-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK3-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i8*** [[ARGC_ON_STACK]]) #[[ATTR2]]			// CHECK3-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i8*** [[ARGC_ON_STACK]]) #[[ATTR2]]
	// CHECK3-NEXT: call void @__kmpc_free_shared(i8* [[ARGC2]], i64 8)			// CHECK3-NEXT: call void @__kmpc_free_shared(i8* [[ARGC2]], i64 8)
	// CHECK3-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)			// CHECK3-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)
	Show All 27 Lines
	// CHECK4-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4			// CHECK4-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
	// CHECK4-NEXT: store i32 [[B]], i32* [[B_ADDR]], align 4			// CHECK4-NEXT: store i32 [[B]], i32* [[B_ADDR]], align 4
	// CHECK4-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4			// CHECK4-NEXT: store i32 [[ARGC]], i32* [[ARGC_ADDR]], align 4
	// CHECK4-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i8 1, i1 true, i1 true)			// CHECK4-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i8 1, i1 true, i1 true)
	// CHECK4-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			// CHECK4-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	// CHECK4-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK4-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK4: user_code.entry:			// CHECK4: user_code.entry:
	// CHECK4-NEXT: [[TMP1:%.]] = load i32, i32 [[ARGC_ADDR]], align 4			// CHECK4-NEXT: [[TMP1:%.]] = load i32, i32 [[ARGC_ADDR]], align 4
	// CHECK4-NEXT: [[ARGC1:%.]] = call i8 @__kmpc_alloc_shared(i32 4)			// CHECK4-NEXT: [[ARGC1:%.]] = call align 4 i8 @__kmpc_alloc_shared(i32 4)
	// CHECK4-NEXT: [[ARGC_ON_STACK:%.]] = bitcast i8 [[ARGC1]] to i32*			// CHECK4-NEXT: [[ARGC_ON_STACK:%.]] = bitcast i8 [[ARGC1]] to i32*
	// CHECK4-NEXT: store i32 [[TMP1]], i32* [[ARGC_ON_STACK]], align 4			// CHECK4-NEXT: store i32 [[TMP1]], i32* [[ARGC_ON_STACK]], align 4
	// CHECK4-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK4-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK4-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK4-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK4-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK4-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK4-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32* [[ARGC_ON_STACK]]) #[[ATTR2:[0-9]+]]			// CHECK4-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i32* [[ARGC_ON_STACK]]) #[[ATTR2:[0-9]+]]
	// CHECK4-NEXT: call void @__kmpc_free_shared(i8* [[ARGC1]], i32 4)			// CHECK4-NEXT: call void @__kmpc_free_shared(i8* [[ARGC1]], i32 4)
	// CHECK4-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)			// CHECK4-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)
	Show All 27 Lines
	// CHECK4-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4			// CHECK4-NEXT: store i32 [[A]], i32* [[A_ADDR]], align 4
	// CHECK4-NEXT: store i32 [[B]], i32* [[B_ADDR]], align 4			// CHECK4-NEXT: store i32 [[B]], i32* [[B_ADDR]], align 4
	// CHECK4-NEXT: store i8 [[ARGC]], i8* [[ARGC_ADDR]], align 4			// CHECK4-NEXT: store i8 [[ARGC]], i8* [[ARGC_ADDR]], align 4
	// CHECK4-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 true, i1 true)			// CHECK4-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 true, i1 true)
	// CHECK4-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			// CHECK4-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	// CHECK4-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK4-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK4: user_code.entry:			// CHECK4: user_code.entry:
	// CHECK4-NEXT: [[TMP1:%.]] = load i8, i8** [[ARGC_ADDR]], align 4			// CHECK4-NEXT: [[TMP1:%.]] = load i8, i8** [[ARGC_ADDR]], align 4
	// CHECK4-NEXT: [[ARGC1:%.]] = call i8 @__kmpc_alloc_shared(i32 4)			// CHECK4-NEXT: [[ARGC1:%.]] = call align 4 i8 @__kmpc_alloc_shared(i32 4)
	// CHECK4-NEXT: [[ARGC_ON_STACK:%.]] = bitcast i8 [[ARGC1]] to i8***			// CHECK4-NEXT: [[ARGC_ON_STACK:%.]] = bitcast i8 [[ARGC1]] to i8***
	// CHECK4-NEXT: store i8 [[TMP1]], i8* [[ARGC_ON_STACK]], align 4			// CHECK4-NEXT: store i8 [[TMP1]], i8* [[ARGC_ON_STACK]], align 4
	// CHECK4-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK4-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK4-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK4-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK4-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK4-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK4-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i8*** [[ARGC_ON_STACK]]) #[[ATTR2]]			// CHECK4-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i8*** [[ARGC_ON_STACK]]) #[[ATTR2]]
	// CHECK4-NEXT: call void @__kmpc_free_shared(i8* [[ARGC1]], i32 4)			// CHECK4-NEXT: call void @__kmpc_free_shared(i8* [[ARGC1]], i32 4)
	// CHECK4-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)			// CHECK4-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)
	Show All 18 Lines

clang/test/OpenMP/nvptx_teams_reduction_codegen.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 4,213 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4			// CHECK1-NEXT: [[DOTTHREADID_TEMP_:%.*]] = alloca i32, align 4
	// CHECK1-NEXT: store i64 [[E]], i64* [[E_ADDR]], align 8			// CHECK1-NEXT: store i64 [[E]], i64* [[E_ADDR]], align 8
	// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[E_ADDR]] to double*			// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[E_ADDR]] to double*
	// CHECK1-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i8 1, i1 true, i1 true)			// CHECK1-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1:[0-9]+]], i8 1, i1 true, i1 true)
	// CHECK1-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			// CHECK1-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	// CHECK1-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK1-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK1: user_code.entry:			// CHECK1: user_code.entry:
	// CHECK1-NEXT: [[TMP1:%.]] = load double, double [[CONV]], align 8			// CHECK1-NEXT: [[TMP1:%.]] = load double, double [[CONV]], align 8
	// CHECK1-NEXT: [[E1:%.]] = call i8 @__kmpc_alloc_shared(i64 8)			// CHECK1-NEXT: [[E1:%.]] = call align 8 i8 @__kmpc_alloc_shared(i64 8)
	// CHECK1-NEXT: [[E_ON_STACK:%.]] = bitcast i8 [[E1]] to double*			// CHECK1-NEXT: [[E_ON_STACK:%.]] = bitcast i8 [[E1]] to double*
	// CHECK1-NEXT: store double [[TMP1]], double* [[E_ON_STACK]], align 8			// CHECK1-NEXT: store double [[TMP1]], double* [[E_ON_STACK]], align 8
	// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK1-NEXT: [[TMP2:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK1-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK1-NEXT: store i32 [[TMP2]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK1-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], double* [[E_ON_STACK]]) #[[ATTR3:[0-9]+]]			// CHECK1-NEXT: call void @__omp_outlined__(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], double* [[E_ON_STACK]]) #[[ATTR3:[0-9]+]]
	// CHECK1-NEXT: call void @__kmpc_free_shared(i8* [[E1]], i64 8)			// CHECK1-NEXT: call void @__kmpc_free_shared(i8* [[E1]], i64 8)
	// CHECK1-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)			// CHECK1-NEXT: call void @__kmpc_target_deinit(%struct.ident_t* @[[GLOB1]], i8 1, i1 true)
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	// CHECK1: worker.exit:			// CHECK1: worker.exit:
	// CHECK1-NEXT: ret void			// CHECK1-NEXT: ret void
	//			//
	//			//
	// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__			// CHECK1-LABEL: define {{[^@]+}}@__omp_outlined__
	// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], double nonnull align 8 dereferenceable(8) [[E:%.*]]) #[[ATTR0]] {			// CHECK1-SAME: (i32* noalias [[DOTGLOBAL_TID_:%.]], i32 noalias [[DOTBOUND_TID_:%.]], double nonnull align 8 dereferenceable(8) [[E:%.*]]) #[[ATTR0]] {
	// CHECK1-NEXT: entry:			// CHECK1-NEXT: entry:
	// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8			// CHECK1-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 8
	// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8			// CHECK1-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 8
	// CHECK1-NEXT: [[E_ADDR:%.]] = alloca double, align 8			// CHECK1-NEXT: [[E_ADDR:%.]] = alloca double, align 8
	// CHECK1-NEXT: [[DOTOMP_REDUCTION_RED_LIST:%.]] = alloca [1 x i8], align 8			// CHECK1-NEXT: [[DOTOMP_REDUCTION_RED_LIST:%.]] = alloca [1 x i8], align 8
	// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8			// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
	// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8			// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
	// CHECK1-NEXT: store double* [[E]], double** [[E_ADDR]], align 8			// CHECK1-NEXT: store double* [[E]], double** [[E_ADDR]], align 8
	// CHECK1-NEXT: [[TMP0:%.]] = load double, double** [[E_ADDR]], align 8			// CHECK1-NEXT: [[TMP0:%.]] = load double, double** [[E_ADDR]], align 8
	// CHECK1-NEXT: [[E1:%.]] = call i8 @__kmpc_alloc_shared(i64 8)			// CHECK1-NEXT: [[E1:%.]] = call align 8 i8 @__kmpc_alloc_shared(i64 8)
	// CHECK1-NEXT: [[E_ON_STACK:%.]] = bitcast i8 [[E1]] to double*			// CHECK1-NEXT: [[E_ON_STACK:%.]] = bitcast i8 [[E1]] to double*
	// CHECK1-NEXT: store double 0.000000e+00, double* [[E_ON_STACK]], align 8			// CHECK1-NEXT: store double 0.000000e+00, double* [[E_ON_STACK]], align 8
	// CHECK1-NEXT: [[TMP1:%.]] = load double, double [[E_ON_STACK]], align 8			// CHECK1-NEXT: [[TMP1:%.]] = load double, double [[E_ON_STACK]], align 8
	// CHECK1-NEXT: [[ADD:%.*]] = fadd double [[TMP1]], 5.000000e+00			// CHECK1-NEXT: [[ADD:%.*]] = fadd double [[TMP1]], 5.000000e+00
	// CHECK1-NEXT: store double [[ADD]], double* [[E_ON_STACK]], align 8			// CHECK1-NEXT: store double [[ADD]], double* [[E_ON_STACK]], align 8
	// CHECK1-NEXT: [[TMP2:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8			// CHECK1-NEXT: [[TMP2:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 8
	// CHECK1-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP2]], align 4			// CHECK1-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP2]], align 4
	// CHECK1-NEXT: [[TMP4:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 0			// CHECK1-NEXT: [[TMP4:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i64 0, i64 0
	▲ Show 20 Lines • Show All 260 Lines • ▼ Show 20 Lines
	// CHECK1-NEXT: store i64 [[D]], i64* [[D_ADDR]], align 8			// CHECK1-NEXT: store i64 [[D]], i64* [[D_ADDR]], align 8
	// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[C_ADDR]] to i8*			// CHECK1-NEXT: [[CONV:%.]] = bitcast i64 [[C_ADDR]] to i8*
	// CHECK1-NEXT: [[CONV1:%.]] = bitcast i64 [[D_ADDR]] to float*			// CHECK1-NEXT: [[CONV1:%.]] = bitcast i64 [[D_ADDR]] to float*
	// CHECK1-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 true, i1 true)			// CHECK1-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 true, i1 true)
	// CHECK1-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			// CHECK1-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	// CHECK1-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK1-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK1: user_code.entry:			// CHECK1: user_code.entry:
	// CHECK1-NEXT: [[TMP1:%.]] = load i8, i8 [[CONV]], align 8			// CHECK1-NEXT: [[TMP1:%.]] = load i8, i8 [[CONV]], align 8
	// CHECK1-NEXT: [[C2:%.]] = call i8 @__kmpc_alloc_shared(i64 1)			// CHECK1-NEXT: [[C2:%.]] = call align 1 i8 @__kmpc_alloc_shared(i64 1)
	// CHECK1-NEXT: store i8 [[TMP1]], i8* [[C2]], align 1			// CHECK1-NEXT: store i8 [[TMP1]], i8* [[C2]], align 1
	// CHECK1-NEXT: [[TMP2:%.]] = load float, float [[CONV1]], align 8			// CHECK1-NEXT: [[TMP2:%.]] = load float, float [[CONV1]], align 8
	// CHECK1-NEXT: [[D3:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK1-NEXT: [[D3:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK1-NEXT: [[D_ON_STACK:%.]] = bitcast i8 [[D3]] to float*			// CHECK1-NEXT: [[D_ON_STACK:%.]] = bitcast i8 [[D3]] to float*
	// CHECK1-NEXT: store float [[TMP2]], float* [[D_ON_STACK]], align 4			// CHECK1-NEXT: store float [[TMP2]], float* [[D_ON_STACK]], align 4
	// CHECK1-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK1-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK1-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK1-NEXT: store i32 [[TMP3]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK1-NEXT: store i32 [[TMP3]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK1-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i8* [[C2]], float* [[D_ON_STACK]]) #[[ATTR3]]			// CHECK1-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i8* [[C2]], float* [[D_ON_STACK]]) #[[ATTR3]]
	// CHECK1-NEXT: call void @__kmpc_free_shared(i8* [[D3]], i64 4)			// CHECK1-NEXT: call void @__kmpc_free_shared(i8* [[D3]], i64 4)
	// CHECK1-NEXT: call void @__kmpc_free_shared(i8* [[C2]], i64 1)			// CHECK1-NEXT: call void @__kmpc_free_shared(i8* [[C2]], i64 1)
	Show All 12 Lines
	// CHECK1-NEXT: [[D_ADDR:%.]] = alloca float, align 8			// CHECK1-NEXT: [[D_ADDR:%.]] = alloca float, align 8
	// CHECK1-NEXT: [[DOTOMP_REDUCTION_RED_LIST:%.]] = alloca [2 x i8], align 8			// CHECK1-NEXT: [[DOTOMP_REDUCTION_RED_LIST:%.]] = alloca [2 x i8], align 8
	// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8			// CHECK1-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 8
	// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8			// CHECK1-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 8
	// CHECK1-NEXT: store i8* [[C]], i8** [[C_ADDR]], align 8			// CHECK1-NEXT: store i8* [[C]], i8** [[C_ADDR]], align 8
	// CHECK1-NEXT: store float* [[D]], float** [[D_ADDR]], align 8			// CHECK1-NEXT: store float* [[D]], float** [[D_ADDR]], align 8
	// CHECK1-NEXT: [[TMP0:%.]] = load i8, i8** [[C_ADDR]], align 8			// CHECK1-NEXT: [[TMP0:%.]] = load i8, i8** [[C_ADDR]], align 8
	// CHECK1-NEXT: [[TMP1:%.]] = load float, float** [[D_ADDR]], align 8			// CHECK1-NEXT: [[TMP1:%.]] = load float, float** [[D_ADDR]], align 8
	// CHECK1-NEXT: [[C1:%.]] = call i8 @__kmpc_alloc_shared(i64 1)			// CHECK1-NEXT: [[C1:%.]] = call align 1 i8 @__kmpc_alloc_shared(i64 1)
	// CHECK1-NEXT: [[D2:%.]] = call i8 @__kmpc_alloc_shared(i64 4)			// CHECK1-NEXT: [[D2:%.]] = call align 4 i8 @__kmpc_alloc_shared(i64 4)
	// CHECK1-NEXT: [[D_ON_STACK:%.]] = bitcast i8 [[D2]] to float*			// CHECK1-NEXT: [[D_ON_STACK:%.]] = bitcast i8 [[D2]] to float*
	// CHECK1-NEXT: store i8 0, i8* [[C1]], align 1			// CHECK1-NEXT: store i8 0, i8* [[C1]], align 1
	// CHECK1-NEXT: store float 1.000000e+00, float* [[D_ON_STACK]], align 4			// CHECK1-NEXT: store float 1.000000e+00, float* [[D_ON_STACK]], align 4
	// CHECK1-NEXT: [[TMP2:%.]] = load i8, i8 [[C1]], align 1			// CHECK1-NEXT: [[TMP2:%.]] = load i8, i8 [[C1]], align 1
	// CHECK1-NEXT: [[CONV:%.*]] = sext i8 [[TMP2]] to i32			// CHECK1-NEXT: [[CONV:%.*]] = sext i8 [[TMP2]] to i32
	// CHECK1-NEXT: [[XOR:%.*]] = xor i32 [[CONV]], 2			// CHECK1-NEXT: [[XOR:%.*]] = xor i32 [[CONV]], 2
	// CHECK1-NEXT: [[CONV3:%.*]] = trunc i32 [[XOR]] to i8			// CHECK1-NEXT: [[CONV3:%.*]] = trunc i32 [[XOR]] to i8
	// CHECK1-NEXT: store i8 [[CONV3]], i8* [[C1]], align 1			// CHECK1-NEXT: store i8 [[CONV3]], i8* [[C1]], align 1
	▲ Show 20 Lines • Show All 992 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
	// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4			// CHECK2-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
	// CHECK2-NEXT: [[E_ADDR:%.]] = alloca double, align 4			// CHECK2-NEXT: [[E_ADDR:%.]] = alloca double, align 4
	// CHECK2-NEXT: [[DOTOMP_REDUCTION_RED_LIST:%.]] = alloca [1 x i8], align 4			// CHECK2-NEXT: [[DOTOMP_REDUCTION_RED_LIST:%.]] = alloca [1 x i8], align 4
	// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4			// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
	// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4			// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
	// CHECK2-NEXT: store double* [[E]], double** [[E_ADDR]], align 4			// CHECK2-NEXT: store double* [[E]], double** [[E_ADDR]], align 4
	// CHECK2-NEXT: [[TMP0:%.]] = load double, double** [[E_ADDR]], align 4			// CHECK2-NEXT: [[TMP0:%.]] = load double, double** [[E_ADDR]], align 4
	// CHECK2-NEXT: [[E1:%.]] = call i8 @__kmpc_alloc_shared(i32 8)			// CHECK2-NEXT: [[E1:%.]] = call align 8 i8 @__kmpc_alloc_shared(i32 8)
	// CHECK2-NEXT: [[E_ON_STACK:%.]] = bitcast i8 [[E1]] to double*			// CHECK2-NEXT: [[E_ON_STACK:%.]] = bitcast i8 [[E1]] to double*
	// CHECK2-NEXT: store double 0.000000e+00, double* [[E_ON_STACK]], align 8			// CHECK2-NEXT: store double 0.000000e+00, double* [[E_ON_STACK]], align 8
	// CHECK2-NEXT: [[TMP1:%.]] = load double, double [[E_ON_STACK]], align 8			// CHECK2-NEXT: [[TMP1:%.]] = load double, double [[E_ON_STACK]], align 8
	// CHECK2-NEXT: [[ADD:%.*]] = fadd double [[TMP1]], 5.000000e+00			// CHECK2-NEXT: [[ADD:%.*]] = fadd double [[TMP1]], 5.000000e+00
	// CHECK2-NEXT: store double [[ADD]], double* [[E_ON_STACK]], align 8			// CHECK2-NEXT: store double [[ADD]], double* [[E_ON_STACK]], align 8
	// CHECK2-NEXT: [[TMP2:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4			// CHECK2-NEXT: [[TMP2:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
	// CHECK2-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP2]], align 4			// CHECK2-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP2]], align 4
	// CHECK2-NEXT: [[TMP4:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 0			// CHECK2-NEXT: [[TMP4:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 0
	▲ Show 20 Lines • Show All 260 Lines • ▼ Show 20 Lines
	// CHECK2-NEXT: store i32 [[D]], i32* [[D_ADDR]], align 4			// CHECK2-NEXT: store i32 [[D]], i32* [[D_ADDR]], align 4
	// CHECK2-NEXT: [[CONV:%.]] = bitcast i32 [[C_ADDR]] to i8*			// CHECK2-NEXT: [[CONV:%.]] = bitcast i32 [[C_ADDR]] to i8*
	// CHECK2-NEXT: [[CONV1:%.]] = bitcast i32 [[D_ADDR]] to float*			// CHECK2-NEXT: [[CONV1:%.]] = bitcast i32 [[D_ADDR]] to float*
	// CHECK2-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 true, i1 true)			// CHECK2-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 true, i1 true)
	// CHECK2-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			// CHECK2-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	// CHECK2-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK2-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK2: user_code.entry:			// CHECK2: user_code.entry:
	// CHECK2-NEXT: [[TMP1:%.]] = load i8, i8 [[CONV]], align 4			// CHECK2-NEXT: [[TMP1:%.]] = load i8, i8 [[CONV]], align 4
	// CHECK2-NEXT: [[C2:%.]] = call i8 @__kmpc_alloc_shared(i32 1)			// CHECK2-NEXT: [[C2:%.]] = call align 1 i8 @__kmpc_alloc_shared(i32 1)
	// CHECK2-NEXT: store i8 [[TMP1]], i8* [[C2]], align 1			// CHECK2-NEXT: store i8 [[TMP1]], i8* [[C2]], align 1
	// CHECK2-NEXT: [[TMP2:%.]] = load float, float [[CONV1]], align 4			// CHECK2-NEXT: [[TMP2:%.]] = load float, float [[CONV1]], align 4
	// CHECK2-NEXT: [[D3:%.]] = call i8 @__kmpc_alloc_shared(i32 4)			// CHECK2-NEXT: [[D3:%.]] = call align 4 i8 @__kmpc_alloc_shared(i32 4)
	// CHECK2-NEXT: [[D_ON_STACK:%.]] = bitcast i8 [[D3]] to float*			// CHECK2-NEXT: [[D_ON_STACK:%.]] = bitcast i8 [[D3]] to float*
	// CHECK2-NEXT: store float [[TMP2]], float* [[D_ON_STACK]], align 4			// CHECK2-NEXT: store float [[TMP2]], float* [[D_ON_STACK]], align 4
	// CHECK2-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK2-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK2-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK2-NEXT: store i32 [[TMP3]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK2-NEXT: store i32 [[TMP3]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK2-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i8* [[C2]], float* [[D_ON_STACK]]) #[[ATTR3]]			// CHECK2-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i8* [[C2]], float* [[D_ON_STACK]]) #[[ATTR3]]
	// CHECK2-NEXT: call void @__kmpc_free_shared(i8* [[D3]], i32 4)			// CHECK2-NEXT: call void @__kmpc_free_shared(i8* [[D3]], i32 4)
	// CHECK2-NEXT: call void @__kmpc_free_shared(i8* [[C2]], i32 1)			// CHECK2-NEXT: call void @__kmpc_free_shared(i8* [[C2]], i32 1)
	Show All 12 Lines
	// CHECK2-NEXT: [[D_ADDR:%.]] = alloca float, align 4			// CHECK2-NEXT: [[D_ADDR:%.]] = alloca float, align 4
	// CHECK2-NEXT: [[DOTOMP_REDUCTION_RED_LIST:%.]] = alloca [2 x i8], align 4			// CHECK2-NEXT: [[DOTOMP_REDUCTION_RED_LIST:%.]] = alloca [2 x i8], align 4
	// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4			// CHECK2-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
	// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4			// CHECK2-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
	// CHECK2-NEXT: store i8* [[C]], i8** [[C_ADDR]], align 4			// CHECK2-NEXT: store i8* [[C]], i8** [[C_ADDR]], align 4
	// CHECK2-NEXT: store float* [[D]], float** [[D_ADDR]], align 4			// CHECK2-NEXT: store float* [[D]], float** [[D_ADDR]], align 4
	// CHECK2-NEXT: [[TMP0:%.]] = load i8, i8** [[C_ADDR]], align 4			// CHECK2-NEXT: [[TMP0:%.]] = load i8, i8** [[C_ADDR]], align 4
	// CHECK2-NEXT: [[TMP1:%.]] = load float, float** [[D_ADDR]], align 4			// CHECK2-NEXT: [[TMP1:%.]] = load float, float** [[D_ADDR]], align 4
	// CHECK2-NEXT: [[C1:%.]] = call i8 @__kmpc_alloc_shared(i32 1)			// CHECK2-NEXT: [[C1:%.]] = call align 1 i8 @__kmpc_alloc_shared(i32 1)
	// CHECK2-NEXT: [[D2:%.]] = call i8 @__kmpc_alloc_shared(i32 4)			// CHECK2-NEXT: [[D2:%.]] = call align 4 i8 @__kmpc_alloc_shared(i32 4)
	// CHECK2-NEXT: [[D_ON_STACK:%.]] = bitcast i8 [[D2]] to float*			// CHECK2-NEXT: [[D_ON_STACK:%.]] = bitcast i8 [[D2]] to float*
	// CHECK2-NEXT: store i8 0, i8* [[C1]], align 1			// CHECK2-NEXT: store i8 0, i8* [[C1]], align 1
	// CHECK2-NEXT: store float 1.000000e+00, float* [[D_ON_STACK]], align 4			// CHECK2-NEXT: store float 1.000000e+00, float* [[D_ON_STACK]], align 4
	// CHECK2-NEXT: [[TMP2:%.]] = load i8, i8 [[C1]], align 1			// CHECK2-NEXT: [[TMP2:%.]] = load i8, i8 [[C1]], align 1
	// CHECK2-NEXT: [[CONV:%.*]] = sext i8 [[TMP2]] to i32			// CHECK2-NEXT: [[CONV:%.*]] = sext i8 [[TMP2]] to i32
	// CHECK2-NEXT: [[XOR:%.*]] = xor i32 [[CONV]], 2			// CHECK2-NEXT: [[XOR:%.*]] = xor i32 [[CONV]], 2
	// CHECK2-NEXT: [[CONV3:%.*]] = trunc i32 [[XOR]] to i8			// CHECK2-NEXT: [[CONV3:%.*]] = trunc i32 [[XOR]] to i8
	// CHECK2-NEXT: store i8 [[CONV3]], i8* [[C1]], align 1			// CHECK2-NEXT: store i8 [[CONV3]], i8* [[C1]], align 1
	▲ Show 20 Lines • Show All 991 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTGLOBAL_TID__ADDR:%.]] = alloca i32, align 4
	// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4			// CHECK3-NEXT: [[DOTBOUND_TID__ADDR:%.]] = alloca i32, align 4
	// CHECK3-NEXT: [[E_ADDR:%.]] = alloca double, align 4			// CHECK3-NEXT: [[E_ADDR:%.]] = alloca double, align 4
	// CHECK3-NEXT: [[DOTOMP_REDUCTION_RED_LIST:%.]] = alloca [1 x i8], align 4			// CHECK3-NEXT: [[DOTOMP_REDUCTION_RED_LIST:%.]] = alloca [1 x i8], align 4
	// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4			// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
	// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4			// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
	// CHECK3-NEXT: store double* [[E]], double** [[E_ADDR]], align 4			// CHECK3-NEXT: store double* [[E]], double** [[E_ADDR]], align 4
	// CHECK3-NEXT: [[TMP0:%.]] = load double, double** [[E_ADDR]], align 4			// CHECK3-NEXT: [[TMP0:%.]] = load double, double** [[E_ADDR]], align 4
	// CHECK3-NEXT: [[E1:%.]] = call i8 @__kmpc_alloc_shared(i32 8)			// CHECK3-NEXT: [[E1:%.]] = call align 8 i8 @__kmpc_alloc_shared(i32 8)
	// CHECK3-NEXT: [[E_ON_STACK:%.]] = bitcast i8 [[E1]] to double*			// CHECK3-NEXT: [[E_ON_STACK:%.]] = bitcast i8 [[E1]] to double*
	// CHECK3-NEXT: store double 0.000000e+00, double* [[E_ON_STACK]], align 8			// CHECK3-NEXT: store double 0.000000e+00, double* [[E_ON_STACK]], align 8
	// CHECK3-NEXT: [[TMP1:%.]] = load double, double [[E_ON_STACK]], align 8			// CHECK3-NEXT: [[TMP1:%.]] = load double, double [[E_ON_STACK]], align 8
	// CHECK3-NEXT: [[ADD:%.*]] = fadd double [[TMP1]], 5.000000e+00			// CHECK3-NEXT: [[ADD:%.*]] = fadd double [[TMP1]], 5.000000e+00
	// CHECK3-NEXT: store double [[ADD]], double* [[E_ON_STACK]], align 8			// CHECK3-NEXT: store double [[ADD]], double* [[E_ON_STACK]], align 8
	// CHECK3-NEXT: [[TMP2:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4			// CHECK3-NEXT: [[TMP2:%.]] = load i32, i32** [[DOTGLOBAL_TID__ADDR]], align 4
	// CHECK3-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP2]], align 4			// CHECK3-NEXT: [[TMP3:%.]] = load i32, i32 [[TMP2]], align 4
	// CHECK3-NEXT: [[TMP4:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 0			// CHECK3-NEXT: [[TMP4:%.]] = getelementptr inbounds [1 x i8], [1 x i8] [[DOTOMP_REDUCTION_RED_LIST]], i32 0, i32 0
	▲ Show 20 Lines • Show All 260 Lines • ▼ Show 20 Lines
	// CHECK3-NEXT: store i32 [[D]], i32* [[D_ADDR]], align 4			// CHECK3-NEXT: store i32 [[D]], i32* [[D_ADDR]], align 4
	// CHECK3-NEXT: [[CONV:%.]] = bitcast i32 [[C_ADDR]] to i8*			// CHECK3-NEXT: [[CONV:%.]] = bitcast i32 [[C_ADDR]] to i8*
	// CHECK3-NEXT: [[CONV1:%.]] = bitcast i32 [[D_ADDR]] to float*			// CHECK3-NEXT: [[CONV1:%.]] = bitcast i32 [[D_ADDR]] to float*
	// CHECK3-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 true, i1 true)			// CHECK3-NEXT: [[TMP0:%.]] = call i32 @__kmpc_target_init(%struct.ident_t @[[GLOB1]], i8 1, i1 true, i1 true)
	// CHECK3-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1			// CHECK3-NEXT: [[EXEC_USER_CODE:%.*]] = icmp eq i32 [[TMP0]], -1
	// CHECK3-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]			// CHECK3-NEXT: br i1 [[EXEC_USER_CODE]], label [[USER_CODE_ENTRY:%.]], label [[WORKER_EXIT:%.]]
	// CHECK3: user_code.entry:			// CHECK3: user_code.entry:
	// CHECK3-NEXT: [[TMP1:%.]] = load i8, i8 [[CONV]], align 4			// CHECK3-NEXT: [[TMP1:%.]] = load i8, i8 [[CONV]], align 4
	// CHECK3-NEXT: [[C2:%.]] = call i8 @__kmpc_alloc_shared(i32 1)			// CHECK3-NEXT: [[C2:%.]] = call align 1 i8 @__kmpc_alloc_shared(i32 1)
	// CHECK3-NEXT: store i8 [[TMP1]], i8* [[C2]], align 1			// CHECK3-NEXT: store i8 [[TMP1]], i8* [[C2]], align 1
	// CHECK3-NEXT: [[TMP2:%.]] = load float, float [[CONV1]], align 4			// CHECK3-NEXT: [[TMP2:%.]] = load float, float [[CONV1]], align 4
	// CHECK3-NEXT: [[D3:%.]] = call i8 @__kmpc_alloc_shared(i32 4)			// CHECK3-NEXT: [[D3:%.]] = call align 4 i8 @__kmpc_alloc_shared(i32 4)
	// CHECK3-NEXT: [[D_ON_STACK:%.]] = bitcast i8 [[D3]] to float*			// CHECK3-NEXT: [[D_ON_STACK:%.]] = bitcast i8 [[D3]] to float*
	// CHECK3-NEXT: store float [[TMP2]], float* [[D_ON_STACK]], align 4			// CHECK3-NEXT: store float [[TMP2]], float* [[D_ON_STACK]], align 4
	// CHECK3-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])			// CHECK3-NEXT: [[TMP3:%.]] = call i32 @__kmpc_global_thread_num(%struct.ident_t @[[GLOB1]])
	// CHECK3-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4			// CHECK3-NEXT: store i32 0, i32* [[DOTZERO_ADDR]], align 4
	// CHECK3-NEXT: store i32 [[TMP3]], i32* [[DOTTHREADID_TEMP_]], align 4			// CHECK3-NEXT: store i32 [[TMP3]], i32* [[DOTTHREADID_TEMP_]], align 4
	// CHECK3-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i8* [[C2]], float* [[D_ON_STACK]]) #[[ATTR3]]			// CHECK3-NEXT: call void @__omp_outlined__1(i32* [[DOTTHREADID_TEMP_]], i32* [[DOTZERO_ADDR]], i8* [[C2]], float* [[D_ON_STACK]]) #[[ATTR3]]
	// CHECK3-NEXT: call void @__kmpc_free_shared(i8* [[D3]], i32 4)			// CHECK3-NEXT: call void @__kmpc_free_shared(i8* [[D3]], i32 4)
	// CHECK3-NEXT: call void @__kmpc_free_shared(i8* [[C2]], i32 1)			// CHECK3-NEXT: call void @__kmpc_free_shared(i8* [[C2]], i32 1)
	Show All 12 Lines
	// CHECK3-NEXT: [[D_ADDR:%.]] = alloca float, align 4			// CHECK3-NEXT: [[D_ADDR:%.]] = alloca float, align 4
	// CHECK3-NEXT: [[DOTOMP_REDUCTION_RED_LIST:%.]] = alloca [2 x i8], align 4			// CHECK3-NEXT: [[DOTOMP_REDUCTION_RED_LIST:%.]] = alloca [2 x i8], align 4
	// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4			// CHECK3-NEXT: store i32* [[DOTGLOBAL_TID_]], i32** [[DOTGLOBAL_TID__ADDR]], align 4
	// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4			// CHECK3-NEXT: store i32* [[DOTBOUND_TID_]], i32** [[DOTBOUND_TID__ADDR]], align 4
	// CHECK3-NEXT: store i8* [[C]], i8** [[C_ADDR]], align 4			// CHECK3-NEXT: store i8* [[C]], i8** [[C_ADDR]], align 4
	// CHECK3-NEXT: store float* [[D]], float** [[D_ADDR]], align 4			// CHECK3-NEXT: store float* [[D]], float** [[D_ADDR]], align 4
	// CHECK3-NEXT: [[TMP0:%.]] = load i8, i8** [[C_ADDR]], align 4			// CHECK3-NEXT: [[TMP0:%.]] = load i8, i8** [[C_ADDR]], align 4
	// CHECK3-NEXT: [[TMP1:%.]] = load float, float** [[D_ADDR]], align 4			// CHECK3-NEXT: [[TMP1:%.]] = load float, float** [[D_ADDR]], align 4
	// CHECK3-NEXT: [[C1:%.]] = call i8 @__kmpc_alloc_shared(i32 1)			// CHECK3-NEXT: [[C1:%.]] = call align 1 i8 @__kmpc_alloc_shared(i32 1)
	// CHECK3-NEXT: [[D2:%.]] = call i8 @__kmpc_alloc_shared(i32 4)			// CHECK3-NEXT: [[D2:%.]] = call align 4 i8 @__kmpc_alloc_shared(i32 4)
	// CHECK3-NEXT: [[D_ON_STACK:%.]] = bitcast i8 [[D2]] to float*			// CHECK3-NEXT: [[D_ON_STACK:%.]] = bitcast i8 [[D2]] to float*
	// CHECK3-NEXT: store i8 0, i8* [[C1]], align 1			// CHECK3-NEXT: store i8 0, i8* [[C1]], align 1
	// CHECK3-NEXT: store float 1.000000e+00, float* [[D_ON_STACK]], align 4			// CHECK3-NEXT: store float 1.000000e+00, float* [[D_ON_STACK]], align 4
	// CHECK3-NEXT: [[TMP2:%.]] = load i8, i8 [[C1]], align 1			// CHECK3-NEXT: [[TMP2:%.]] = load i8, i8 [[C1]], align 1
	// CHECK3-NEXT: [[CONV:%.*]] = sext i8 [[TMP2]] to i32			// CHECK3-NEXT: [[CONV:%.*]] = sext i8 [[TMP2]] to i32
	// CHECK3-NEXT: [[XOR:%.*]] = xor i32 [[CONV]], 2			// CHECK3-NEXT: [[XOR:%.*]] = xor i32 [[CONV]], 2
	// CHECK3-NEXT: [[CONV3:%.*]] = trunc i32 [[XOR]] to i8			// CHECK3-NEXT: [[CONV3:%.*]] = trunc i32 [[XOR]] to i8
	// CHECK3-NEXT: store i8 [[CONV3]], i8* [[C1]], align 1			// CHECK3-NEXT: store i8 [[CONV3]], i8* [[C1]], align 1
	▲ Show 20 Lines • Show All 962 Lines • Show Last 20 Lines

llvm/lib/Transforms/IPO/AttributorAttributes.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 5,922 Lines • ▼ Show 20 Lines	for (auto &It : AllocationInfos) {
IRBuilder<> B(AI.CB);		IRBuilder<> B(AI.CB);
Size = B.CreateMul(Num, SizeT, "h2s.calloc.size");		Size = B.CreateMul(Num, SizeT, "h2s.calloc.size");
} else if (AI.Kind == AllocationInfo::AllocationKind::ALIGNED_ALLOC) {		} else if (AI.Kind == AllocationInfo::AllocationKind::ALIGNED_ALLOC) {
Size = AI.CB->getOperand(1);		Size = AI.CB->getOperand(1);
} else {		} else {
Size = AI.CB->getOperand(0);		Size = AI.CB->getOperand(0);
}		}

Align Alignment(1);		Align Alignment(1);
		tschuettUnsubmitted Not Done Reply Inline Actions Would a comment help to explain what the hard-coded 16 means? tschuett: Would a comment help to explain what the hard-coded 16 means?
if (AI.Kind == AllocationInfo::AllocationKind::ALIGNED_ALLOC) {		if (AI.Kind == AllocationInfo::AllocationKind::ALIGNED_ALLOC) {
Optional<APInt> AlignmentAPI =		Optional<APInt> AlignmentAPI =
getAPInt(A, this, AI.CB->getArgOperand(0));		getAPInt(A, this, AI.CB->getArgOperand(0));
assert(AlignmentAPI.hasValue() &&		assert(AlignmentAPI.hasValue() &&
"Expected an alignment during manifest!");		"Expected an alignment during manifest!");
Alignment =		Alignment =
max(Alignment, MaybeAlign(AlignmentAPI.getValue().getZExtValue()));		max(Alignment, MaybeAlign(AlignmentAPI.getValue().getZExtValue()));
		} else if (MaybeAlign RetAlign = AI.CB->getRetAlign()) {
		Alignment = max(Alignment, RetAlign);
		jdoerfertUnsubmitted Not Done Reply Inline Actions This is sensible but needs a test. You can even do it without the else for all allocations. With the proposed changes above alloc_shared would also fall into the aligned_alloc case. jdoerfert: This is sensible but needs a test. You can even do it without the else for all allocations.
		jhuber6AuthorUnsubmitted Done Reply Inline Actions Yes, we want this regardless because all `malloc` like calls now seem to have alignment attributes, which makes sure we respect the alignment of the original malloc call. I can probably split this into another patch. jhuber6: Yes, we want this regardless because all `malloc` like calls now seem to have alignment…
}		}

unsigned AS = cast<PointerType>(AI.CB->getType())->getAddressSpace();		unsigned AS = cast<PointerType>(AI.CB->getType())->getAddressSpace();
Instruction *Alloca =		Instruction *Alloca =
new AllocaInst(Type::getInt8Ty(F->getContext()), AS, Size, Alignment,		new AllocaInst(Type::getInt8Ty(F->getContext()), AS, Size, Alignment,
"", AI.CB->getNextNode());		"", AI.CB->getNextNode());

if (Alloca->getType() != AI.CB->getType())		if (Alloca->getType() != AI.CB->getType())
▲ Show 20 Lines • Show All 4,002 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[Attributor][Fix] Add alignment return attribute to HeapToStackClosedPublic

Details

Diff Detail

Unit TestsFailed

Event Timeline

Revision Contents

Diff 395023

clang/lib/CodeGen/CGOpenMPRuntimeGPU.cpp

clang/test/OpenMP/declare_target_codegen_globalization.cpp

clang/test/OpenMP/nvptx_data_sharing.cpp

clang/test/OpenMP/nvptx_distribute_parallel_generic_mode_codegen.cpp

clang/test/OpenMP/nvptx_parallel_codegen.cpp

clang/test/OpenMP/nvptx_parallel_for_codegen.cpp

clang/test/OpenMP/nvptx_target_codegen.cpp

clang/test/OpenMP/nvptx_target_parallel_reduction_codegen_tbaa_PR46146.cpp

clang/test/OpenMP/nvptx_target_teams_distribute_codegen.cpp

clang/test/OpenMP/nvptx_target_teams_distribute_parallel_for_codegen.cpp

clang/test/OpenMP/nvptx_target_teams_distribute_parallel_for_simd_codegen.cpp

clang/test/OpenMP/nvptx_teams_codegen.cpp

clang/test/OpenMP/nvptx_teams_reduction_codegen.cpp

llvm/lib/Transforms/IPO/AttributorAttributes.cpp

[Attributor][Fix] Add alignment return attribute to HeapToStack
ClosedPublic