This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
lib/CodeGen/
-
CodeGen/
-
CGOpenMPRuntimeNVPTX.h
2/3
CGOpenMPRuntimeNVPTX.cpp
-
test/OpenMP/
-
OpenMP/
-
nvptx_data_sharing.cpp
-
nvptx_parallel_codegen.cpp
-
nvptx_target_teams_codegen.cpp

Differential D38976

[OpenMP] Add implicit data sharing support when offloading to NVIDIA GPUs using OpenMP device offloading
ClosedPublic

Authored by gtbercea on Oct 16 2017, 2:21 PM.

Download Raw Diff

Details

Reviewers

hfinkel
carlo.bertolli
arpith-jacob
Hahnfeld
ABataev
caomhin

Commits

rGeb89b1d46f1e: [OpenMP] Add implicit data sharing support when offloading to NVIDIA GPUs using…
rC318773: [OpenMP] Add implicit data sharing support when offloading to NVIDIA GPUs using…
rL318773: [OpenMP] Add implicit data sharing support when offloading to NVIDIA GPUs using…

Summary

This patch is part of the development effort to add support in the current OpenMP GPU offloading implementation for implicitly sharing variables between a target region executed by the team master thread and the worker threads within that team.

This patch is the first of three required for successfully performing the implicit sharing of master thread variables with the worker threads within a team. The remaining two patches are:

Patch D38978 to the LLVM NVPTX backend which ensures the lowering of shared variables to an device memory which allows the sharing of references;
Patch (coming soon) is a patch to libomptarget runtime library which ensures that a list of references to shared variables is properly maintained.

A simple code snippet which illustrates an implicit data sharing situation is as follows:

#pragma omp target
{
   // master thread only
   int v;
   #pragma omp parallel
   {
      // worker threads
      // use v
   }
}

Variable v is implicitly shared from the team master thread which executes the code in between the target and parallel directives. The worker threads must operate on the latest version of v, including any updates performed by the master.

The code generated in this patch relies on the LLVM NVPTX patch (mentioned above) which prevents v from being lowered in the thread local memory of the master thread thus making the reference to this variable un-shareable with the workers. This ensures that the code generated by this patch is correct.
Since the parallel region is outlined the passing of arguments to the outlined regions must preserve the original order of arguments. The runtime therefore maintains a list of references to shared variables thus ensuring their passing in the correct order. The passing of arguments to the outlined parallel function is performed in a separate function which the data sharing infrastructure constructs in this patch. The function is inlined when optimizations are enabled.

Diff Detail

Build Status

Buildable 11817
Build 11817: arc lint + arc unit

Event Timeline

gtbercea created this revision.Oct 16 2017, 2:21 PM

Herald added a subscriber: jholewinski. · View Herald TranscriptOct 16 2017, 2:21 PM

gtbercea mentioned this in D38978: [OpenMP] Enable the lowering of implicitly shared variables in OpenMP GPU-offloaded target regions to the GPU shared memory.Oct 16 2017, 2:29 PM

gtbercea edited the summary of this revision. (Show Details)

This revision is now accepted and ready to land.Nov 3 2017, 12:38 PM

Hahnfeld added inline comments.Nov 3 2017, 12:48 PM

lib/CodeGen/CGOpenMPRuntimeNVPTX.cpp
2393	Is this meant to be a comment or should there be something happening here?
2396	Especially, `NextBB` can never be anything else than `nullptr`...

gtbercea updated this revision to Diff 121538.Nov 3 2017, 1:24 PM

gtbercea marked 2 inline comments as done.

Remove blocks.

lib/CodeGen/CGOpenMPRuntimeNVPTX.cpp
474	Later we should remove it from the code.

gtbercea closed this revision.Nov 21 2017, 7:55 AM

Revision Contents

Path

Size

lib/

CodeGen/

CGOpenMPRuntimeNVPTX.h

11 lines

CGOpenMPRuntimeNVPTX.cpp

194 lines

test/

OpenMP/

nvptx_data_sharing.cpp

52 lines

nvptx_parallel_codegen.cpp

22 lines

nvptx_target_teams_codegen.cpp

4 lines

Commit	Tree	Parents	Author	Summary	Date
5cf7556ed21a	82bcdd9a9b92	687bd291e8ca	Doru Bercea	Remove empty block generation.	Nov 3 2017, 1:44 PM
687bd291e8ca	0e5ddffabcab	138d8115be8a	Doru Bercea	Remove unused blocks from emit parallelism function.	Nov 3 2017, 1:17 PM
138d8115be8a	31cce2afddad	08f197dc3de1 40df0cb905bc	Doru Bercea	Merge branch 'unpatched-master' into patch8-9	Oct 16 2017, 1:36 PM
08f197dc3de1	484b77abac87	ceb1391f4a9f 76e3b8994233	Doru Bercea	Merge remote-tracking branch 'ibm/unpatched-master' into patch8-9	Oct 10 2017, 7:34 AM
ceb1391f4a9f	140165cc814b	240375a38f1a	Doru Bercea	Fix comments.	Oct 3 2017, 11:23 AM
240375a38f1a	26510205d635	eaae9cf01184	Doru Bercea	Make wrapper function creation private.	Oct 3 2017, 11:18 AM
eaae9cf01184	bf370ed5052e	ca61b57003a7	Doru Bercea	Address comments.	Oct 3 2017, 9:33 AM
ca61b57003a7	042f06df03f7	66dd77e1f381	Doru Bercea	Fix.	Oct 2 2017, 3:42 PM
66dd77e1f381	d85c02216d73	9ec6b3517847	Doru Bercea	Delete param kernel check.	Oct 2 2017, 3:31 PM
9ec6b3517847	5d442c569603	a3065040814d c2fcd62274d7	Doru Bercea	Merge branch 'unpatched-master' into patch8-9	Oct 2 2017, 1:33 PM
a3065040814d	b76de16fa3c8	0f50ae01fdac	Doru Bercea	Fix wrapper function call. Fix implicit argument construction.	Oct 2 2017, 1:29 PM
0f50ae01fdac	752511d2ee2c	174831a0bc78	Doru Bercea	Add data sharing regression test.	Sep 29 2017, 1:27 PM
174831a0bc78	157a81c91434	5fe32529782a	Doru Bercea	Fix existing test.	Sep 29 2017, 1:14 PM
5fe32529782a	a38f04f14584	38589197a283	Doru Bercea	Fix test.	Sep 29 2017, 12:58 PM
38589197a283	38d1e021205b	b1219f6ee211 87d985aec946	Doru Bercea	Merge branch 'unpatched-master' into patch8-9	Sep 27 2017, 2:35 PM
b1219f6ee211	882ce5800241	94635c1b2591 d80dab7c4537	Doru Bercea	Merge branch 'unpatched-master' into patch8-9 (Show More…)	Sep 27 2017, 11:02 AM
94635c1b2591	26bb2276427f	1ee4e9bb0dce	Doru Bercea	Clean-up code.	Sep 25 2017, 1:42 PM
1ee4e9bb0dce	6fec2f4f3a78	69d4b170708a 0ec473901df0	Doru Bercea	Merge branch 'patch8-8' into patch8-9	Sep 25 2017, 12:48 PM
0ec473901df0	8e88fb0eb253	a1b2afd8b33e 714cc91507fd	Doru Bercea	Merge branch 'patch8-8-3' into patch8-8	Sep 25 2017, 12:48 PM
714cc91507fd	b5ba967d8d7c	fd0af37a82f1 59e250bab79a	Doru Bercea	Merge branch 'patch8-8-2' into patch8-8-3	Sep 25 2017, 12:47 PM
59e250bab79a	b1177334d271	49337b204ec1 1b44abc8384c	Doru Bercea	Merge branch 'patch8-8-1' into patch8-8-2	Sep 25 2017, 12:47 PM
1b44abc8384c	7a903441f438	0f5bd43c72a3 0e312680f153	Doru Bercea	Merge branch 'unpatched-master' into patch8-8-1	Sep 25 2017, 12:44 PM
69d4b170708a	c72d084662f4	2ad29029e8ed	Doru Bercea	Apply more fixes.	Sep 25 2017, 12:19 PM
2ad29029e8ed	b7086fa03cc6	5dcce71c3c58	Doru Bercea	Latest changes.	Sep 20 2017, 11:05 AM
a1b2afd8b33e	9b0e88a71c27	4b113072cc85	Doru Bercea	Fix.	Sep 19 2017, 6:20 PM
4b113072cc85	bdfe6c55fe18	e52ef04d9b96 fd0af37a82f1	Doru Bercea	Fix.	Sep 19 2017, 6:19 PM
fd0af37a82f1	51d891e0f8ab	846db62f13c1	Doru Bercea	Fix test.	Sep 19 2017, 6:09 PM
846db62f13c1	4fa3ae4bd9b1	e1b6f98dd044 49337b204ec1	Doru Bercea	Merge branch 'patch8-8-2' into patch8-8-3	Sep 19 2017, 6:06 PM
49337b204ec1	9eac0a3bc419	25cb1e9b003e	Doru Bercea	Fix.	Sep 19 2017, 6:03 PM
25cb1e9b003e	a13dc4d5483c	275fc2d74afc 0f5bd43c72a3	Doru Bercea	Merge branch 'patch8-8-1' into patch8-8-2 (Show More…)	Sep 19 2017, 5:57 PM
0f5bd43c72a3	5f17d6cdeeab	542fe8dba2a6	Doru Bercea	Fix.	Sep 19 2017, 5:50 PM
5dcce71c3c58	b90648bce14b	4229ffeadba2	Gheorghe-Teod Bercea	Add some of Alexey's comments.	Sep 19 2017, 2:35 PM
4229ffeadba2	4b54c599d5a2	838ca62ffce0	Doru Bercea	Clean-up	Sep 19 2017, 7:36 AM
838ca62ffce0	66663e9b9ae8	b5558fce7140 e52ef04d9b96	Doru Bercea	Merge branch 'patch8-8' into patch8-9	Sep 19 2017, 7:35 AM
e52ef04d9b96	d1dc95608fb0	a1dee49a16b3 e1b6f98dd044	Doru Bercea	Merge branch 'patch8-8-3' into patch8-8	Sep 19 2017, 7:34 AM
e1b6f98dd044	0423bd3b8363	275fc2d74afc	Doru Bercea	Add map test.	Sep 19 2017, 7:33 AM
b5558fce7140	66663e9b9ae8	cde76de3dadb	Doru Bercea	Clean-up	Sep 19 2017, 7:20 AM
cde76de3dadb	67d1b073b247	4007df50bf5b	Doru Bercea	Delete unused ptx version setter flag.	Sep 18 2017, 2:57 PM
4007df50bf5b	d58a2b47a1b1	3aa37e39c688 a1dee49a16b3	Doru Bercea	Merge branch 'patch8-8' into patch8-9	Sep 18 2017, 1:33 PM
a1dee49a16b3	845a2dbf2290	d6f756f02e4a	Doru Bercea	Fix.	Sep 18 2017, 11:47 AM
d6f756f02e4a	5d30d7cefe59	3297a11f3b13	Doru Bercea	Fix.	Sep 18 2017, 11:46 AM
3297a11f3b13	888580fd9dbc	9ca0db9e8b66 275fc2d74afc	Doru Bercea	Update	Sep 18 2017, 11:38 AM
275fc2d74afc	308bc3fa1d9b	7d07f6e37ae5	Doru Bercea	fix	Sep 18 2017, 11:25 AM
7d07f6e37ae5	7bd3cd6ef350	c9d692d84266	Doru Bercea	Fix no cudalib flag passing.	Sep 18 2017, 11:20 AM
542fe8dba2a6	02a0be29d4d6	e0ddabf46c5f	Doru Bercea	Fix file name	Sep 18 2017, 9:13 AM
c9d692d84266	b0a46f02575e	1690d0bd589e	Doru Bercea	Fix file name	Sep 18 2017, 9:12 AM
9ca0db9e8b66	c4a819935384	d5d8fe3f534a	Doru Bercea	Fix file name.	Sep 18 2017, 9:06 AM
d5d8fe3f534a	5b326702cb97	c214daad4afd	Doru Bercea	Fix file name.	Sep 18 2017, 8:33 AM
c214daad4afd	e43306ff0639	c48ddff0af84	Doru Bercea	Fix.	Sep 15 2017, 2:42 PM
c48ddff0af84	f78186c0495a	838394dda0a5	Doru Bercea	Fix test.	Sep 15 2017, 2:35 PM
e0ddabf46c5f	d9acdb8a7e43	cde98b84124f	Doru Bercea	Fix tests.	Sep 15 2017, 2:28 PM
1690d0bd589e	53f65d9e5496	873bdd1aa9a8	Doru Bercea	Fix cubin tests.	Sep 15 2017, 2:26 PM
838394dda0a5	7bc0a48cc79f	3369e7cbd347	Doru Bercea	Add test.	Sep 15 2017, 2:24 PM
3369e7cbd347	3c12c5031714	c3a13bb675d0	Doru Bercea	Fix.	Sep 15 2017, 1:41 PM
c3a13bb675d0	f626366d968f	5dad6a0dcee6	Doru Bercea	Fix.	Sep 15 2017, 11:57 AM
5dad6a0dcee6	94e5baa8dd01	98e6b05fa4bb	Doru Bercea	Contract check.	Sep 15 2017, 11:50 AM
873bdd1aa9a8	a9a706345cfd	cde98b84124f	Doru Bercea	Enable nocudalib flag.	Sep 15 2017, 11:31 AM
cde98b84124f	f13b4e120102	98e6b05fa4bb	Doru Bercea	Fix.	Sep 15 2017, 10:59 AM
98e6b05fa4bb	653d5388ae31	503a94283df5 a792780cf2a3	Doru Bercea	Merge branch 'unpatched-master' into patch8-8	Sep 15 2017, 10:17 AM
3aa37e39c688	f303319de3f0	dd85ccc86d0f 503a94283df5	Doru Bercea	Merge branch 'patch8-8' into patch8-9	Sep 15 2017, 10:15 AM
503a94283df5	17e3e69ebb83	92a6b9153cbb 1af16988a373	Doru Bercea	Merge branch 'unpatched-master' into patch8-8	Sep 15 2017, 10:14 AM
92a6b9153cbb	d07f4ae678b0	ad0a0bda3925	Doru Bercea	Move flag checks inside libdevice check.	Sep 14 2017, 8:17 AM
dd85ccc86d0f	8aaf6d88c22b	f3bb5c2d2ca4 ad0a0bda3925	Doru Bercea	Merge branch 'patch8-8' into patch8-9	Sep 13 2017, 8:31 AM
ad0a0bda3925	f4138e541f54	945325f1f092 8a058429f72e	Doru Bercea	Merge branch 'unpatched-master' into patch8-8	Sep 13 2017, 8:30 AM
945325f1f092	201c6792d598	ae35a46f9356	Doru Bercea	Fix path to cubin when -save-temps is not passed.	Aug 21 2017, 4:22 PM
ae35a46f9356	ca15d2ab39fb	fd4fde205b93 987a86cd11ac	Doru Bercea	Merge branch 'unpatched-master' into patch8-8	Aug 21 2017, 2:56 PM
f3bb5c2d2ca4	1a25e6ade098	e3d23cb5b055 fd4fde205b93	Doru Bercea	Merge branch 'patch8-8' into patch8-9	Aug 16 2017, 1:12 PM
fd4fde205b93	1635ba61fbfb	e093f019432b	Doru Bercea	Don't look for cuda lib when compiling with -S and -c.	Aug 16 2017, 1:11 PM
e3d23cb5b055	01642430747f	187a725829c7	Doru Bercea	Fix call to ImplicitParamDecl constructor.	Aug 15 2017, 2:25 PM
187a725829c7	6d0114ab0848	e093f019432b f3811c89b2c7	Doru Bercea	Merge branch 'v3' into patch8-9 (Show More…)	Aug 15 2017, 1:46 PM
e093f019432b	dec9e1d09db3	03084050974a	Doru Bercea	Make sure nocudalib flag is respected.	Aug 15 2017, 12:28 PM
03084050974a	bac92635e224	bcea2b15f3c0 5280dab80aa7	Doru Bercea	Merge remote-tracking branch 'ibm/unpatched-master' into patch8-8	Aug 15 2017, 10:32 AM
bcea2b15f3c0	a01c1f115c73	09474c5359bb	Doru Bercea	Move flag patch tests to gpu offloading.	Aug 11 2017, 2:09 PM
09474c5359bb	295e17e11c93	2f24ad2cd7a1	Doru Bercea	Fixes.	Aug 11 2017, 2:04 PM
2f24ad2cd7a1	61dded6fac18	1b1e48f006a7 078b7e8f1ede	Doru Bercea	Merge branch 'unpatched-master' into patch8-8	Aug 11 2017, 1:20 PM
1b1e48f006a7	5842680d6878	655ed700be6d	Doru Bercea	Save the current hanges	Aug 11 2017, 1:16 PM
655ed700be6d	bdf669f71c70	fadfd5aaf6b6 58f82409fac6	Doru Bercea	Merge branch 'unpatched-master' into patch8-8	Aug 11 2017, 8:51 AM
fadfd5aaf6b6	165a9ccd278c	850fa68f795c 69a6da714c0a	Doru Bercea	Merge branch 'unpatched-master' into patch8-8	Aug 11 2017, 8:30 AM
850fa68f795c	33ea63300396	026064557684	Doru Bercea	Add GPU offloading tests in a separate file.	Aug 11 2017, 8:08 AM
026064557684	a1b18ab30ed1	a01ff11275a4	Doru Bercea	Enable compute capability search.	Aug 10 2017, 6:12 PM
a01ff11275a4	f3159a6ca56d	9628e540afb2	Gheorghe-Teodor Bercea	LLVM-LIT mangles file names.	Aug 10 2017, 5:41 PM
9628e540afb2	0b79ad6d8096	0ec685dc7d20	Doru Bercea	Enable everything.	Aug 10 2017, 5:06 PM
0ec685dc7d20	b887b3336f5d	576d8a933f77	Doru Bercea	Remove unreachable.	Aug 10 2017, 4:34 PM
576d8a933f77	fff7ba2fe940	2f11b5eb4618	Doru Bercea	Enable offload tests.	Aug 10 2017, 4:20 PM
2f11b5eb4618	b949ab0bc33b	2644ac123b8d f7558e5102a0	Doru Bercea	Merge branch 'unpatched-master' into patch8-8 (Show More…)	Aug 10 2017, 2:08 PM
2644ac123b8d	f485469c4955	5ac7e668c35c	Doru Bercea	Add early exit once no libdevice libs are detected.	Aug 10 2017, 1:38 PM
5ac7e668c35c	615f87130845	798b3c618dbc 15af0ebfc46e	Doru Bercea	Merge branch npatched-master' into patch8-8	Aug 10 2017, 9:48 AM
798b3c618dbc	6ec6efe740d0	836fde0ac478	Doru Bercea	Fix tests.	Aug 10 2017, 9:46 AM
836fde0ac478	f603dbc59dec	184cdf1dd805	Doru Bercea	Fix tests.	Aug 10 2017, 9:39 AM
184cdf1dd805	5d5a4f888a0b	2a9b2712d81b a545c71ca54c	Doru Bercea	Merge branch 'patch8-6' into patch8-8	Aug 10 2017, 7:23 AM
a545c71ca54c	d8172c8a5942	23246d26488a 00186ef1f9bf	Doru Bercea	Merge branch 'unpatched-master' into patch8-6	Aug 10 2017, 7:21 AM
2a9b2712d81b	5f3eb9d31861	1ede13a1a3be 442874b97b7d	Doru Bercea	Merge branch 'unpatched-master' into patch8-8	Aug 9 2017, 9:48 PM
1ede13a1a3be	187085a022c9	5d0b1c53170d	Doru Bercea	Fix tests.	Aug 9 2017, 9:46 PM
5d0b1c53170d	2bbd4cd4e732	a6ad815539ea c0edc1569159	Doru Bercea	Merge branch 'unpatched-master' into patch8-8 (Show More…)	Aug 9 2017, 4:38 PM
a6ad815539ea	27c57abdb54b	75921481dd54	Doru Bercea	Fix test.	Aug 9 2017, 4:36 PM
75921481dd54	867e54deb171	3f3304f956a3	Doru Bercea	Fix test.	Aug 9 2017, 1:49 PM
3f3304f956a3	b6282c0528de	3575f137965f 16c706343503	Doru Bercea	Merge branch 'unpatched-master' into patch8-8	Aug 9 2017, 12:57 PM
3575f137965f	b6282c0528de	79bc5ac6d544 1ba8f524f713	Doru Bercea	Merge branch 'unpatched-master' into patch8-8	Aug 9 2017, 12:42 PM
79bc5ac6d544	9498ac346922	23246d26488a	Doru Bercea	Find executables in driver directory.	Aug 9 2017, 11:42 AM
23246d26488a	bc100547ad11	b5a366a7d6a8 c06b6e025b2c	Doru Bercea	Merge branch 'unpatched-master' into patch8-6	Aug 9 2017, 11:27 AM
b5a366a7d6a8	bc100547ad11	239e681cbb84	Doru Bercea	Fix test to make it generic enough to run on different archs.	Aug 9 2017, 11:19 AM
239e681cbb84	a8a0113c75cd	2fad13153926	Doru Bercea	Fix test to make it generic enough to run on different archs.	Aug 9 2017, 11:10 AM
2fad13153926	780d96e16551	e2b573043d3e 7984a2104f88	Doru Bercea	Merge branch 'unpatched-master' into patch8-6	Aug 9 2017, 9:01 AM
e2b573043d3e	780d96e16551	e5026e160899	Doru Bercea	Fix test.	Aug 9 2017, 8:47 AM
e5026e160899	de29adf6a089	bf0a5aef6ca0	Doru Bercea	Pass ptx flag to openmp target.	Aug 9 2017, 8:39 AM
bf0a5aef6ca0	982ac3fe41f1	dde254a3dd2f 0420738bf55d	Doru Bercea	Merge branch 'unpatched-master' into patch8-5	Aug 9 2017, 8:31 AM
dde254a3dd2f	c74aad5331b9	eea585bab11e	Doru Bercea	Enables the disabling of relocatable default code gen.	Aug 9 2017, 8:12 AM
eea585bab11e	8e65352367c8	37337b6d7337 0e9a73558bc6	Doru Bercea	Merge branch 'patch8-3' into patch8-4	Aug 9 2017, 8:01 AM
0e9a73558bc6	8e65352367c8	e47fd15ccb11 477550e0ffcf	Doru Bercea	Merge branch 'unpatched-master' into patch8-3	Aug 9 2017, 8:01 AM
37337b6d7337	6b76533c6ebd	140f507a1eb7 82579b76c61e	Doru Bercea	Merge branch 'unpatched-master' into patch8-4	Aug 7 2017, 2:13 PM
140f507a1eb7	6b76533c6ebd	ea35a25b7409 8d6e5d9647a0	Doru Bercea	Merge branch 'unpatched-master' into patch8-4	Aug 7 2017, 2:00 PM
ea35a25b7409	6b76533c6ebd	fe52fbbe8bf5 e47fd15ccb11	Doru Bercea	Merge branch 'patch8-3' into patch8-4	Aug 7 2017, 2:00 PM
e47fd15ccb11	9ae4478017f6	914ef36c9e24 ef2aa4f14509	Doru Bercea	Merge branch 'unpatched-master' into patch8-3	Aug 7 2017, 1:55 PM
914ef36c9e24	35947fbad302	f403533ecfaf 0ba6400cafee	Doru Bercea	Merge branch 'unpatched-master' into patch8-3	Aug 7 2017, 1:33 PM
f403533ecfaf	35947fbad302	cb0d4d7b43c9 35165e08d782	Doru Bercea	Merge branch 'patch8-2' into patch8-3	Aug 7 2017, 1:33 PM
35165e08d782	ef54ef37792a	880dc27d981e d73b9aac8050	Doru Bercea	Merge branch 'unpatched-master' into patch8-2	Aug 7 2017, 1:29 PM
880dc27d981e	3753394a6208	a02ae99a8837	Doru Bercea	Fix test flag.	Aug 7 2017, 1:26 PM
a02ae99a8837	dc990d347c69	cbbe1de541bf d3e3cbe1a74d	Doru Bercea	Merge branch 'unpatched-master' into patch8-2	Aug 7 2017, 1:23 PM
cbbe1de541bf	dc990d347c69	d54f5d8e6434 b911b0595b5b	Doru Bercea	Merge branch 'patch8-1' into patch8-2	Aug 7 2017, 1:22 PM
b911b0595b5b	15526026b780	3db58821c128 e617862d3160	Doru Bercea	Merge branch 'unpatched-master' into patch8-1 (Show More…)	Aug 7 2017, 1:08 PM
fe52fbbe8bf5	f7bad0ddea1e	cb0d4d7b43c9	Doru Bercea	Invalid target error.	Aug 7 2017, 8:18 AM
cb0d4d7b43c9	cc3f7f651ed9	d54f5d8e6434	Doru Bercea	Prevent emission of exception handling code.	Aug 7 2017, 8:14 AM
d54f5d8e6434	3aa38393035b	3db58821c128	Doru Bercea	Make code relocatable.	Aug 7 2017, 8:07 AM
3db58821c128	0baa7cf37a4d	b2eebeaa39ef	Doru Bercea	Add -v flag.	Aug 7 2017, 8:04 AM
b2eebeaa39ef	b5982a2b7ac2	58f17851c627 c133d9a63e6a	Doru Bercea	Merge branch 'patch7-1' into patch8	Aug 7 2017, 7:33 AM
c133d9a63e6a	c0e418a55e06	cd90aa271f44 f9faef8fd4d1	Doru Bercea	Merge branch 'unpatched-master' into patch7-1	Aug 7 2017, 7:33 AM
cd90aa271f44	ac1ce2e87cfd	42f6f1533147	Doru Bercea	Fix tests.	Aug 7 2017, 7:27 AM
58f17851c627	c21b146b1edf	9acfde518e12	Doru Bercea	Fix march flag value.	Aug 6 2017, 2:41 PM
9acfde518e12	cf9a9bcabefe	d53fae72e822 42f6f1533147	Doru Bercea	Merge branch 'patch7-1' into patch8	Aug 6 2017, 2:36 PM
42f6f1533147	cb942a3cba5a	7f39b5465baf	Doru Bercea	Fix march special casing.	Aug 6 2017, 2:36 PM
d53fae72e822	e6b30edf9cb6	e543e1a224b8 7f39b5465baf	Doru Bercea	Merge branch 'patch7-1' into patch8	Aug 6 2017, 2:19 PM
7f39b5465baf	51668b96ee5d	c350f62a2966	Doru Bercea	Fix tests.	Aug 6 2017, 2:18 PM
e543e1a224b8	924c6650c9aa	4da865019785 c350f62a2966	Doru Bercea	Merge branch 'patch7-1' into patch8 (Show More…)	Aug 6 2017, 1:53 PM
c350f62a2966	fa83a36fee0e	0ca2d2e570e0	Doru Bercea	Add tests for the errors.	Aug 6 2017, 1:50 PM
4da865019785	7fc08445a74e	a498ed5f28b1 0ca2d2e570e0	Doru Bercea	Merge branch 'patch7-1' into patch8	Aug 6 2017, 1:05 PM
0ca2d2e570e0	9e00ea84dc65	36aca3e9534c	Doru Bercea	Only pass one march to toolchain.	Aug 6 2017, 1:05 PM
a498ed5f28b1	8cad7f9dd5f2	4ee58dab5380 36aca3e9534c	Doru Bercea	Merge branch 'patch7-1' into patch8	Aug 6 2017, 12:49 PM
36aca3e9534c	3b278c7f5699	f0d9136e264e	Doru Bercea	Redo Arch test.	Aug 6 2017, 12:48 PM
4ee58dab5380	9bee9dd3513a	7095a2a7fcdf f0d9136e264e	Doru Bercea	Merge branch 'patch7-1' into patch8 (Show More…)	Aug 6 2017, 12:37 PM
f0d9136e264e	0e591d1050f1	cd3fdf71b9f7	Doru Bercea	Don't treat march differently.	Aug 6 2017, 12:32 PM
cd3fdf71b9f7	6742fe24e5ba	f189081a9b57	Doru Bercea	Don't exclude flags when host matches offload toolchain.	Aug 5 2017, 5:33 PM
f189081a9b57	48ba54dfd8df	7ba7466c673a	Doru Bercea	New way to handle OpenMP target flags.	Aug 5 2017, 4:36 PM
7095a2a7fcdf	b878efb11173	907f3406a32d	Doru Bercea	Fix OpenMP target specific translation.	Aug 5 2017, 4:14 PM
907f3406a32d	3095c99245ee	0d91e8dc8672	Doru Bercea	Add Hal's suggestions.	Aug 5 2017, 2:10 PM
0d91e8dc8672	7ea6650a3415	8f2d461b3236 7ba7466c673a	Doru Bercea	Merge branch 'patch7-1' into patch8	Jul 10 2017, 4:16 PM
7ba7466c673a	1e5ad828ff4f	8c98493a3105 dc3817f04345	Doru Bercea	Merge branch 'unpatched-master' into patch7-1	Jul 10 2017, 4:10 PM
8c98493a3105	c6fe206e5472	e49b628b9b30	Doru Bercea	Pass arch to CUDA toolchain.	Jul 10 2017, 4:08 PM
8f2d461b3236	45788800826c	b913ae765d49	Doru Bercea	Add cubin.	Jul 10 2017, 4:03 PM
b913ae765d49	af77e977f00b	405cf90b667a e49b628b9b30	Doru Bercea	Merge branch 'patch7-1' into patch8 (Show More…)	Jul 10 2017, 4:02 PM
e49b628b9b30	ba03818f910c	a3b9099a3b5c	Doru Bercea	Pass Arch to CUDA toolchain.	Jul 10 2017, 2:43 PM
405cf90b667a	dee3151b91ad	cb66ddde5852 5cb26fe27854	Doru Bercea	Merge branch 'patch7-1' into patch8	Jul 10 2017, 2:53 PM
5cb26fe27854	8770d4300847	a3b9099a3b5c	Doru Bercea	Pass Arch to CUDA toolchain.	Jul 10 2017, 2:43 PM
cb66ddde5852	edf4f228c8a3	e274794c6522 b4af2b143c00	Doru Bercea	Merge branch 'patch7-1' into patch8	Jul 10 2017, 2:51 PM
b4af2b143c00	5fa2ce7fae11	a3b9099a3b5c	Doru Bercea	Pass Arch to CUDA toolchain.	Jul 10 2017, 2:43 PM
e274794c6522	f2b85441bc56	2f9a8172d387 00b9a2bc6540	Doru Bercea	Merge branch 'patch7-1' into patch8	Jul 10 2017, 2:44 PM
00b9a2bc6540	a5e35d48be2d	a3b9099a3b5c	Doru Bercea	Pass Arch to CUDA toolchain.	Jul 10 2017, 2:43 PM
2f9a8172d387	5e7c1993c797	1ac08de45ad0 a3b9099a3b5c	Doru Bercea	Merge branch 'patch7-1' into patch8	Jul 10 2017, 8:20 AM
a3b9099a3b5c	f76b50c682a8	94207a494779	Doru Bercea	Pass arch to CUDA toolchain.	Jul 10 2017, 8:20 AM
94207a494779	eb159e4ee27c	2eea82dd52d6 5bf57dfedfb0	Doru Bercea	Merge branch 'unpatched-master' into patch7-1	Jul 6 2017, 10:51 AM
2eea82dd52d6	3eeb96d2a7a2	75ff689d1128 9a973f3ee99d	Doru Bercea	Pass CUDA arch.	Jul 6 2017, 9:28 AM
1ac08de45ad0	7a9b541edb3b	3fd139871462 75ff689d1128	Doru Bercea	Merge branch 'patch7-1' into patch8 (Show More…)	Jul 5 2017, 4:29 PM
75ff689d1128	55de8b2f39e9	3a4ccc40bf09	Doru Bercea	Pass arch to CUDA toolchain.	Jul 5 2017, 4:20 PM
3fd139871462	dc1bae55497b	4fc016450025 205c38602112	Doru Bercea	Merge branch 'patch7-1' into patch8	Jul 5 2017, 4:20 PM
205c38602112	656b0c19e0e4	3a4ccc40bf09	Doru Bercea	Pass arch to CUDA toolchain.	Jul 5 2017, 4:20 PM
4fc016450025	3c38310440fe	1b1ee746d823 3a4ccc40bf09	Doru Bercea	Merge branch 'patch7-1' into patch8	Jul 5 2017, 3:53 PM
3a4ccc40bf09	1ba719c56c2e	a09448ce7a50	Doru Bercea	Pass arch to CUDA toolchain.	Jul 5 2017, 3:51 PM
1b1ee746d823	a23c209efef4	c99aae0fed67	Doru Bercea	Add cubin.	Jul 5 2017, 3:15 PM
c99aae0fed67	16f02fe23425	6ec7552dccc5 a09448ce7a50	Doru Bercea	Merge branch 'patch7-1' into patch8	Jul 5 2017, 2:55 PM
a09448ce7a50	4c8fa30d042d	920d3a6880a8	Doru Bercea	Pass arch to CUDA toolchain.	Jul 5 2017, 2:54 PM
6ec7552dccc5	94f2cecfe259	ea72ea394917 920d3a6880a8	Doru Bercea	Merge branch 'patch7-1' into patch8	Jul 5 2017, 1:33 PM
920d3a6880a8	9d628bf51879	4e9493a4164e 2478d528547b	Doru Bercea	Merge branch 'patch5-2' into patch7-1	Jul 5 2017, 1:32 PM
2478d528547b	aa92df1550f8	c0ef8e9536cb	Doru Bercea	Add offloading kind.	Jul 5 2017, 1:29 PM
ea72ea394917	636003a08d46	6c9bcabc6870 4e9493a4164e	Doru Bercea	Merge branch 'patch7-1' into patch8	Jul 5 2017, 1:21 PM
4e9493a4164e	e4cd2f3a87fe	7682c067bfb8 c0ef8e9536cb	Doru Bercea	Merge branch 'patch5-2' into patch7-1 (Show More…)	Jul 5 2017, 1:19 PM
c0ef8e9536cb	cfcdba9f6cef	29b5af2ca767 597eb2dd6152	Doru Bercea	Merge branch 'patch5-1' into patch5-2	Jul 5 2017, 1:17 PM
597eb2dd6152	2cebfbb76064	266779d44de4	Doru Bercea	Add CUDA toolchain selection.	Jul 5 2017, 12:52 PM
266779d44de4	db3018554f3e	dc80f7eceaf0 e300395c3743	Doru Bercea	Merge branch 'unpatched-master' into patch5-1 (Show More…)	Jul 5 2017, 12:51 PM
7682c067bfb8	339346537c1f	4ed04335610d	Doru Bercea	Pass arch to CUDA toolchain.	Jul 5 2017, 8:59 AM
6c9bcabc6870	e8624ff4115e	e77f9b2766b0 4ed04335610d	Doru Bercea	Fix test.	Jun 30 2017, 5:02 PM
4ed04335610d	770cee491d0c	a58ddbcff056	Doru Bercea	Pass OpenMP target options.	Jun 30 2017, 4:52 PM
a58ddbcff056	91bfe5b2677a	dc3e8ad0f014	Doru Bercea	Pass OpenMP target options.	Jun 30 2017, 4:35 PM
dc3e8ad0f014	24092def2489	c7ddab5e4754	Doru Bercea	First attempt at passing target flags.	Jun 30 2017, 1:20 PM
e77f9b2766b0	663f38d28e90	08c7d81a49ea	Doru Bercea	Remove flag.	Jun 30 2017, 7:59 AM
08c7d81a49ea	4c16be2bbe10	771549e0b47f c7ddab5e4754	Doru Bercea	Merge branch 'patch7-1' into patch8 (Show More…)	Jun 30 2017, 7:56 AM
c7ddab5e4754	1525e11c51e9	726d51ecc2de	Doru Bercea	Revert flag changes.	Jun 30 2017, 7:53 AM
771549e0b47f	b0db4a1108dd	8cfc653809cc 726d51ecc2de	Doru Bercea	Merge branch 'patch7-1' into patch8	Jun 30 2017, 7:42 AM
726d51ecc2de	a26231e61c4f	05ecef6b2c46	Doru Bercea	Arch flag: with debug.	Jun 30 2017, 7:42 AM
8cfc653809cc	3367d96eb62a	cf8c68f8667a 05ecef6b2c46	Doru Bercea	Add CUBIN file. (Show More…)	Jun 29 2017, 12:00 PM
05ecef6b2c46	79617b60002e	122577fedcb8 29b5af2ca767	Doru Bercea	Add -fopenmp-target-arch flag.	Jun 29 2017, 11:58 AM
29b5af2ca767	281a97a62419	25a33948d27c dc80f7eceaf0	Doru Bercea	Add offloading kind. (Show More…)	Jun 29 2017, 11:54 AM
dc80f7eceaf0	c45bf39ac34e	ed5a3e34efc6 b7f382cb5d4e	Doru Bercea	CUDA toolchain selection. (Show More…)	Jun 29 2017, 11:53 AM
b7f382cb5d4e	10a4393c401f	1acc7a9260fc da1f3cf54166	Doru Bercea	D29645: Pass -fopenmp-is-device.	Jun 29 2017, 11:39 AM
1acc7a9260fc	483b7e00c9e8	dbbfa76fca6a 71607099bc1e	Doru Bercea	D29645: Pass -fopenmp-is-device. (Show More…)	Jun 29 2017, 8:55 AM
ed5a3e34efc6	e0d9b53b0959	afb661c95427 e157d3d2a7e0	Doru Bercea	CUDA toolchain selection. (Show More…)	Jun 29 2017, 9:36 AM
cf8c68f8667a	f67f6a8947ea	5a115e90c7a9	Doru Bercea	Add CUBIN file.	Jun 28 2017, 4:00 PM
5a115e90c7a9	fd98a6cac4c9	ca821a74d953 122577fedcb8	Doru Bercea	Add CUBIN file. (Show More…)	Jun 28 2017, 3:59 PM
122577fedcb8	9a9c8259d253	7593db543f6c	Doru Bercea	Add -fopenmp-target-arch flag.	Jun 28 2017, 3:58 PM
ca821a74d953	1808a8536904	830e2251c251 7593db543f6c	Doru Bercea	Add CUBIN file. (Show More…)	Jun 28 2017, 3:51 PM
7593db543f6c	004e702c4e32	1dbc7088ac7c	Doru Bercea	Add -fopenmp-target-arch flag.	Jun 28 2017, 3:50 PM
830e2251c251	4c06473c3e29	1d95bea2ee8f	Doru Bercea	Add CUBIN file.	Jun 28 2017, 3:12 PM
1d95bea2ee8f	4a1bee807228	8e9eb4c1297c 1dbc7088ac7c	Doru Bercea	Add CUBIN file.	Jun 28 2017, 3:04 PM
1dbc7088ac7c	7169ecbb8c1a	8440b03b6ad9	Doru Bercea	Add -fopenmp-target-arch flag.	Jun 28 2017, 2:48 PM
8440b03b6ad9	88469f5addc1	0a3729b45fe4	Doru Bercea	Add -fopenmp-target-arch flag.	Jun 28 2017, 2:41 PM
0a3729b45fe4	eec85021f7ae	0587deff7fa4 25a33948d27c	Doru Bercea	Add -fopenmp-target-arch flag.	Jun 28 2017, 2:09 PM
25a33948d27c	f09f3eeca683	afb661c95427	Doru Bercea	Add offloading kind.	Jun 28 2017, 1:43 PM
afb661c95427	4b7d07a22cd9	dbbfa76fca6a	Doru Bercea	CUDA toolchain selection.	Jun 28 2017, 1:16 PM
8e9eb4c1297c	eda76a793052	f8e265ec9396 b1f254b68cbf	Doru Bercea	Cubin file.	Jun 28 2017, 11:00 AM
b1f254b68cbf	635ea08e976a	c9b1a7fe5423 0587deff7fa4	Doru Bercea	CUDA toolchain selection. (Show More…)	Jun 28 2017, 10:56 AM
0587deff7fa4	69f373d46405	715ac9f35055 dbbfa76fca6a	Doru Bercea	Add offloading kind. (Show More…)	Jun 28 2017, 9:36 AM
dbbfa76fca6a	bd07bd27e35b	575efb1c7d80	Doru Bercea	Pass -fopenmp-is-device.	Jun 28 2017, 9:28 AM
f8e265ec9396	faa835d20bee	75589a16499d c9b1a7fe5423	Doru Bercea	Use CUBIN file. (Show More…)	Jun 28 2017, 8:56 AM
c9b1a7fe5423	4e70f84299b0	88688038ef8b 715ac9f35055	Doru Bercea	CUDA Toolcgain selection. (Show More…)	Jun 28 2017, 8:55 AM
88688038ef8b	a0e142a0038b	55de092444d6	Doru Bercea	CUDA toolchain selection.	Jun 28 2017, 8:55 AM
715ac9f35055	00cbb4e0071e	ec6753d5cb52	Doru Bercea	Add offloading kind.	Jun 28 2017, 8:27 AM
ec6753d5cb52	5c1648a6c95f	f95688bd2c75	Doru Bercea	Add offloading kind.	Jun 28 2017, 8:18 AM
75589a16499d	c00ac5d2b10a	06b5d27fa22c 55de092444d6	Doru Bercea	Use CUBIN file. (Show More…)	Jun 28 2017, 7:33 AM
55de092444d6	1b0e494b3f8b	5841ff685d53 2d35cd0fe576	Doru Bercea	CUDA toolchain selection. (Show More…)	Jun 28 2017, 7:32 AM
2d35cd0fe576	1588524fdf96	2268a748015c f95688bd2c75	Doru Bercea	Add LIBRARY_PATH. (Show More…)	Jun 28 2017, 7:31 AM
f95688bd2c75	05222a99abb2	9cb681ef0a4b	Doru Bercea	Add offloading kind.	Jun 28 2017, 7:30 AM
9cb681ef0a4b	4ea9128f6ffd	38dfe38ae4f0	Doru Bercea	Add oflloading kind.	Jun 27 2017, 3:11 PM
06b5d27fa22c	0d867f350b68	5af19735fd3d	Doru Bercea	OpenMP Offloading uses NVLINK and requires a cubin.	Jun 27 2017, 1:00 PM
5af19735fd3d	31ee2b36e332	ab3027866852 5841ff685d53	Doru Bercea	OpenMP Offloading uses NVLINK and requires a cubin. (Show More…)	Jun 27 2017, 10:20 AM
5841ff685d53	1d07c1608d71	fdc1ae6e7577 2268a748015c	Doru Bercea	CUDA tool chain selection. (Show More…)	Jun 27 2017, 10:19 AM
2268a748015c	c58f1728675e	67b372a64616 38dfe38ae4f0	Doru Bercea	Add test for checking if lib folder from LIBRARY_PATH is passed to loader. (Show More…)	Jun 27 2017, 10:18 AM
38dfe38ae4f0	e355ec539247	e8f0d54e6aeb 575efb1c7d80	Doru Bercea	Add oflloading kind. (Show More…)	Jun 27 2017, 10:17 AM
575efb1c7d80	24909c47cd60	a6a6a38d13b1 5104f1c899d7	Doru Bercea	Enable the passing of -fopenmp-is-device. (Show More…)	Jun 27 2017, 10:16 AM
5104f1c899d7	764bf54bfeea	8c687d60a787 a359de1e50ea	Doru Bercea	Pass -v to PTXAS. (Show More…)	Jun 27 2017, 10:15 AM
a359de1e50ea	b04b5bc63053	acd254c2ad9d 0f000a5b31bc	Doru Bercea	Make code relocatable by default by passing -c. (Show More…)	Jun 27 2017, 10:14 AM
0f000a5b31bc	632bf7dfd774	dc9b781c80fa faea3e56d3d2	Doru Bercea	Prevent exception handling code from being emitted for device offloading. (Show More…)	Jun 27 2017, 10:13 AM
faea3e56d3d2	4f25e072be16	01ac9a016c69 5a17e5c7708b	Doru Bercea	Add support for aux-triple flag. (Show More…)	Jun 27 2017, 10:12 AM
ab3027866852	33945235f4be	3d7684509ae0 fdc1ae6e7577	Doru Bercea	OpenMP Offloading uses NVLINK and requires a cubin. (Show More…)	Jun 13 2017, 3:16 PM
fdc1ae6e7577	72f57f6a8c7e	6ca0c5f2bdcf 67b372a64616	Doru Bercea	CUDA tool chain selection. (Show More…)	Jun 13 2017, 2:44 PM
67b372a64616	63fb9cc77a6f	c3a352bea7de e8f0d54e6aeb	Doru Bercea	Add test for checking if lib folder from LIBRARY_PATH is passed to loader. (Show More…)	Jun 13 2017, 2:16 PM
e8f0d54e6aeb	329302c37234	139ba1d04aa0 a6a6a38d13b1	Doru Bercea	Add oflloading kind. (Show More…)	Jun 13 2017, 2:14 PM
a6a6a38d13b1	4be2041e41c0	c49525003257 8c687d60a787	Doru Bercea	Enable the passing of -fopenmp-is-device. (Show More…)	Jun 13 2017, 2:03 PM
8c687d60a787	6f07351f15b8	43618c33d4cb acd254c2ad9d	Doru Bercea	Pass -v to PTXAS. (Show More…)	Jun 13 2017, 1:44 PM
acd254c2ad9d	204e5bf404fe	1775e0f9fc26	Doru Bercea	Make code relocatable by default by passing -c.	Mar 31 2017, 9:30 AM
dc9b781c80fa	6b7db38e81a3	1775e0f9fc26	Doru Bercea	Prevent exception handling code from being emitted for device offloading.	Mar 31 2017, 9:30 AM
1775e0f9fc26	b67079be8d40	01ac9a016c69	Doru Bercea	Prevent the implementation from emitting device exception handling code.	Jan 25 2017, 1:33 PM
01ac9a016c69	89572927ec8b	714941f0a8e5 d725462f1cbc	Doru Bercea	Add support for aux-triple flag. (Show More…)	Jun 13 2017, 11:05 AM
3d7684509ae0	060d57dd4c9b	5e6b9b71d2de 6ca0c5f2bdcf	Doru Bercea	OpenMP Offloading uses NVLINK and requires a cubin. (Show More…)	Jun 13 2017, 10:17 AM
6ca0c5f2bdcf	f7cc5bdc3214	3143cfae7051 c3a352bea7de	Doru Bercea	CUDA tool chain selection. (Show More…)	Jun 13 2017, 10:15 AM
c3a352bea7de	aaa7b3e8c513	4111a472e0b0 139ba1d04aa0	Doru Bercea	Add test for checking if lib folder from LIBRARY_PATH is passed to loader. (Show More…)	Jun 13 2017, 10:13 AM
139ba1d04aa0	d4d6c5e8283d	3f4c339e32d9	Doru Bercea	Add offloading kind argument.	Jun 13 2017, 10:06 AM
5e6b9b71d2de	1b98ecf07691	cf6ea5e0a780 3143cfae7051	Doru Bercea	OpenMP Offloading uses NVLINK and requires a cubin.	Jun 13 2017, 7:57 AM
3143cfae7051	250ac38d9e5e	4276620687ab 4111a472e0b0	Doru Bercea	CUDA tool chain selection. (Show More…)	Jun 13 2017, 7:43 AM
4111a472e0b0	52449054722d	23b7474a2b12 3f4c339e32d9	Doru Bercea	Add test for checking if lib folder from LIBRARY_PATH is passed to loader. (Show More…)	Jun 13 2017, 7:43 AM
3f4c339e32d9	e845e10e9737	3150c459c872 c49525003257	Doru Bercea	Add offloading kind argument. (Show More…)	Jun 13 2017, 7:42 AM
c49525003257	ed9818d9ef6d	12010fc04bc2 43618c33d4cb	Doru Bercea	Enable the passing of -fopenmp-is-device. (Show More…)	Jun 13 2017, 7:41 AM
43618c33d4cb	e78b3af30f49	9349307a5aa9 8a909e99f732	Doru Bercea	Pass -v to PTXAS. (Show More…)	Jun 13 2017, 7:39 AM
8a909e99f732	42d249051093	2e7ba67a3da0	Doru Bercea	Make code relocatable by default by passing -c.	Mar 31 2017, 9:26 AM
2e7ba67a3da0	8fe45ed1d756	0fca5b64d4ff	Doru Bercea	Make OpenMP generated code for the NVIDIA device relocatable by default	Mar 30 2017, 3:48 PM
0fca5b64d4ff	69b0549e410f	24ceb4cdd2fd	Doru Bercea	In OpenMP we need to generate relocatable code.	Mar 30 2017, 10:52 AM
24ceb4cdd2fd	eeaf3464026e	5c26c5e9c239	Doru Bercea	In OpenMP we need to generate relocatable code.	Feb 1 2017, 7:24 AM
5c26c5e9c239	f8e814473dbf	e987fb793243	Doru Bercea	In OpenMP we need to generate relocatable code.	Jan 25 2017, 1:38 PM
e987fb793243	b91d0f689217	e22ce221f71d 714941f0a8e5	Doru Bercea	Prevent exception handling code from being emitted for device offloading. (Show More…)	Jun 13 2017, 7:35 AM
714941f0a8e5	43c39277c448	9233b6321ad6 68584d4a736e	Doru Bercea	Add support for aux-triple flag.	Jun 13 2017, 7:34 AM
cf6ea5e0a780	cded09f30285	1aeaf2495652 4276620687ab	Doru Bercea	OpenMP Offloading uses NVLINK and requires a cubin. (Show More…)	Apr 13 2017, 10:55 AM
f3811c89b2c7	39bb7040a1b1	137942a92a69 148ceed98fe6	Doru Bercea	Merge branch 'patch11-5' into patch12	Apr 21 2017, 2:29 PM
148ceed98fe6	6cc373d8737f	4bf841dbb60c e73a99c96dbf	Doru Bercea	Fix duplicate flags. (Show More…)	Apr 21 2017, 10:45 AM
e73a99c96dbf	eff1d6dc3b18	013f564fd0c6 7bd31d94af0f	Doru Bercea	Make driver aware of the clang bin directory. (Show More…)	Apr 21 2017, 10:44 AM
7bd31d94af0f	b5596ab7a63b	eafe7664672b e29d07f0020d	Doru Bercea	Flag: pass PTX version to OpenMP offloading. (Show More…)	Apr 21 2017, 10:43 AM
e29d07f0020d	4d5080b6db08	3716491b6d3c ade602a52aa1	Doru Bercea	Flag: pass compute capability to OpenMP device offloading. (Show More…)	Apr 21 2017, 10:02 AM
ade602a52aa1	b0a7af684e73	81344287c6b2 0bb05416571c	Doru Bercea	Add flag for enabling and disabling generation of relocatable code for OpenMP… (Show More…)	Apr 19 2017, 7:18 AM
4bf841dbb60c	346e82fb6f9f	2ba28406575f 013f564fd0c6	Doru Bercea	Fix duplicate flags. (Show More…)	Apr 19 2017, 7:20 AM
013f564fd0c6	dd0c958897f3	4b6c89d3058c eafe7664672b	Doru Bercea	Make driver aware of the clang bin directory. (Show More…)	Apr 19 2017, 7:20 AM
eafe7664672b	7506bff77683	4919a1118452 3716491b6d3c	Doru Bercea	Flag: pass PTX version to OpenMP offloading. (Show More…)	Apr 19 2017, 7:19 AM
3716491b6d3c	fd0645bf6ae1	9162d60d2f78 7c8bd4027f0f	Doru Bercea	Flag: pass compute capability to OpenMP device offloading. (Show More…)	Apr 19 2017, 7:19 AM
7c8bd4027f0f	e19d35aff3d3	81344287c6b2 0bb05416571c	Doru Bercea	Add flag for enabling and disabling generation of relocatable code for OpenMP… (Show More…)	Apr 19 2017, 7:18 AM
0bb05416571c	234ce96d621d	bc9c469ca5d2 bfabb3327d90	Doru Bercea	Bug Fix: pass pointer when values is mapped. Fix test. Fix function limits. (Show More…)	Apr 19 2017, 7:17 AM
bfabb3327d90	58f39826872d	d91e7e33fcff 913f11043acf	Doru Bercea	Throw invalid target error when offloading to an unsupported OpenMP target arch. (Show More…)	Apr 19 2017, 7:12 AM
913f11043acf	0139c4639155	1aeaf2495652 4276620687ab	Doru Bercea	OpenMP Offloading uses NVLINK and requires a cubin. (Show More…)	Apr 13 2017, 10:55 AM
2ba28406575f	72ccf46e3ddc	e79af86bf97c 4b6c89d3058c	Doru Bercea	Fix duplicate flags. (Show More…)	Apr 17 2017, 11:30 AM
4b6c89d3058c	b8e67b0b5845	9502a7698033 4919a1118452	Doru Bercea	Make driver aware of the clang bin directory. (Show More…)	Apr 17 2017, 11:30 AM
4919a1118452	647cb161e552	60f41d23f595 9162d60d2f78	Doru Bercea	Flag: pass PTX version to OpenMP offloading. (Show More…)	Apr 17 2017, 11:28 AM
9162d60d2f78	7e2a1e383e48	2fe1ba6c0419 81344287c6b2	Doru Bercea	Flag: pass compute capability to OpenMP device offloading. (Show More…)	Apr 17 2017, 11:28 AM
81344287c6b2	face3ef97ed0	108d161b1bba bc9c469ca5d2	Doru Bercea	Add flag for enabling and disabling generation of relocatable code for OpenMP… (Show More…)	Apr 17 2017, 11:27 AM
bc9c469ca5d2	93acda2196db	51de74f40b35 d91e7e33fcff	Doru Bercea	Bug Fix: pass pointer when values is mapped. Fix test. Fix function limits. (Show More…)	Apr 17 2017, 11:25 AM
d91e7e33fcff	ccceec8ffbf6	1b06ee723399	Doru Bercea	Throw invalid target error when offloading to an unsupported OpenMP target arch.	Apr 13 2017, 1:33 PM
1b06ee723399	e5191b56abde	8533d91f12e9	Doru Bercea	Unsupported target error message.	Apr 13 2017, 10:59 AM
8533d91f12e9	0dc3f70232dd	2a8d5fecdb4e 39ff9a36ceac	Doru Bercea	Unsupported targets. (Show More…)	Apr 13 2017, 10:56 AM
39ff9a36ceac	e8ddc45dd403	1aeaf2495652 4276620687ab	Doru Bercea	OpenMP Offloading uses NVLINK and requires a cubin. (Show More…)	Apr 13 2017, 10:55 AM
4276620687ab	47ed59305342	949e1564950d	Doru Bercea	CUDA tool chain selection.	Apr 13 2017, 10:54 AM
1aeaf2495652	f8e74070251a	f30a21152bf8	Doru Bercea	OpenMP offloading needs linking with NVLINK.	Apr 13 2017, 9:13 AM
e79af86bf97c	ba9e007870f3	1d7c7137250e 9502a7698033	Doru Bercea	Fix duplicate flags. (Show More…)	Apr 13 2017, 8:05 AM
9502a7698033	2c56ee8482e0	7a89bd915bf3 60f41d23f595	Doru Bercea	Make driver aware of the clang bin directory. (Show More…)	Apr 13 2017, 8:04 AM
60f41d23f595	4daaab157ab4	552c24ba3700	Doru Bercea	Flag: pass PTX version to OpenMP offloading.	Apr 13 2017, 7:40 AM
1d7c7137250e	c8ee7cb11a59	42c0c7939ea9 7a89bd915bf3	Doru Bercea	Fix duplicate flags. (Show More…)	Apr 12 2017, 10:05 AM
7a89bd915bf3	754b0f3f9c38	122b73301d90 552c24ba3700	Doru Bercea	Make driver aware of the clang bin directory. (Show More…)	Apr 12 2017, 10:04 AM
552c24ba3700	3e7351af327a	176756c1e8f6 2fe1ba6c0419	Doru Bercea	Flag: pass PTX version to OpenMP offloading. (Show More…)	Apr 12 2017, 10:03 AM
2fe1ba6c0419	ba08a85e0460	0149866ddedd 108d161b1bba	Doru Bercea	Flag: pass compute capability to OpenMP device offloading. (Show More…)	Apr 12 2017, 10:03 AM
108d161b1bba	7c34d27910b3	822cdf2e3c70 51de74f40b35	Doru Bercea	Add flag for enabling and disabling generation of relocatable code for OpenMP… (Show More…)	Apr 12 2017, 10:02 AM
51de74f40b35	fb94b517ec49	0d11f43c07c4	Doru Bercea	Bug Fix: pass pointer when values is mapped. Fix test. Fix function limits.	Apr 12 2017, 8:02 AM
176756c1e8f6	6c9a20569ba8	ceec432cdb31 0149866ddedd	Doru Bercea	Flag: pass PTX version to OpenMP offloading. (Show More…)	Apr 12 2017, 9:45 AM
0149866ddedd	809cd3076727	0a95a1fff1a3 822cdf2e3c70	Doru Bercea	Flag: pass compute capability to OpenMP device offloading. (Show More…)	Apr 12 2017, 9:44 AM
822cdf2e3c70	b2bc39983a1e	3bf6608630e0 ced2c56caeb6	Doru Bercea	Add flag for enabling and disabling generation of relocatable code for OpenMP… (Show More…)	Apr 12 2017, 9:43 AM
ced2c56caeb6	3df74b0cede7	0d11f43c07c4	Doru Bercea	Bug Fix: pass pointer when values is mapped. Fix test. Fix function limits.	Apr 12 2017, 8:02 AM
ceec432cdb31	0d38958b8ae6	23f4e072e56e 0a95a1fff1a3	Doru Bercea	Flag: pass PTX version to OpenMP offloading. (Show More…)	Apr 12 2017, 8:26 AM
0a95a1fff1a3	3fb5332cbcc8	f4e255d09d5c 3bf6608630e0	Doru Bercea	Flag: pass compute capability to OpenMP device offloading. (Show More…)	Apr 12 2017, 8:25 AM
3bf6608630e0	e5cb713aaa80	f6d1627aa2ee e45c37c382d9	Doru Bercea	Add flag for enabling and disabling generation of relocatable code for OpenMP… (Show More…)	Apr 12 2017, 8:06 AM
e45c37c382d9	20265421f59c	0d11f43c07c4	Doru Bercea	Bug Fix: pass pointer when values is mapped. Fix test. Fix function limits.	Apr 12 2017, 8:02 AM
0d11f43c07c4	608e57a49eed	ae8eeb6912b4 2a8d5fecdb4e	Doru Bercea	Bug Fix: pass pointer when values is mapped. Fix test. Fix function limits. (Show More…)	Apr 11 2017, 2:39 PM
2a8d5fecdb4e	f0f8734c37c6	9c7ee04c5e12 f30a21152bf8	Doru Bercea	Target not supported (Show More…)	Apr 11 2017, 2:38 PM
f30a21152bf8	9ec4178113c7	21e871a6b5a5	Doru Bercea	OpenMP offloading needs linking with NVLINK.	Apr 11 2017, 2:35 PM
ae8eeb6912b4	608e57a49eed	c10b6a7fafff	Doru Bercea	Bug Fix: pass pointer when values is mapped. Fix test. Fix function limits.	Apr 11 2017, 2:30 PM
42c0c7939ea9	137bb0e9d258	a9805c0bcabc 122b73301d90	Doru Bercea	Fix duplicate flags. (Show More…)	Apr 11 2017, 1:05 PM
122b73301d90	42da5cb633a8	dac8fa4730fa 23f4e072e56e	Doru Bercea	Make driver aware of the clang bin directory. (Show More…)	Apr 11 2017, 1:04 PM
23f4e072e56e	c274d9901fd7	ee4a39e0e302 f4e255d09d5c	Doru Bercea	Flag: pass PTX version to OpenMP offloading. (Show More…)	Apr 11 2017, 1:03 PM
f4e255d09d5c	37d96ad0dd2e	36a3902c7813 f6d1627aa2ee	Doru Bercea	Flag: pass compute capability to OpenMP device offloading. (Show More…)	Apr 11 2017, 1:02 PM
f6d1627aa2ee	7ee228f293a4	697c608cac08 c10b6a7fafff	Doru Bercea	Add flag for enabling and disabling generation of relocatable code for OpenMP… (Show More…)	Apr 11 2017, 1:01 PM
c10b6a7fafff	a8ea8a064d2d	09b0e54a6ab7 9c7ee04c5e12	Doru Bercea	Pass mapped argument to target region as pointer. (Show More…)	Apr 11 2017, 12:32 PM
9c7ee04c5e12	a2898b70f748	b3e5067f2229 21e871a6b5a5	Doru Bercea	Target not supported	Apr 11 2017, 12:31 PM
09b0e54a6ab7	b290732ee112	d4029ffd11bc	Doru Bercea	Pass mapped argument to target region as pointer.	Mar 31 2017, 1:30 PM
ee4a39e0e302	d19514fdda27	c308fda4e5c5	Doru Bercea	Flag: pass PTX version to OpenMP offloading.	Apr 11 2017, 8:12 AM
21e871a6b5a5	7e2643fccaad	99645e8a6bcb	Doru Bercea	Use replace extension util.	Apr 6 2017, 2:07 PM
137942a92a69	247e6feefc12	40c5f844176d	Doru Bercea	Clean-up.	Apr 6 2017, 9:10 PM
40c5f844176d	c468b553195b	fff85ca4edb3	Doru Bercea	Clean-up code.	Apr 6 2017, 8:41 PM
99645e8a6bcb	00b63f73dbc6	088140848634	Doru Bercea	Split function.	Apr 6 2017, 9:21 AM
088140848634	61d4865e9bfb	5c8923200a85	Doru Bercea	Add tool different creation for CUDA and OpenMP.	Apr 6 2017, 9:10 AM
5c8923200a85	cc98176f099f	bf1b99bbe7d7 949e1564950d	Doru Bercea	Embed cubin in host file. (Show More…)	Apr 6 2017, 8:59 AM
949e1564950d	a582257db826	23b7474a2b12	Doru Bercea	CUDA tool chain selection.	Apr 6 2017, 8:58 AM
fff85ca4edb3	dd05ff5610fc	f63623d90df3 a9805c0bcabc	Doru Bercea	Merge branch 'patch11-5' into patch12 (Show More…)	Apr 4 2017, 2:19 PM
a9805c0bcabc	8326786d6dd2	4ac5db57729b dac8fa4730fa	Doru Bercea	Fix duplicate flags. (Show More…)	Apr 3 2017, 11:52 AM
dac8fa4730fa	7bdd8e3c8d9d	11bcf55e6990 c308fda4e5c5	Doru Bercea	Make driver aware of the clang bin directory. (Show More…)	Apr 3 2017, 11:45 AM
c308fda4e5c5	bed25a20ea16	0e92d85b33a4 36a3902c7813	Doru Bercea	Flag: pass PTX version to OpenMP offloading.	Apr 3 2017, 11:39 AM
36a3902c7813	584fc580e6ca	6091c94eb12d 697c608cac08	Doru Bercea	Flag: pass compute capability to OpenMP device offloading.	Apr 3 2017, 10:54 AM
697c608cac08	9d339092f6f8	4679861ef384	Doru Bercea	Add flag for enabling and disabling generation of relocatable code for OpenMP… (Show More…)	Apr 3 2017, 9:22 AM
4679861ef384	9e9e09e68046	73d6d30fb570 3582baaa4a47	Doru Bercea	Add flag for enabling and disabling generation of relocatable code for OpenMP… (Show More…)	Apr 3 2017, 7:50 AM
3582baaa4a47	1d8cb4b59b37	d4029ffd11bc	Doru Bercea	Pass mapped argument to target region as pointer.	Mar 31 2017, 1:30 PM
d4029ffd11bc	7c23e8b083e7	8cd23cb4b6a0 b3e5067f2229	Doru Bercea	Pass mapped argument to target region as pointer. (Show More…)	Mar 31 2017, 10:10 AM
b3e5067f2229	1128108ae157	4d33459ecbde	Doru Bercea	Target not supported	Mar 31 2017, 10:09 AM
4d33459ecbde	cc98176f099f	4135f9812054	Doru Bercea	Add selection for CUDA-based toolchains.	Mar 31 2017, 10:07 AM
4135f9812054	1128108ae157	48fca1c694b6 bf1b99bbe7d7	Doru Bercea	Add selection for CUDA-based toolchains. (Show More…)	Mar 31 2017, 10:05 AM
bf1b99bbe7d7	b665c7d3bd87	e3264b040d0a 23b7474a2b12	Doru Bercea	OpenMP uses nvlink to link cubin files. Embed result in in host binary using… (Show More…)	Mar 31 2017, 10:02 AM
23b7474a2b12	85246aa895ec	678bd452e0c7 3150c459c872	Doru Bercea	Add test for checking if lib folder from LIBRARY_PATH is passed to loader. (Show More…)	Mar 31 2017, 10:00 AM
3150c459c872	f2072a0ffb20	f14767fe1688 12010fc04bc2	Doru Bercea	Add offloading kind argument. (Show More…)	Mar 31 2017, 9:58 AM
12010fc04bc2	506c0d51d53a	08a255b76076 9349307a5aa9	Doru Bercea	Enable the passing of -fopenmp-is-device.	Mar 31 2017, 9:54 AM
9349307a5aa9	41d57d919d93	e655c6f23301	Doru Bercea	Pass -v to PTXAS.	Mar 31 2017, 9:49 AM
e655c6f23301	e76e379fa583	aed538f53c9e 4598dbf13d36	Doru Bercea	Merge branch 'patch3' into patch4	Mar 31 2017, 9:37 AM
4598dbf13d36	631cbb8b6f62	b8b801515ba4 e22ce221f71d	Doru Bercea	Merge branch 'patch2' into patch3	Mar 31 2017, 9:33 AM
e22ce221f71d	d784652821ba	547cb55666cc	Doru Bercea	Prevent exception handling code from being emitted for device offloading.	Mar 31 2017, 9:30 AM
b8b801515ba4	93d86099abc1	e6e425c4e45f	Doru Bercea	Make code relocatable by default by passing -c.	Mar 31 2017, 9:26 AM
e6e425c4e45f	613f5b3b6889	1059acc8f581 547cb55666cc	Doru Bercea	Merge branch 'patch2' into patch3	Mar 31 2017, 9:24 AM
547cb55666cc	fb9589ab311d	55460d95c93c	Doru Bercea	Prevent exception handling code from being emitted for device offloading.	Mar 31 2017, 9:15 AM
55460d95c93c	d19f3c84308f	526a965e6aa2	Doru Bercea	Improve regression test.	Mar 31 2017, 9:09 AM
f63623d90df3	59802af35d94	f08f9097d7d4	Doru Bercea	Merge branch 'patch11-5' into patch12	Mar 31 2017, 9:08 AM
526a965e6aa2	c280d987afe6	77b5bb642c0f 9233b6321ad6	Doru Bercea	Prevent the implementation from emitting device exception handling code. (Show More…)	Mar 31 2017, 8:00 AM
9233b6321ad6	a2bf56b2abff	41b26c558d77	Doru Bercea	Add support for aux-triple flag.	Mar 31 2017, 7:36 AM
08a255b76076	428c60f33da3	cba92af886d3 aed538f53c9e	Doru Bercea	Enable the passing of -fopenmp-is-device.	Mar 30 2017, 4:01 PM
aed538f53c9e	ade358fe69d0	c9f9ce942175 1059acc8f581	Doru Bercea	Pass -v to PTXAS if it was passed to the driver.	Mar 30 2017, 3:53 PM
1059acc8f581	6a5fdc674fe9	854dee468e0d	Doru Bercea	Make OpenMP generated code for the NVIDIA device relocatable by default	Mar 30 2017, 3:48 PM
cba92af886d3	5101ca9ddd43	b4c74b573df1 c9f9ce942175	Doru Bercea	Enable the passing of -fopenmp-is-device.	Mar 30 2017, 3:46 PM
c9f9ce942175	5f1573b292ae	a78ab514fdbe 854dee468e0d	Doru Bercea	Pass -v to PTXAS if it was passed to the driver.	Mar 30 2017, 3:40 PM
854dee468e0d	1c89d28f56e9	ad4cadef4306 77b5bb642c0f	Doru Bercea	Merge branch 'patch2' into patch3	Mar 30 2017, 3:31 PM
77b5bb642c0f	b3ebd9f8fe89	b156822f6087	Doru Bercea	Prevent the implementation from emitting device exception handling code.	Mar 30 2017, 11:45 AM
b156822f6087	c69ba2906825	25d4e6f2f0cf	Doru Bercea	Prevent the implementation from emitting device exception handling code.	Mar 30 2017, 11:36 AM
a78ab514fdbe	9b1c4a37acd8	2b0fc86ba688	Doru Bercea	Pass -v to PTXAS if it was passed to the driver.	Mar 30 2017, 11:15 AM
2b0fc86ba688	83f5e7026dc8	4c470d513fbf	Doru Bercea	Pass -v to PTXAS if it was passed to the driver.	Feb 1 2017, 7:40 AM
4c470d513fbf	616aea147990	ad4cadef4306	Doru Bercea	In OpenMP we need to generate relocatable code.	Jan 25 2017, 1:38 PM
ad4cadef4306	595e3f1c5a46	4439d9ac3555	Doru Bercea	In OpenMP we need to generate relocatable code.	Mar 30 2017, 10:52 AM
f08f9097d7d4	bb05776752f1	9c83ffb789a9 4ac5db57729b	Doru Bercea	Merge branch 'patch11-5' into patch12 (Show More…)	Mar 28 2017, 8:38 AM
4ac5db57729b	a766dfa8b0a1	84de4e4390b8 11bcf55e6990	Doru Bercea	Eliminte duplicate flags to LLVM and PTXAS. (Show More…)	Mar 28 2017, 8:26 AM
11bcf55e6990	588762670681	a35aa3c6e547 0e92d85b33a4	Doru Bercea	Bug fix: make the cuda tool chain aware of the driver directory. (Show More…)	Mar 28 2017, 8:20 AM
0e92d85b33a4	a3a5491cdb33	bef297ef6689 6091c94eb12d	Doru Bercea	Flag: pass PTX version to OpenMP offloading.	Mar 28 2017, 8:14 AM
6091c94eb12d	36ba37430187	76781c6ce170	Doru Bercea	Flag: pass compute capability to OpenMP device offloading.	Mar 28 2017, 8:08 AM
76781c6ce170	ce663a4a9c3c	5a89f2cf8584 73d6d30fb570	Doru Bercea	Merge branch 'patch11-1' into patch11-2 (Show More…)	Mar 28 2017, 7:58 AM
73d6d30fb570	9a462f377724	cb7556a9439a	Doru Bercea	Add flag for enabling and disabling generation of relocatable code for OpenMP… (Show More…)	Mar 28 2017, 7:29 AM
cb7556a9439a	9c24df60708d	7b2bdf29b6c4 8cd23cb4b6a0	Doru Bercea	Merge branch 'patch11' into patch11-1	Mar 28 2017, 7:23 AM
8cd23cb4b6a0	3057870501f4	85c40a1a67f5	Doru Bercea	Pass mapped argument to target region as pointer.	Mar 27 2017, 4:58 PM
85c40a1a67f5	f69931dba843	2721abcac40d	Doru Bercea	Merge branch 'patch9' into patch11	Mar 27 2017, 4:50 PM
2721abcac40d	df200c63e501	ea70fb8451fd 48fca1c694b6	Doru Bercea	Merge branch 'patch9' into patch11	Mar 27 2017, 4:35 PM
48fca1c694b6	2f9efc4a9625	90b5c4d5cece	Doru Bercea	Add selection for CUDA-based toolchains.	Feb 1 2017, 8:45 PM
90b5c4d5cece	3fa984957b72	45f867d89bbd	Doru Bercea	Add selection for CUDA-based toolchains.	Feb 1 2017, 7:58 PM
45f867d89bbd	895c86c8a33a	665908c8f414	Doru Bercea	Add selection for CUDA-based toolchains.	Feb 1 2017, 4:58 PM
665908c8f414	c4756fac4319	e3264b040d0a	Doru Bercea	Add selection for CUDA-based toolchains.	Jan 25 2017, 3:11 PM
e3264b040d0a	967bcd848e69	27f6ab4a1922	Doru Bercea	OpenMP uses nvlink to link cubin files. Embed result in in host binary using… (Show More…)	Mar 27 2017, 4:00 PM
27f6ab4a1922	3d056633556d	db72cd3188f7 678bd452e0c7	Doru Bercea	Merge branch 'patch7-2' into patch8	Mar 27 2017, 3:41 PM
678bd452e0c7	f4fd6f33e636	ed9d9e338e57	Doru Bercea	Add test for checking if lib folder from LIBRARY_PATH is passed to loader.	Mar 27 2017, 3:32 PM
ed9d9e338e57	9431074045af	d73975008c7c f14767fe1688	Doru Bercea	Merge branch 'patch7-1' into patch7-2 (Show More…)	Mar 27 2017, 3:31 PM
f14767fe1688	58549a2f7164	039dd5597ca5	Doru Bercea	Add offloading kind argument.	Mar 27 2017, 2:58 PM
039dd5597ca5	a22bce16da15	f7eb186ece21	Doru Bercea	Add offloading kind argument.	Mar 27 2017, 2:31 PM
9c83ffb789a9	dbb3a230c130	147522171e7f	Doru Bercea	Fix errors after driver rewrite: import appropriate headers, move linker script… (Show More…)	Mar 23 2017, 3:02 PM
147522171e7f	0823c1d128fd	e557e4b16968	Doru Bercea	Change arguments to runtime functions to use triple pointers for shared args.	Mar 10 2017, 12:30 PM
e557e4b16968	50dd654674a2	8d96d09545b3	Doru Bercea	Pass arguments from wrapper to outline function.	Feb 22 2017, 7:28 PM
8d96d09545b3	1affc14c7eea	cecd136a8ced	Doru Bercea	Pass shared args to wrapper function.	Feb 22 2017, 10:37 AM
cecd136a8ced	a711968ecae5	8a1f7b30f390	Doru Bercea	Write address of alloca to runtime managed argument table.	Feb 16 2017, 8:57 AM
8a1f7b30f390	c2e6f35c6077	5d1727ffad04	Doru Bercea	Write address of alloca to runtime managed argument table.	Feb 16 2017, 8:33 AM
5d1727ffad04	e26841368ec9	00e549a3fb16	Doru Bercea	Attempt to write back address of alloca to table.	Feb 16 2017, 7:10 AM
00e549a3fb16	5d7084b0b8d4	4036c5d5d986	Doru Bercea	Pass argument table to and from runtime.	Jan 31 2017, 11:59 AM
4036c5d5d986	7bb380d864fe	84de4e4390b8	Doru Bercea	Add wrapper function list. Attempt to generate a wrapper for L0 parallelism.	Jan 27 2017, 5:32 PM
84de4e4390b8	3841dd19d5de	c900206f4d38	Doru Bercea	Re-fix duplicate args to work for any args.	Mar 23 2017, 11:54 AM
c900206f4d38	b4be16688d69	a35aa3c6e547	Doru Bercea	Eliminate duplicates from list of arguments passed to PTXAS	Mar 23 2017, 9:26 AM
a35aa3c6e547	095c8f046cf6	bef297ef6689	Doru Bercea	Big fix: make the cuda tool chain aware of the driver directory.	Feb 22 2017, 11:10 AM
bef297ef6689	2c0f33a931bf	079ebb47f1e1	Doru Bercea	Add flag for passing in PTX version.	Feb 2 2017, 7:48 PM
079ebb47f1e1	6a9f7d86d801	5a89f2cf8584	Doru Bercea	Add flag for passing in PTX version.	Feb 2 2017, 7:28 PM
5a89f2cf8584	81603f525f03	2f0cbc4e2cce	Doru Bercea	Add flag for overwriting the default compute capability.	Mar 23 2017, 8:47 AM
2f0cbc4e2cce	09ba4f1b1f1d	7b2bdf29b6c4	Doru Bercea	Add flag for overwriting the default compute capability.	Feb 2 2017, 6:37 PM
7b2bdf29b6c4	ba284deddec2	d60d0b27c279	Doru Bercea	Add flags for enabling and disabling generation of GPU relocatable code.	Mar 23 2017, 8:41 AM
d60d0b27c279	7f852b47448a	61425bdaa537	Doru Bercea	Add flags for enabling and disabling generation of GPU relocatable code.	Feb 7 2017, 8:41 AM
61425bdaa537	1a746a0d48e2	ea70fb8451fd	Doru Bercea	Add flags for enabling and disabling generation of GPU relocatable code.	Feb 2 2017, 4:47 PM
ea70fb8451fd	048d38d7b9bc	f2465170dff4	Doru Bercea	Bug fix: pass scalar to kernel function by reference when the scalar is mapped.	Feb 13 2017, 12:05 PM
f2465170dff4	bbeec5c8d297	f090d46473c5	Doru Bercea	Bug fix: pass scalar to kernel function by reference when the scalar is mapped.	Feb 13 2017, 12:04 PM
f090d46473c5	64ef820b7a96	d9f97f906319	Doru Bercea	Bug fix: pass scalar to kernel function by reference when the scalar is mapped.	Feb 13 2017, 12:02 PM
d9f97f906319	8bbdcd631253	29b3399320f1	Doru Bercea	Bug fix: pass scalar to kernel function by reference when the scalar is mapped.	Feb 2 2017, 12:00 PM
29b3399320f1	79dfc13332d6	f3be06a2f498	Doru Bercea	Bug fix: pass scalar to kernel function by reference when the scalar is mapped.	Feb 2 2017, 11:49 AM
f3be06a2f498	07cc4320ee01	c9b5a3506ece	Doru Bercea	Bug fix: pass the argument by reference to kernel call when argument is callsed… (Show More…)	Jan 25 2017, 3:20 PM
c9b5a3506ece	99aee268717e	a734cc72dcdc	Doru Bercea	Add support for printf in OpenMP device offloaded regions.	Jan 25 2017, 3:14 PM
a734cc72dcdc	ddf8532ddd23	a59103ac37b4	Doru Bercea	Add selection for CUDA-based toolchains.	Feb 1 2017, 8:45 PM
a59103ac37b4	5cf353a9bd8f	3a0bd2d046bb	Doru Bercea	Add selection for CUDA-based toolchains.	Feb 1 2017, 7:58 PM
3a0bd2d046bb	29ea2164d2fc	77fc2e84c668	Doru Bercea	Add selection for CUDA-based toolchains.	Feb 1 2017, 4:58 PM
77fc2e84c668	bd8485333590	db72cd3188f7	Doru Bercea	Add selection for CUDA-based toolchains.	Jan 25 2017, 3:11 PM
db72cd3188f7	d96af9b44442	b5c8cc68f54a	Doru Bercea	OpenMP uses nvlink to link cubin files. Embed result in in host binary using… (Show More…)	Mar 23 2017, 7:59 AM
b5c8cc68f54a	b5c3b6596f0a	d73975008c7c	Doru Bercea	OpenMP uses nvlink to link cubin files. Embed result in in host binary using… (Show More…)	Feb 1 2017, 3:53 PM
d73975008c7c	309b49e7327b	791117958c14	Doru Bercea	Add test for checking if lib folder from LIBRARY_PATH is passed to loader.	Feb 1 2017, 1:35 PM
791117958c14	d831d6c884a2	b4c74b573df1	Doru Bercea	Report an error for -faltivec on anything other than PowerPC. (Show More…)	Jan 25 2017, 2:03 PM
f7eb186ece21	2eb4864f9fab	b4c74b573df1	Doru Bercea	Report an error for -faltivec on anything other than PowerPC. (Show More…)	Jan 25 2017, 2:03 PM
b4c74b573df1	6baeb85df288	e4119d98fa05	Doru Bercea	Enable the passing of -fopenmp-is-device.	Feb 1 2017, 8:41 AM
e4119d98fa05	56bbffd4d4cf	ce210adf50a4	Doru Bercea	Pass -v to PTXAS if it was passed to the driver.	Jan 25 2017, 1:39 PM
ce210adf50a4	83f5e7026dc8	bacc43f3b67d	Doru Bercea	Pass -v to PTXAS if it was passed to the driver.	Feb 1 2017, 7:40 AM
bacc43f3b67d	236fe5b46f69	4439d9ac3555	Doru Bercea	In OpenMP we need to generate relocatable code.	Jan 25 2017, 1:38 PM
4439d9ac3555	e2cb5ed40ef0	8378300e84fe	Doru Bercea	In OpenMP we need to generate relocatable code.	Feb 1 2017, 7:24 AM
8378300e84fe	51ebb5d44699	25d4e6f2f0cf	Doru Bercea	In OpenMP we need to generate relocatable code.	Jan 25 2017, 1:38 PM
25d4e6f2f0cf	1888421f1497	81eb5270e3be	Doru Bercea	Prevent the implementation from emitting device exception handling code.	Feb 10 2017, 3:19 PM
81eb5270e3be	361e664769b9	a6f244cec239	Doru Bercea	Prevent the implementation from emitting device exception handling code.	Jan 31 2017, 12:05 PM
a6f244cec239	4a01eb229470	41b26c558d77	Doru Bercea	Prevent the implementation from emitting device exception handling code.	Jan 25 2017, 1:33 PM
41b26c558d77	c1442eb431d5	38aaf5ae0a19	Doru Bercea	Add support for aux-triple flag.	Feb 1 2017, 7:15 AM
38aaf5ae0a19	c42cee846753	0b45f6a058ad	Doru Bercea	Add support for aux-triple flag.	Jan 25 2017, 1:30 PM

Diff 121543

lib/CodeGen/CGOpenMPRuntimeNVPTX.h

Show First 20 Lines • Show All 299 Lines • ▼ Show 20 Lines	public:
};		};

private:		private:
// Track the execution mode when codegening directives within a target		// Track the execution mode when codegening directives within a target
// region. The appropriate mode (generic/spmd) is set on entry to the		// region. The appropriate mode (generic/spmd) is set on entry to the
// target region and used by containing directives such as 'parallel'		// target region and used by containing directives such as 'parallel'
// to emit optimized code.		// to emit optimized code.
ExecutionMode CurrentExecutionMode;		ExecutionMode CurrentExecutionMode;

		/// Map between an outlined function and its wrapper.
		llvm::DenseMap<llvm::Function , llvm::Function > WrapperFunctionsMap;

		/// Emit function which wraps the outline parallel region
		/// and controls the parameters which are passed to this function.
		/// The wrapper ensures that the outlined function is called
		/// with the correct arguments when data is shared.
		llvm::Function *
		createDataSharingWrapper(llvm::Function *OutlinedParallelFn,
		const OMPExecutableDirective &D);
};		};

} // CodeGen namespace.		} // CodeGen namespace.
} // clang namespace.		} // clang namespace.

#endif // LLVM_CLANG_LIB_CODEGEN_CGOPENMPRUNTIMENVPTX_H		#endif // LLVM_CLANG_LIB_CODEGEN_CGOPENMPRUNTIMENVPTX_H

lib/CodeGen/CGOpenMPRuntimeNVPTX.cpp

Show First 20 Lines • Show All 288 Lines • ▼ Show 20 Lines	void CGOpenMPRuntimeNVPTX::emitGenericKernel(const OMPExecutableDirective &D,
llvm::Constant *&OutlinedFnID,		llvm::Constant *&OutlinedFnID,
bool IsOffloadEntry,		bool IsOffloadEntry,
const RegionCodeGenTy &CodeGen) {		const RegionCodeGenTy &CodeGen) {
ExecutionModeRAII ModeRAII(CurrentExecutionMode,		ExecutionModeRAII ModeRAII(CurrentExecutionMode,
CGOpenMPRuntimeNVPTX::ExecutionMode::Generic);		CGOpenMPRuntimeNVPTX::ExecutionMode::Generic);
EntryFunctionState EST;		EntryFunctionState EST;
WorkerFunctionState WST(CGM);		WorkerFunctionState WST(CGM);
Work.clear();		Work.clear();
		WrapperFunctionsMap.clear();

// Emit target region as a standalone region.		// Emit target region as a standalone region.
class NVPTXPrePostActionTy : public PrePostActionTy {		class NVPTXPrePostActionTy : public PrePostActionTy {
CGOpenMPRuntimeNVPTX &RT;		CGOpenMPRuntimeNVPTX &RT;
CGOpenMPRuntimeNVPTX::EntryFunctionState &EST;		CGOpenMPRuntimeNVPTX::EntryFunctionState &EST;
CGOpenMPRuntimeNVPTX::WorkerFunctionState &WST;		CGOpenMPRuntimeNVPTX::WorkerFunctionState &WST;

public:		public:
▲ Show 20 Lines • Show All 157 Lines • ▼ Show 20 Lines	static void setPropertyExecutionMode(CodeGenModule &CGM, StringRef Name,
CGOpenMPRuntimeNVPTX::ExecutionMode Mode) {		CGOpenMPRuntimeNVPTX::ExecutionMode Mode) {
(void)new llvm::GlobalVariable(		(void)new llvm::GlobalVariable(
CGM.getModule(), CGM.Int8Ty, /isConstant=/true,		CGM.getModule(), CGM.Int8Ty, /isConstant=/true,
llvm::GlobalValue::WeakAnyLinkage,		llvm::GlobalValue::WeakAnyLinkage,
llvm::ConstantInt::get(CGM.Int8Ty, Mode), Name + Twine("_exec_mode"));		llvm::ConstantInt::get(CGM.Int8Ty, Mode), Name + Twine("_exec_mode"));
}		}

void CGOpenMPRuntimeNVPTX::emitWorkerFunction(WorkerFunctionState &WST) {		void CGOpenMPRuntimeNVPTX::emitWorkerFunction(WorkerFunctionState &WST) {
auto &Ctx = CGM.getContext();		ASTContext &Ctx = CGM.getContext();

CodeGenFunction CGF(CGM, /suppressNewContext=/true);		CodeGenFunction CGF(CGM, /suppressNewContext=/true);
CGF.disableDebugInfo();		CGF.disableDebugInfo();
		ABataevUnsubmitted Not Done Reply Inline Actions Later we should remove it from the code. ABataev: Later we should remove it from the code.
CGF.StartFunction(GlobalDecl(), Ctx.VoidTy, WST.WorkerFn, *WST.CGFI, {});		CGF.StartFunction(GlobalDecl(), Ctx.VoidTy, WST.WorkerFn, *WST.CGFI, {});
emitWorkerLoop(CGF, WST);		emitWorkerLoop(CGF, WST);
CGF.FinishFunction();		CGF.FinishFunction();
}		}

void CGOpenMPRuntimeNVPTX::emitWorkerLoop(CodeGenFunction &CGF,		void CGOpenMPRuntimeNVPTX::emitWorkerLoop(CodeGenFunction &CGF,
WorkerFunctionState &WST) {		WorkerFunctionState &WST) {
//		//
Show All 23 Lines	void CGOpenMPRuntimeNVPTX::emitWorkerLoop(CodeGenFunction &CGF,

Address WorkFn =		Address WorkFn =
CGF.CreateDefaultAlignTempAlloca(CGF.Int8PtrTy, /Name=/"work_fn");		CGF.CreateDefaultAlignTempAlloca(CGF.Int8PtrTy, /Name=/"work_fn");
Address ExecStatus =		Address ExecStatus =
CGF.CreateDefaultAlignTempAlloca(CGF.Int8Ty, /Name=/"exec_status");		CGF.CreateDefaultAlignTempAlloca(CGF.Int8Ty, /Name=/"exec_status");
CGF.InitTempAlloca(ExecStatus, Bld.getInt8(/C=/0));		CGF.InitTempAlloca(ExecStatus, Bld.getInt8(/C=/0));
CGF.InitTempAlloca(WorkFn, llvm::Constant::getNullValue(CGF.Int8PtrTy));		CGF.InitTempAlloca(WorkFn, llvm::Constant::getNullValue(CGF.Int8PtrTy));

llvm::Value *Args[] = {WorkFn.getPointer()};		// Set up shared arguments
		Address SharedArgs =
		CGF.CreateDefaultAlignTempAlloca(CGF.Int8PtrPtrTy, "shared_args");
		llvm::Value *Args[] = {WorkFn.getPointer(), SharedArgs.getPointer()};
llvm::Value *Ret = CGF.EmitRuntimeCall(		llvm::Value *Ret = CGF.EmitRuntimeCall(
createNVPTXRuntimeFunction(OMPRTL_NVPTX__kmpc_kernel_parallel), Args);		createNVPTXRuntimeFunction(OMPRTL_NVPTX__kmpc_kernel_parallel), Args);
Bld.CreateStore(Bld.CreateZExt(Ret, CGF.Int8Ty), ExecStatus);		Bld.CreateStore(Bld.CreateZExt(Ret, CGF.Int8Ty), ExecStatus);

// On termination condition (workid == 0), exit loop.		// On termination condition (workid == 0), exit loop.
llvm::Value *ShouldTerminate =		llvm::Value *ShouldTerminate =
Bld.CreateIsNull(Bld.CreateLoad(WorkFn), "should_terminate");		Bld.CreateIsNull(Bld.CreateLoad(WorkFn), "should_terminate");
Bld.CreateCondBr(ShouldTerminate, ExitBB, SelectWorkersBB);		Bld.CreateCondBr(ShouldTerminate, ExitBB, SelectWorkersBB);

// Activate requested workers.		// Activate requested workers.
CGF.EmitBlock(SelectWorkersBB);		CGF.EmitBlock(SelectWorkersBB);
llvm::Value *IsActive =		llvm::Value *IsActive =
Bld.CreateIsNotNull(Bld.CreateLoad(ExecStatus), "is_active");		Bld.CreateIsNotNull(Bld.CreateLoad(ExecStatus), "is_active");
Bld.CreateCondBr(IsActive, ExecuteBB, BarrierBB);		Bld.CreateCondBr(IsActive, ExecuteBB, BarrierBB);

// Signal start of parallel region.		// Signal start of parallel region.
CGF.EmitBlock(ExecuteBB);		CGF.EmitBlock(ExecuteBB);

		// Current context
		ASTContext &Ctx = CGF.getContext();

// Process work items: outlined parallel functions.		// Process work items: outlined parallel functions.
for (auto *W : Work) {		for (auto *W : Work) {
// Try to match this outlined function.		// Try to match this outlined function.
auto *ID = Bld.CreatePointerBitCastOrAddrSpaceCast(W, CGM.Int8PtrTy);		auto *ID = Bld.CreatePointerBitCastOrAddrSpaceCast(W, CGM.Int8PtrTy);

llvm::Value *WorkFnMatch =		llvm::Value *WorkFnMatch =
Bld.CreateICmpEQ(Bld.CreateLoad(WorkFn), ID, "work_match");		Bld.CreateICmpEQ(Bld.CreateLoad(WorkFn), ID, "work_match");

llvm::BasicBlock *ExecuteFNBB = CGF.createBasicBlock(".execute.fn");		llvm::BasicBlock *ExecuteFNBB = CGF.createBasicBlock(".execute.fn");
llvm::BasicBlock *CheckNextBB = CGF.createBasicBlock(".check.next");		llvm::BasicBlock *CheckNextBB = CGF.createBasicBlock(".check.next");
Bld.CreateCondBr(WorkFnMatch, ExecuteFNBB, CheckNextBB);		Bld.CreateCondBr(WorkFnMatch, ExecuteFNBB, CheckNextBB);

// Execute this outlined function.		// Execute this outlined function.
CGF.EmitBlock(ExecuteFNBB);		CGF.EmitBlock(ExecuteFNBB);

// Insert call to work function.		// Insert call to work function via shared wrapper. The shared
// FIXME: Pass arguments to outlined function from master thread.		// wrapper takes exactly three arguments:
auto *Fn = cast<llvm::Function>(W);		// - the parallelism level;
Address ZeroAddr =		// - the master thread ID;
CGF.CreateDefaultAlignTempAlloca(CGF.Int32Ty, /Name=/".zero.addr");		// - the list of references to shared arguments.
CGF.InitTempAlloca(ZeroAddr, CGF.Builder.getInt32(/C=/0));		//
llvm::Value *FnArgs[] = {ZeroAddr.getPointer(), ZeroAddr.getPointer()};		// TODO: Assert that the function is a wrapper function.s
emitCall(CGF, Fn, FnArgs);		Address Capture = CGF.EmitLoadOfPointer(SharedArgs,
		Ctx.getPointerType(
		Ctx.getPointerType(Ctx.VoidPtrTy)).castAs<PointerType>());
		emitCall(CGF, W, {Bld.getInt16(/ParallelLevel=/0),
		getMasterThreadID(CGF), Capture.getPointer()});

// Go to end of parallel region.		// Go to end of parallel region.
CGF.EmitBranch(TerminateBB);		CGF.EmitBranch(TerminateBB);

CGF.EmitBlock(CheckNextBB);		CGF.EmitBlock(CheckNextBB);
}		}

// Signal end of parallel region.		// Signal end of parallel region.
▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines	case OMPRTL_NVPTX__kmpc_spmd_kernel_deinit: {
// Build void __kmpc_spmd_kernel_deinit();		// Build void __kmpc_spmd_kernel_deinit();
llvm::FunctionType *FnTy =		llvm::FunctionType *FnTy =
llvm::FunctionType::get(CGM.VoidTy, llvm::None, /isVarArg/ false);		llvm::FunctionType::get(CGM.VoidTy, llvm::None, /isVarArg/ false);
RTLFn = CGM.CreateRuntimeFunction(FnTy, "__kmpc_spmd_kernel_deinit");		RTLFn = CGM.CreateRuntimeFunction(FnTy, "__kmpc_spmd_kernel_deinit");
break;		break;
}		}
case OMPRTL_NVPTX__kmpc_kernel_prepare_parallel: {		case OMPRTL_NVPTX__kmpc_kernel_prepare_parallel: {
/// Build void __kmpc_kernel_prepare_parallel(		/// Build void __kmpc_kernel_prepare_parallel(
/// void *outlined_function);		/// void outlined_function, void **args, kmp_int32 nArgs);
llvm::Type *TypeParams[] = {CGM.Int8PtrTy};		llvm::Type *TypeParams[] = {CGM.Int8PtrTy,
		CGM.Int8PtrPtrTy->getPointerTo(0), CGM.Int32Ty};
llvm::FunctionType *FnTy =		llvm::FunctionType *FnTy =
llvm::FunctionType::get(CGM.VoidTy, TypeParams, /isVarArg/ false);		llvm::FunctionType::get(CGM.VoidTy, TypeParams, /isVarArg/ false);
RTLFn = CGM.CreateRuntimeFunction(FnTy, "__kmpc_kernel_prepare_parallel");		RTLFn = CGM.CreateRuntimeFunction(FnTy, "__kmpc_kernel_prepare_parallel");
break;		break;
}		}
case OMPRTL_NVPTX__kmpc_kernel_parallel: {		case OMPRTL_NVPTX__kmpc_kernel_parallel: {
/// Build bool __kmpc_kernel_parallel(void **outlined_function);		/// Build bool __kmpc_kernel_parallel(void outlined_function, void *args);
llvm::Type *TypeParams[] = {CGM.Int8PtrPtrTy};		llvm::Type *TypeParams[] = {CGM.Int8PtrPtrTy,
		CGM.Int8PtrPtrTy->getPointerTo(0)};
llvm::Type *RetTy = CGM.getTypes().ConvertType(CGM.getContext().BoolTy);		llvm::Type *RetTy = CGM.getTypes().ConvertType(CGM.getContext().BoolTy);
llvm::FunctionType *FnTy =		llvm::FunctionType *FnTy =
llvm::FunctionType::get(RetTy, TypeParams, /isVarArg/ false);		llvm::FunctionType::get(RetTy, TypeParams, /isVarArg/ false);
RTLFn = CGM.CreateRuntimeFunction(FnTy, "__kmpc_kernel_parallel");		RTLFn = CGM.CreateRuntimeFunction(FnTy, "__kmpc_kernel_parallel");
break;		break;
}		}
case OMPRTL_NVPTX__kmpc_kernel_end_parallel: {		case OMPRTL_NVPTX__kmpc_kernel_end_parallel: {
/// Build void __kmpc_kernel_end_parallel();		/// Build void __kmpc_kernel_end_parallel();
▲ Show 20 Lines • Show All 202 Lines • ▼ Show 20 Lines
void CGOpenMPRuntimeNVPTX::emitNumTeamsClause(CodeGenFunction &CGF,		void CGOpenMPRuntimeNVPTX::emitNumTeamsClause(CodeGenFunction &CGF,
const Expr *NumTeams,		const Expr *NumTeams,
const Expr *ThreadLimit,		const Expr *ThreadLimit,
SourceLocation Loc) {}		SourceLocation Loc) {}

llvm::Value *CGOpenMPRuntimeNVPTX::emitParallelOutlinedFunction(		llvm::Value *CGOpenMPRuntimeNVPTX::emitParallelOutlinedFunction(
const OMPExecutableDirective &D, const VarDecl *ThreadIDVar,		const OMPExecutableDirective &D, const VarDecl *ThreadIDVar,
OpenMPDirectiveKind InnermostKind, const RegionCodeGenTy &CodeGen) {		OpenMPDirectiveKind InnermostKind, const RegionCodeGenTy &CodeGen) {
return CGOpenMPRuntime::emitParallelOutlinedFunction(D, ThreadIDVar,
InnermostKind, CodeGen);		auto *OutlinedFun = cast<llvm::Function>(
		CGOpenMPRuntime::emitParallelOutlinedFunction(
		D, ThreadIDVar, InnermostKind, CodeGen));
		if (!isInSpmdExecutionMode()) {
		llvm::Function *WrapperFun =
		createDataSharingWrapper(OutlinedFun, D);
		WrapperFunctionsMap[OutlinedFun] = WrapperFun;
		}

		return OutlinedFun;
}		}

llvm::Value *CGOpenMPRuntimeNVPTX::emitTeamsOutlinedFunction(		llvm::Value *CGOpenMPRuntimeNVPTX::emitTeamsOutlinedFunction(
const OMPExecutableDirective &D, const VarDecl *ThreadIDVar,		const OMPExecutableDirective &D, const VarDecl *ThreadIDVar,
OpenMPDirectiveKind InnermostKind, const RegionCodeGenTy &CodeGen) {		OpenMPDirectiveKind InnermostKind, const RegionCodeGenTy &CodeGen) {

llvm::Value *OutlinedFunVal = CGOpenMPRuntime::emitTeamsOutlinedFunction(		llvm::Value *OutlinedFunVal = CGOpenMPRuntime::emitTeamsOutlinedFunction(
D, ThreadIDVar, InnermostKind, CodeGen);		D, ThreadIDVar, InnermostKind, CodeGen);
Show All 35 Lines	void CGOpenMPRuntimeNVPTX::emitParallelCall(
else		else
emitGenericParallelCall(CGF, Loc, OutlinedFn, CapturedVars, IfCond);		emitGenericParallelCall(CGF, Loc, OutlinedFn, CapturedVars, IfCond);
}		}

void CGOpenMPRuntimeNVPTX::emitGenericParallelCall(		void CGOpenMPRuntimeNVPTX::emitGenericParallelCall(
CodeGenFunction &CGF, SourceLocation Loc, llvm::Value *OutlinedFn,		CodeGenFunction &CGF, SourceLocation Loc, llvm::Value *OutlinedFn,
ArrayRef<llvm::Value > CapturedVars, const Expr IfCond) {		ArrayRef<llvm::Value > CapturedVars, const Expr IfCond) {
llvm::Function *Fn = cast<llvm::Function>(OutlinedFn);		llvm::Function *Fn = cast<llvm::Function>(OutlinedFn);
		llvm::Function *WFn = WrapperFunctionsMap[Fn];
		assert(WFn && "Wrapper function does not exist!");

		// Force inline this outlined function at its call site.
		Fn->setLinkage(llvm::GlobalValue::InternalLinkage);

auto &&L0ParallelGen = [this, Fn](CodeGenFunction &CGF, PrePostActionTy &) {		auto &&L0ParallelGen = [this, WFn, &CapturedVars](CodeGenFunction &CGF,
		PrePostActionTy &) {
CGBuilderTy &Bld = CGF.Builder;		CGBuilderTy &Bld = CGF.Builder;

		llvm::Value *ID = Bld.CreateBitOrPointerCast(WFn, CGM.Int8PtrTy);

		if (!CapturedVars.empty()) {
// Prepare for parallel region. Indicate the outlined function.		// Prepare for parallel region. Indicate the outlined function.
llvm::Value *Args[] = {Bld.CreateBitOrPointerCast(Fn, CGM.Int8PtrTy)};		Address SharedArgs =
		CGF.CreateDefaultAlignTempAlloca(CGF.VoidPtrPtrTy,
		"shared_args");
		llvm::Value *SharedArgsPtr = SharedArgs.getPointer();
		llvm::Value *Args[] = {ID, SharedArgsPtr,
		Bld.getInt32(CapturedVars.size())};

CGF.EmitRuntimeCall(		CGF.EmitRuntimeCall(
createNVPTXRuntimeFunction(OMPRTL_NVPTX__kmpc_kernel_prepare_parallel),		createNVPTXRuntimeFunction(OMPRTL_NVPTX__kmpc_kernel_prepare_parallel),
Args);		Args);

		unsigned Idx = 0;
		ASTContext &Ctx = CGF.getContext();
		for (llvm::Value *V : CapturedVars) {
		Address Dst = Bld.CreateConstInBoundsGEP(
		CGF.EmitLoadOfPointer(SharedArgs,
		Ctx.getPointerType(
		Ctx.getPointerType(Ctx.VoidPtrTy)).castAs<PointerType>()),
		Idx, CGF.getPointerSize());
		llvm::Value *PtrV = Bld.CreateBitCast(V, CGF.VoidPtrTy);
		CGF.EmitStoreOfScalar(PtrV, Dst, /Volatile=/false,
		Ctx.getPointerType(Ctx.VoidPtrTy));
		Idx++;
		}
		} else {
		llvm::Value *Args[] = {ID,
		llvm::ConstantPointerNull::get(CGF.VoidPtrPtrTy->getPointerTo(0)),
		/nArgs=/Bld.getInt32(0)};
		CGF.EmitRuntimeCall(
		createNVPTXRuntimeFunction(OMPRTL_NVPTX__kmpc_kernel_prepare_parallel),
		Args);
		}

// Activate workers. This barrier is used by the master to signal		// Activate workers. This barrier is used by the master to signal
// work for the workers.		// work for the workers.
syncCTAThreads(CGF);		syncCTAThreads(CGF);

// OpenMP [2.5, Parallel Construct, p.49]		// OpenMP [2.5, Parallel Construct, p.49]
// There is an implied barrier at the end of a parallel region. After the		// There is an implied barrier at the end of a parallel region. After the
// end of a parallel region, only the master thread of the team resumes		// end of a parallel region, only the master thread of the team resumes
// execution of the enclosing task region.		// execution of the enclosing task region.
//		//
// The master waits at this barrier until all workers are done.		// The master waits at this barrier until all workers are done.
syncCTAThreads(CGF);		syncCTAThreads(CGF);

// Remember for post-processing in worker loop.		// Remember for post-processing in worker loop.
Work.push_back(Fn);		Work.emplace_back(WFn);
};		};

auto *RTLoc = emitUpdateLocation(CGF, Loc);		auto *RTLoc = emitUpdateLocation(CGF, Loc);
auto *ThreadID = getThreadID(CGF, Loc);		auto *ThreadID = getThreadID(CGF, Loc);
llvm::Value *Args[] = {RTLoc, ThreadID};		llvm::Value *Args[] = {RTLoc, ThreadID};

auto &&SeqGen = [this, Fn, &CapturedVars, &Args, Loc](CodeGenFunction &CGF,		auto &&SeqGen = [this, Fn, &CapturedVars, &Args, Loc](CodeGenFunction &CGF,
PrePostActionTy &) {		PrePostActionTy &) {
▲ Show 20 Lines • Show All 1,379 Lines • ▼ Show 20 Lines	for (unsigned I = 0, E = Args.size(); I < E; ++I) {
llvm::Value *TargetArg = CGF.Builder.CreatePointerBitCastOrAddrSpaceCast(		llvm::Value *TargetArg = CGF.Builder.CreatePointerBitCastOrAddrSpaceCast(
NativeArg, NativeArg->getType()->getPointerElementType()->getPointerTo(		NativeArg, NativeArg->getType()->getPointerElementType()->getPointerTo(
/AddrSpace=/0));		/AddrSpace=/0));
TargetArgs.emplace_back(		TargetArgs.emplace_back(
CGF.Builder.CreatePointerBitCastOrAddrSpaceCast(TargetArg, TargetType));		CGF.Builder.CreatePointerBitCastOrAddrSpaceCast(TargetArg, TargetType));
}		}
CGOpenMPRuntime::emitOutlinedFunctionCall(CGF, Loc, OutlinedFn, TargetArgs);		CGOpenMPRuntime::emitOutlinedFunctionCall(CGF, Loc, OutlinedFn, TargetArgs);
}		}

		/// Emit function which wraps the outline parallel region
		/// and controls the arguments which are passed to this function.
		/// The wrapper ensures that the outlined function is called
		/// with the correct arguments when data is shared.
		llvm::Function *CGOpenMPRuntimeNVPTX::createDataSharingWrapper(
		llvm::Function *OutlinedParallelFn, const OMPExecutableDirective &D) {
		ASTContext &Ctx = CGM.getContext();
		const auto &CS = *cast<CapturedStmt>(D.getAssociatedStmt());

		// Create a function that takes as argument the source thread.
		FunctionArgList WrapperArgs;
		QualType Int16QTy =
		Ctx.getIntTypeForBitwidth(/DestWidth=/16, /Signed=/false);
		QualType Int32QTy =
		HahnfeldUnsubmitted Done Reply Inline Actions Is this meant to be a comment or should there be something happening here? Hahnfeld: Is this meant to be a comment or should there be something happening here?
		Ctx.getIntTypeForBitwidth(/DestWidth=/32, /Signed=/false);
		QualType Int32PtrQTy = Ctx.getPointerType(Int32QTy);
		QualType VoidPtrPtrQTy = Ctx.getPointerType(Ctx.VoidPtrTy);
		HahnfeldUnsubmitted Done Reply Inline Actions Especially, `NextBB` can never be anything else than `nullptr`... Hahnfeld: Especially, `NextBB` can never be anything else than `nullptr`...
		ImplicitParamDecl ParallelLevelArg(Ctx, Int16QTy, ImplicitParamDecl::Other);
		ImplicitParamDecl WrapperArg(Ctx, Int32QTy, ImplicitParamDecl::Other);
		ImplicitParamDecl SharedArgsList(Ctx, VoidPtrPtrQTy,
		ImplicitParamDecl::Other);
		WrapperArgs.emplace_back(&ParallelLevelArg);
		WrapperArgs.emplace_back(&WrapperArg);
		WrapperArgs.emplace_back(&SharedArgsList);

		auto &CGFI =
		CGM.getTypes().arrangeBuiltinFunctionDeclaration(Ctx.VoidTy, WrapperArgs);

		auto *Fn = llvm::Function::Create(
		CGM.getTypes().GetFunctionType(CGFI), llvm::GlobalValue::InternalLinkage,
		OutlinedParallelFn->getName() + "_wrapper", &CGM.getModule());
		CGM.SetInternalFunctionAttributes(/D=/nullptr, Fn, CGFI);
		Fn->setLinkage(llvm::GlobalValue::InternalLinkage);

		CodeGenFunction CGF(CGM, /suppressNewContext=/true);
		CGF.StartFunction(GlobalDecl(), Ctx.VoidTy, Fn, CGFI, WrapperArgs);

		const auto *RD = CS.getCapturedRecordDecl();
		auto CurField = RD->field_begin();

		// Get the array of arguments.
		SmallVector<llvm::Value *, 8> Args;

		// TODO: suppport SIMD and pass actual values
		Args.emplace_back(llvm::ConstantPointerNull::get(
		CGM.Int32Ty->getPointerTo()));
		Args.emplace_back(llvm::ConstantPointerNull::get(
		CGM.Int32Ty->getPointerTo()));

		CGBuilderTy &Bld = CGF.Builder;
		auto CI = CS.capture_begin();

		// Load the start of the array
		auto SharedArgs =
		CGF.EmitLoadOfPointer(CGF.GetAddrOfLocalVar(&SharedArgsList),
		VoidPtrPtrQTy->castAs<PointerType>());

		// For each captured variable
		for (unsigned I = 0; I < CS.capture_size(); ++I, ++CI, ++CurField) {
		// Name of captured variable
		StringRef Name;
		if (CI->capturesThis())
		Name = "this";
		else
		Name = CI->getCapturedVar()->getName();

		// We retrieve the CLANG type of the argument. We use it to create
		// an alloca which will give us the LLVM type.
		QualType ElemTy = CurField->getType();
		// If this is a capture by copy the element type has to be the pointer to
		// the data.
		if (CI->capturesVariableByCopy())
		ElemTy = Ctx.getPointerType(ElemTy);

		// Get shared address of the captured variable.
		Address ArgAddress = Bld.CreateConstInBoundsGEP(
		SharedArgs, I, CGF.getPointerSize());
		Address TypedArgAddress = Bld.CreateBitCast(
		ArgAddress, CGF.ConvertTypeForMem(Ctx.getPointerType(ElemTy)));
		llvm::Value *Arg = CGF.EmitLoadOfScalar(TypedArgAddress,
		/Volatile=/false, Int32PtrQTy, SourceLocation());
		Args.emplace_back(Arg);
		}

		emitCall(CGF, OutlinedParallelFn, Args);
		CGF.FinishFunction();
		return Fn;
		}

test/OpenMP/nvptx_data_sharing.cpp

This file was added.

				// Test device data sharing codegen.
				///==========================================================================///

				// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple powerpc64le-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm-bc %s -o %t-ppc-host.bc
				// RUN: %clang_cc1 -verify -fopenmp -x c++ -triple nvptx64-unknown-unknown -fopenmp-targets=nvptx64-nvidia-cuda -emit-llvm %s -fopenmp-is-device -fopenmp-host-ir-file-path %t-ppc-host.bc -o - \| FileCheck %s --check-prefix CK1

				// expected-no-diagnostics

				#ifndef HEADER
				#define HEADER

				void test_ds(){
				#pragma omp target
				{
				int a = 10;
				#pragma omp parallel
				{
				a = 1000;
				}
				}
				}

				/// ========= In the worker function ========= ///

				// CK1: define internal void @__omp_offloading_{{.}}test_ds{{.}}worker(){{.*}}{
				// CK1: [[SHAREDARGS:%.+]] = alloca i8**
				// CK1: call i1 @__kmpc_kernel_parallel(i8 %work_fn, i8* [[SHAREDARGS]])
				// CK1: [[SHARGSTMP:%.+]] = load i8, i8* [[SHAREDARGS]]
				// CK1: call void @__omp_outlined___wrapper{{.}}({{.}}, i8** %5)

				/// ========= In the kernel function ========= ///

				// CK1: {{.}}define void @__omp_offloading{{.}}test_ds{{.*}}()
				// CK1: [[SHAREDARGS1:%.+]] = alloca i8**
				// CK1: call void @__kmpc_kernel_prepare_parallel({{.}}, i8** [[SHAREDARGS1]], i32 1)
				// CK1: [[SHARGSTMP1:%.+]] = load i8, i8* [[SHAREDARGS1]]
				// CK1: [[SHARGSTMP2:%.+]] = getelementptr inbounds i8, i8* [[SHARGSTMP1]]
				// CK1: [[SHAREDVAR:%.+]] = bitcast i32* {{.}} to i8
				// CK1: store i8* [[SHAREDVAR]], i8** [[SHARGSTMP2]]

				/// ========= In the data sharing wrapper function ========= ///

				// CK1: {{.}}define internal void @__omp_outlined___wrapper({{.}}i8*){{.}}{
				// CK1: [[SHAREDARGS2:%.+]] = alloca i8**
				// CK1: store i8 %2, i8* [[SHAREDARGS2]]
				// CK1: [[SHARGSTMP3:%.+]] = load i8, i8* [[SHAREDARGS2]]
				// CK1: [[SHARGSTMP4:%.+]] = getelementptr inbounds i8, i8* [[SHARGSTMP3]]
				// CK1: [[SHARGSTMP5:%.+]] = bitcast i8 [[SHARGSTMP4]] to i32
				// CK1: [[SHARGSTMP6:%.+]] = load i32, i32* [[SHARGSTMP5]]
				// CK1: call void @__omp_outlined__({{.}}, i32 [[SHARGSTMP6]])

				#endif
				No newline at end of file

test/OpenMP/nvptx_parallel_codegen.cpp

Show First 20 Lines • Show All 72 Lines • ▼ Show 20 Lines	int bar(int n){
// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,		// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,
// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,		// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,
// CHECK: store i8* null, i8** [[OMP_WORK_FN]],		// CHECK: store i8* null, i8** [[OMP_WORK_FN]],
// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],		// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],
// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]		// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]
//		//
// CHECK: [[AWAIT_WORK]]		// CHECK: [[AWAIT_WORK]]
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
// CHECK: [[KPR:%.+]] = call i1 @__kmpc_kernel_parallel(i8** [[OMP_WORK_FN]])		// CHECK: [[KPR:%.+]] = call i1 @__kmpc_kernel_parallel(i8** [[OMP_WORK_FN]],
// CHECK: [[KPRB:%.+]] = zext i1 [[KPR]] to i8		// CHECK: [[KPRB:%.+]] = zext i1 [[KPR]] to i8
// store i8 [[KPRB]], i8* [[OMP_EXEC_STATUS]], align 1		// store i8 [[KPRB]], i8* [[OMP_EXEC_STATUS]], align 1
// CHECK: [[WORK:%.+]] = load i8, i8* [[OMP_WORK_FN]],		// CHECK: [[WORK:%.+]] = load i8, i8* [[OMP_WORK_FN]],
// CHECK: [[SHOULD_EXIT:%.+]] = icmp eq i8* [[WORK]], null		// CHECK: [[SHOULD_EXIT:%.+]] = icmp eq i8* [[WORK]], null
// CHECK: br i1 [[SHOULD_EXIT]], label {{%?}}[[EXIT:.+]], label {{%?}}[[SEL_WORKERS:.+]]		// CHECK: br i1 [[SHOULD_EXIT]], label {{%?}}[[EXIT:.+]], label {{%?}}[[SEL_WORKERS:.+]]
//		//
// CHECK: [[SEL_WORKERS]]		// CHECK: [[SEL_WORKERS]]
// CHECK: [[ST:%.+]] = load i8, i8* [[OMP_EXEC_STATUS]]		// CHECK: [[ST:%.+]] = load i8, i8* [[OMP_EXEC_STATUS]]
// CHECK: [[IS_ACTIVE:%.+]] = icmp ne i8 [[ST]], 0		// CHECK: [[IS_ACTIVE:%.+]] = icmp ne i8 [[ST]], 0
// CHECK: br i1 [[IS_ACTIVE]], label {{%?}}[[EXEC_PARALLEL:.+]], label {{%?}}[[BAR_PARALLEL:.+]]		// CHECK: br i1 [[IS_ACTIVE]], label {{%?}}[[EXEC_PARALLEL:.+]], label {{%?}}[[BAR_PARALLEL:.+]]
//		//
// CHECK: [[EXEC_PARALLEL]]		// CHECK: [[EXEC_PARALLEL]]
// CHECK: [[WF1:%.+]] = load i8, i8* [[OMP_WORK_FN]],		// CHECK: [[WF1:%.+]] = load i8, i8* [[OMP_WORK_FN]],
// CHECK: [[WM1:%.+]] = icmp eq i8* [[WF1]], bitcast (void (i32, i32)* [[PARALLEL_FN1:@.+]] to i8*)		// CHECK: [[WM1:%.+]] = icmp eq i8* [[WF1]], bitcast (void (i16, i32, i8*) [[PARALLEL_FN1:@.+]]_wrapper to i8*)
// CHECK: br i1 [[WM1]], label {{%?}}[[EXEC_PFN1:.+]], label {{%?}}[[CHECK_NEXT1:.+]]		// CHECK: br i1 [[WM1]], label {{%?}}[[EXEC_PFN1:.+]], label {{%?}}[[CHECK_NEXT1:.+]]
//		//
// CHECK: [[EXEC_PFN1]]		// CHECK: [[EXEC_PFN1]]
// CHECK: call void [[PARALLEL_FN1]](		// CHECK: call void [[PARALLEL_FN1]]_wrapper(
// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]		// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]
//		//
// CHECK: [[CHECK_NEXT1]]		// CHECK: [[CHECK_NEXT1]]
// CHECK: [[WF2:%.+]] = load i8, i8* [[OMP_WORK_FN]],		// CHECK: [[WF2:%.+]] = load i8, i8* [[OMP_WORK_FN]],
// CHECK: [[WM2:%.+]] = icmp eq i8* [[WF2]], bitcast (void (i32, i32)* [[PARALLEL_FN2:@.+]] to i8*)		// CHECK: [[WM2:%.+]] = icmp eq i8* [[WF2]], bitcast (void (i16, i32, i8*) [[PARALLEL_FN2:@.+]]_wrapper to i8*)
// CHECK: br i1 [[WM2]], label {{%?}}[[EXEC_PFN2:.+]], label {{%?}}[[CHECK_NEXT2:.+]]		// CHECK: br i1 [[WM2]], label {{%?}}[[EXEC_PFN2:.+]], label {{%?}}[[CHECK_NEXT2:.+]]
//		//
// CHECK: [[EXEC_PFN2]]		// CHECK: [[EXEC_PFN2]]
// CHECK: call void [[PARALLEL_FN2]](		// CHECK: call void [[PARALLEL_FN2]]_wrapper(
// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]		// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]
//		//
// CHECK: [[CHECK_NEXT2]]		// CHECK: [[CHECK_NEXT2]]
// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]		// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]
//		//
// CHECK: [[TERM_PARALLEL]]		// CHECK: [[TERM_PARALLEL]]
// CHECK: call void @__kmpc_kernel_end_parallel()		// CHECK: call void @__kmpc_kernel_end_parallel()
// CHECK: br label {{%?}}[[BAR_PARALLEL]]		// CHECK: br label {{%?}}[[BAR_PARALLEL]]
Show All 30 Lines	int bar(int n){
// CHECK: [[IS_MASTER:%.+]] = icmp eq i32 [[CMTID]],		// CHECK: [[IS_MASTER:%.+]] = icmp eq i32 [[CMTID]],
// CHECK: br i1 [[IS_MASTER]], label {{%?}}[[MASTER:.+]], label {{%?}}[[EXIT]]		// CHECK: br i1 [[IS_MASTER]], label {{%?}}[[MASTER:.+]], label {{%?}}[[EXIT]]
//		//
// CHECK: [[MASTER]]		// CHECK: [[MASTER]]
// CHECK-DAG: [[MNTH:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()		// CHECK-DAG: [[MNTH:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.ntid.x()
// CHECK-DAG: [[MWS:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()		// CHECK-DAG: [[MWS:%.+]] = call i32 @llvm.nvvm.read.ptx.sreg.warpsize()
// CHECK: [[MTMP1:%.+]] = sub i32 [[MNTH]], [[MWS]]		// CHECK: [[MTMP1:%.+]] = sub i32 [[MNTH]], [[MWS]]
// CHECK: call void @__kmpc_kernel_init(i32 [[MTMP1]]		// CHECK: call void @__kmpc_kernel_init(i32 [[MTMP1]]
// CHECK: call void @__kmpc_kernel_prepare_parallel(i8* bitcast (void (i32, i32)* [[PARALLEL_FN1]] to i8*))		// CHECK: call void @__kmpc_kernel_prepare_parallel(i8* bitcast (void (i16, i32, i8*) [[PARALLEL_FN1]]_wrapper to i8*),
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
// CHECK: call void @__kmpc_serialized_parallel(		// CHECK: call void @__kmpc_serialized_parallel(
// CHECK: {{call\|invoke}} void [[PARALLEL_FN3:@.+]](		// CHECK: {{call\|invoke}} void [[PARALLEL_FN3:@.+]](
// CHECK: call void @__kmpc_end_serialized_parallel(		// CHECK: call void @__kmpc_end_serialized_parallel(
// CHECK: call void @__kmpc_kernel_prepare_parallel(i8* bitcast (void (i32, i32)* [[PARALLEL_FN2]] to i8*))		// CHECK: call void @__kmpc_kernel_prepare_parallel(i8* bitcast (void (i16, i32, i8*) [[PARALLEL_FN2]]_wrapper to i8*),
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
// CHECK-64-DAG: load i32, i32* [[REF_A]]		// CHECK-64-DAG: load i32, i32* [[REF_A]]
// CHECK-32-DAG: load i32, i32* [[LOCAL_A]]		// CHECK-32-DAG: load i32, i32* [[LOCAL_A]]
// CHECK: br label {{%?}}[[TERMINATE:.+]]		// CHECK: br label {{%?}}[[TERMINATE:.+]]
//		//
// CHECK: [[TERMINATE]]		// CHECK: [[TERMINATE]]
// CHECK: call void @__kmpc_kernel_deinit()		// CHECK: call void @__kmpc_kernel_deinit()
Show All 28 Lines	int bar(int n){
// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,		// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,
// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,		// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,
// CHECK: store i8* null, i8** [[OMP_WORK_FN]],		// CHECK: store i8* null, i8** [[OMP_WORK_FN]],
// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],		// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],
// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]		// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]
//		//
// CHECK: [[AWAIT_WORK]]		// CHECK: [[AWAIT_WORK]]
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
// CHECK: [[KPR:%.+]] = call i1 @__kmpc_kernel_parallel(i8** [[OMP_WORK_FN]])		// CHECK: [[KPR:%.+]] = call i1 @__kmpc_kernel_parallel(i8** [[OMP_WORK_FN]],
// CHECK: [[KPRB:%.+]] = zext i1 [[KPR]] to i8		// CHECK: [[KPRB:%.+]] = zext i1 [[KPR]] to i8
// store i8 [[KPRB]], i8* [[OMP_EXEC_STATUS]], align 1		// store i8 [[KPRB]], i8* [[OMP_EXEC_STATUS]], align 1
// CHECK: [[WORK:%.+]] = load i8, i8* [[OMP_WORK_FN]],		// CHECK: [[WORK:%.+]] = load i8, i8* [[OMP_WORK_FN]],
// CHECK: [[SHOULD_EXIT:%.+]] = icmp eq i8* [[WORK]], null		// CHECK: [[SHOULD_EXIT:%.+]] = icmp eq i8* [[WORK]], null
// CHECK: br i1 [[SHOULD_EXIT]], label {{%?}}[[EXIT:.+]], label {{%?}}[[SEL_WORKERS:.+]]		// CHECK: br i1 [[SHOULD_EXIT]], label {{%?}}[[EXIT:.+]], label {{%?}}[[SEL_WORKERS:.+]]
//		//
// CHECK: [[SEL_WORKERS]]		// CHECK: [[SEL_WORKERS]]
// CHECK: [[ST:%.+]] = load i8, i8* [[OMP_EXEC_STATUS]]		// CHECK: [[ST:%.+]] = load i8, i8* [[OMP_EXEC_STATUS]]
// CHECK: [[IS_ACTIVE:%.+]] = icmp ne i8 [[ST]], 0		// CHECK: [[IS_ACTIVE:%.+]] = icmp ne i8 [[ST]], 0
// CHECK: br i1 [[IS_ACTIVE]], label {{%?}}[[EXEC_PARALLEL:.+]], label {{%?}}[[BAR_PARALLEL:.+]]		// CHECK: br i1 [[IS_ACTIVE]], label {{%?}}[[EXEC_PARALLEL:.+]], label {{%?}}[[BAR_PARALLEL:.+]]
//		//
// CHECK: [[EXEC_PARALLEL]]		// CHECK: [[EXEC_PARALLEL]]
// CHECK: [[WF:%.+]] = load i8, i8* [[OMP_WORK_FN]],		// CHECK: [[WF:%.+]] = load i8, i8* [[OMP_WORK_FN]],
// CHECK: [[WM:%.+]] = icmp eq i8* [[WF]], bitcast (void (i32, i32)* [[PARALLEL_FN4:@.+]] to i8*)		// CHECK: [[WM:%.+]] = icmp eq i8* [[WF]], bitcast (void (i16, i32, i8*) [[PARALLEL_FN4:@.+]]_wrapper to i8*)
// CHECK: br i1 [[WM]], label {{%?}}[[EXEC_PFN:.+]], label {{%?}}[[CHECK_NEXT:.+]]		// CHECK: br i1 [[WM]], label {{%?}}[[EXEC_PFN:.+]], label {{%?}}[[CHECK_NEXT:.+]]
//		//
// CHECK: [[EXEC_PFN]]		// CHECK: [[EXEC_PFN]]
// CHECK: call void [[PARALLEL_FN4]](		// CHECK: call void [[PARALLEL_FN4]]_wrapper(
// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]		// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]
//		//
// CHECK: [[CHECK_NEXT]]		// CHECK: [[CHECK_NEXT]]
// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]		// CHECK: br label {{%?}}[[TERM_PARALLEL:.+]]
//		//
// CHECK: [[TERM_PARALLEL]]		// CHECK: [[TERM_PARALLEL]]
// CHECK: call void @__kmpc_kernel_end_parallel()		// CHECK: call void @__kmpc_kernel_end_parallel()
// CHECK: br label {{%?}}[[BAR_PARALLEL]]		// CHECK: br label {{%?}}[[BAR_PARALLEL]]
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	int bar(int n){
// CHECK: [[MTMP1:%.+]] = sub i32 [[MNTH]], [[MWS]]		// CHECK: [[MTMP1:%.+]] = sub i32 [[MNTH]], [[MWS]]
// CHECK: call void @__kmpc_kernel_init(i32 [[MTMP1]]		// CHECK: call void @__kmpc_kernel_init(i32 [[MTMP1]]
// CHECK-64: [[N:%.+]] = load i32, i32* [[REF_N]],		// CHECK-64: [[N:%.+]] = load i32, i32* [[REF_N]],
// CHECK-32: [[N:%.+]] = load i32, i32* [[LOCAL_N]],		// CHECK-32: [[N:%.+]] = load i32, i32* [[LOCAL_N]],
// CHECK: [[CMP:%.+]] = icmp sgt i32 [[N]], 1000		// CHECK: [[CMP:%.+]] = icmp sgt i32 [[N]], 1000
// CHECK: br i1 [[CMP]], label {{%?}}[[IF_THEN:.+]], label {{%?}}[[IF_ELSE:.+]]		// CHECK: br i1 [[CMP]], label {{%?}}[[IF_THEN:.+]], label {{%?}}[[IF_ELSE:.+]]
//		//
// CHECK: [[IF_THEN]]		// CHECK: [[IF_THEN]]
// CHECK: call void @__kmpc_kernel_prepare_parallel(i8* bitcast (void (i32, i32)* [[PARALLEL_FN4]] to i8*))		// CHECK: call void @__kmpc_kernel_prepare_parallel(i8* bitcast (void (i16, i32, i8*) [[PARALLEL_FN4]]_wrapper to i8*),
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
// CHECK: br label {{%?}}[[IF_END:.+]]		// CHECK: br label {{%?}}[[IF_END:.+]]
//		//
// CHECK: [[IF_ELSE]]		// CHECK: [[IF_ELSE]]
// CHECK: call void @__kmpc_serialized_parallel(		// CHECK: call void @__kmpc_serialized_parallel(
// CHECK: {{call\|invoke}} void [[PARALLEL_FN4]](		// CHECK: {{call\|invoke}} void [[PARALLEL_FN4]](
// CHECK: call void @__kmpc_end_serialized_parallel(		// CHECK: call void @__kmpc_end_serialized_parallel(
Show All 23 Lines

test/OpenMP/nvptx_target_teams_codegen.cpp

Show First 20 Lines • Show All 54 Lines • ▼ Show 20 Lines	int bar(int n){
// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,		// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,
// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,		// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,
// CHECK: store i8* null, i8** [[OMP_WORK_FN]],		// CHECK: store i8* null, i8** [[OMP_WORK_FN]],
// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],		// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],
// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]		// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]
//		//
// CHECK: [[AWAIT_WORK]]		// CHECK: [[AWAIT_WORK]]
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
// CHECK: [[KPR:%.+]] = call i1 @__kmpc_kernel_parallel(i8** [[OMP_WORK_FN]])		// CHECK: [[KPR:%.+]] = call i1 @__kmpc_kernel_parallel(i8 [[OMP_WORK_FN]], i8* %shared_args)
// CHECK: [[KPRB:%.+]] = zext i1 [[KPR]] to i8		// CHECK: [[KPRB:%.+]] = zext i1 [[KPR]] to i8
// store i8 [[KPRB]], i8* [[OMP_EXEC_STATUS]], align 1		// store i8 [[KPRB]], i8* [[OMP_EXEC_STATUS]], align 1
// CHECK: [[WORK:%.+]] = load i8, i8* [[OMP_WORK_FN]],		// CHECK: [[WORK:%.+]] = load i8, i8* [[OMP_WORK_FN]],
// CHECK: [[SHOULD_EXIT:%.+]] = icmp eq i8* [[WORK]], null		// CHECK: [[SHOULD_EXIT:%.+]] = icmp eq i8* [[WORK]], null
// CHECK: br i1 [[SHOULD_EXIT]], label {{%?}}[[EXIT:.+]], label {{%?}}[[SEL_WORKERS:.+]]		// CHECK: br i1 [[SHOULD_EXIT]], label {{%?}}[[EXIT:.+]], label {{%?}}[[SEL_WORKERS:.+]]
//		//
// CHECK: [[SEL_WORKERS]]		// CHECK: [[SEL_WORKERS]]
// CHECK: [[ST:%.+]] = load i8, i8* [[OMP_EXEC_STATUS]]		// CHECK: [[ST:%.+]] = load i8, i8* [[OMP_EXEC_STATUS]]
▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines	int bar(int n){
// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,		// CHECK-DAG: [[OMP_EXEC_STATUS:%.+]] = alloca i8,
// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,		// CHECK-DAG: [[OMP_WORK_FN:%.+]] = alloca i8*,
// CHECK: store i8* null, i8** [[OMP_WORK_FN]],		// CHECK: store i8* null, i8** [[OMP_WORK_FN]],
// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],		// CHECK: store i8 0, i8* [[OMP_EXEC_STATUS]],
// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]		// CHECK: br label {{%?}}[[AWAIT_WORK:.+]]
//		//
// CHECK: [[AWAIT_WORK]]		// CHECK: [[AWAIT_WORK]]
// CHECK: call void @llvm.nvvm.barrier0()		// CHECK: call void @llvm.nvvm.barrier0()
// CHECK: [[KPR:%.+]] = call i1 @__kmpc_kernel_parallel(i8** [[OMP_WORK_FN]])		// CHECK: [[KPR:%.+]] = call i1 @__kmpc_kernel_parallel(i8 [[OMP_WORK_FN]], i8* %shared_args)
// CHECK: [[KPRB:%.+]] = zext i1 [[KPR]] to i8		// CHECK: [[KPRB:%.+]] = zext i1 [[KPR]] to i8
// store i8 [[KPRB]], i8* [[OMP_EXEC_STATUS]], align 1		// store i8 [[KPRB]], i8* [[OMP_EXEC_STATUS]], align 1
// CHECK: [[WORK:%.+]] = load i8, i8* [[OMP_WORK_FN]],		// CHECK: [[WORK:%.+]] = load i8, i8* [[OMP_WORK_FN]],
// CHECK: [[SHOULD_EXIT:%.+]] = icmp eq i8* [[WORK]], null		// CHECK: [[SHOULD_EXIT:%.+]] = icmp eq i8* [[WORK]], null
// CHECK: br i1 [[SHOULD_EXIT]], label {{%?}}[[EXIT:.+]], label {{%?}}[[SEL_WORKERS:.+]]		// CHECK: br i1 [[SHOULD_EXIT]], label {{%?}}[[EXIT:.+]], label {{%?}}[[SEL_WORKERS:.+]]
//		//
// CHECK: [[SEL_WORKERS]]		// CHECK: [[SEL_WORKERS]]
// CHECK: [[ST:%.+]] = load i8, i8* [[OMP_EXEC_STATUS]]		// CHECK: [[ST:%.+]] = load i8, i8* [[OMP_EXEC_STATUS]]
▲ Show 20 Lines • Show All 65 Lines • Show Last 20 Lines