This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
clang/
-
lib/Frontend/
-
Frontend/
-
CompilerInvocation.cpp
-
test/CodeGen/
-
CodeGen/
-
nvptx_attributes.c

Differential D149028

[Clang] Always pass `-fconvergent-functions` for GPU targets
Needs ReviewPublic

Authored by jhuber6 on Apr 23 2023, 12:37 PM.

Download Raw Diff

Details

Reviewers

JonChesterfield
jdoerfert
tianshilei1992
tra
yaxunl

Summary

GPU targets like nvptx64-nvidia-cuda and amdgcn-amd-amdhsa require
that we have convergent functions on. Currently we apply this to all the
offloading languages, but this patch applies it based on the triple
directly. This is so users can specify --target=nvptx64-nvidia-cuda
and get this behaviour as an implementation detail of the architecture.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

jhuber6 created this revision.Apr 23 2023, 12:37 PM

Herald added a project: Restricted Project. · View Herald TranscriptApr 23 2023, 12:37 PM

Herald added a subscriber: kosarev. · View Herald Transcript

jhuber6 requested review of this revision.Apr 23 2023, 12:37 PM

Herald added a project: Restricted Project. · View Herald TranscriptApr 23 2023, 12:37 PM

Herald added a subscriber: cfe-commits. · View Herald Transcript

Add test

Herald added subscribers: mattd, asavonic. · View Herald TranscriptApr 23 2023, 12:44 PM

I think this is sensible. Passing fno-convergent-functions presumably changes the default?

I wonder if we should adopt this and then remove the checks for each of the GPU programming models

In D149028#4290831, @JonChesterfield wrote:

I think this is sensible. Passing fno-convergent-functions presumably changes the default?

I wonder if we should adopt this and then remove the checks for each of the GPU programming models

That would probably make sense, actually that's a good point. MaskRay wanted me to remove -fno-convergent-functions in the previous patch which prevents us from doing that. I think I'll add it back in because I like the idea of being able to override defaults.

Harbormaster completed remote builds in B227561: Diff 516198.Apr 23 2023, 1:59 PM

Revision Contents

Path

Size

clang/

lib/

Frontend/

CompilerInvocation.cpp

2 lines

test/

CodeGen/

nvptx_attributes.c

2 lines

Diff 516198

clang/lib/Frontend/CompilerInvocation.cpp

	Show First 20 Lines • Show All 3,731 Lines • ▼ Show 20 Lines		Opts.Trigraphs =
	(!Opts.GNUMode && !Opts.MSVCCompat && !Opts.CPlusPlus17) \|\| T.isOSzOS();			(!Opts.GNUMode && !Opts.MSVCCompat && !Opts.CPlusPlus17) \|\| T.isOSzOS();
	Opts.Trigraphs =			Opts.Trigraphs =
	Args.hasFlag(OPT_ftrigraphs, OPT_fno_trigraphs, Opts.Trigraphs);			Args.hasFlag(OPT_ftrigraphs, OPT_fno_trigraphs, Opts.Trigraphs);

	Opts.Blocks = Args.hasArg(OPT_fblocks) \|\| (Opts.OpenCL			Opts.Blocks = Args.hasArg(OPT_fblocks) \|\| (Opts.OpenCL
	&& Opts.OpenCLVersion == 200);			&& Opts.OpenCLVersion == 200);

	Opts.ConvergentFunctions = Opts.OpenCL \|\| (Opts.CUDA && Opts.CUDAIsDevice) \|\|			Opts.ConvergentFunctions = Opts.OpenCL \|\| (Opts.CUDA && Opts.CUDAIsDevice) \|\|
	Opts.SYCLIsDevice \|\|			Opts.SYCLIsDevice \|\| T.isNVPTX() \|\| T.isAMDGPU() \|\|
	Args.hasArg(OPT_fconvergent_functions);			Args.hasArg(OPT_fconvergent_functions);

	Opts.NoBuiltin = Args.hasArg(OPT_fno_builtin) \|\| Opts.Freestanding;			Opts.NoBuiltin = Args.hasArg(OPT_fno_builtin) \|\| Opts.Freestanding;
	if (!Opts.NoBuiltin)			if (!Opts.NoBuiltin)
	getAllNoBuiltinFuncValues(Args, Opts.NoBuiltinFuncs);			getAllNoBuiltinFuncValues(Args, Opts.NoBuiltinFuncs);
	if (Arg *A = Args.getLastArg(options::OPT_LongDouble_Group)) {			if (Arg *A = Args.getLastArg(options::OPT_LongDouble_Group)) {
	if (A->getOption().matches(options::OPT_mlong_double_64))			if (A->getOption().matches(options::OPT_mlong_double_64))
	Opts.LongDoubleSize = 64;			Opts.LongDoubleSize = 64;
	▲ Show 20 Lines • Show All 947 Lines • Show Last 20 Lines

clang/test/CodeGen/nvptx_attributes.c

	// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py UTC_ARGS: --function-signature --check-attributes --check-globals			// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py UTC_ARGS: --function-signature --check-attributes --check-globals
	// RUN: %clang_cc1 -triple nvptx64-nvidia-cuda -target-cpu sm_61 -emit-llvm %s -o - \| FileCheck %s			// RUN: %clang_cc1 -triple nvptx64-nvidia-cuda -target-cpu sm_61 -emit-llvm %s -o - \| FileCheck %s

	// CHECK: Function Attrs: noinline nounwind optnone			// CHECK: Function Attrs: convergent noinline nounwind optnone
	// CHECK-LABEL: define {{[^@]+}}@foo			// CHECK-LABEL: define {{[^@]+}}@foo
	// CHECK-SAME: (ptr noundef [[RET:%.*]]) #[[ATTR0:[0-9]+]] {			// CHECK-SAME: (ptr noundef [[RET:%.*]]) #[[ATTR0:[0-9]+]] {
	// CHECK-NEXT: entry:			// CHECK-NEXT: entry:
	// CHECK-NEXT: [[RET_ADDR:%.*]] = alloca ptr, align 8			// CHECK-NEXT: [[RET_ADDR:%.*]] = alloca ptr, align 8
	// CHECK-NEXT: store ptr [[RET]], ptr [[RET_ADDR]], align 8			// CHECK-NEXT: store ptr [[RET]], ptr [[RET_ADDR]], align 8
	// CHECK-NEXT: [[TMP0:%.*]] = load ptr, ptr [[RET_ADDR]], align 8			// CHECK-NEXT: [[TMP0:%.*]] = load ptr, ptr [[RET_ADDR]], align 8
	// CHECK-NEXT: store i32 1, ptr [[TMP0]], align 4			// CHECK-NEXT: store i32 1, ptr [[TMP0]], align 4
	// CHECK-NEXT: ret void			// CHECK-NEXT: ret void
	__attribute__((nvptx_kernel)) void foo(int *ret) {			__attribute__((nvptx_kernel)) void foo(int *ret) {
	*ret = 1;			*ret = 1;
	}			}

	// CHECK: !0 = !{ptr @foo, !"kernel", i32 1}			// CHECK: !0 = !{ptr @foo, !"kernel", i32 1}