This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
clang/
-
include/clang/Driver/
-
clang/
-
Driver/
-
ToolChain.h
-
lib/Driver/ToolChains/
-
Driver/
-
ToolChains/
-
AMDGPU.h
1
AMDGPU.cpp
-
Clang.cpp
-
Cuda.h
-
Cuda.cpp
-
Linux.h
-
Linux.cpp
-
PS4CPU.h
-
test/Driver/
-
Driver/
1/2
cuda-flush-denormals-to-zero.cu

Differential D78019

HIP: Fix handling of denormal mode
ClosedPublic

Authored by arsenm on Apr 13 2020, 7:34 AM.

Download Raw Diff

Details

Reviewers

yaxunl
tra

Summary

I didn't realize HIP was a distinct offloading kind, so the subtarget
was looking for -march, which isn't correct for HIP. We also have the
possibility of different denormal defaults in the case of multiple
offload targets, so we need to thread the JobAction through the target
hook.

Diff Detail

Event Timeline

arsenm created this revision.Apr 13 2020, 7:34 AM

Herald added subscribers: kerbowa, nhaehnle, wdng, jvesely. · View Herald TranscriptApr 13 2020, 7:34 AM

arsenm added a child revision: D78020: clang/AMDGPU: Assume denormals are enabled for the default target..Apr 13 2020, 7:55 AM

yaxunl added inline comments.Apr 13 2020, 8:30 AM

clang/lib/Driver/ToolChains/AMDGPU.cpp
286	If there are multiple --cuda-gpu-arch, driver will create separate JobAction for launching separate `clang -cc1` command for each arch. This function is called for each JobAction and getOffloadingArch contains the single arch. Therefore there is no issue for multiple --cuda-gpu-arch and this comment can be removed.
clang/test/Driver/cuda-flush-denormals-to-zero.cu
27	this will result in multiple clang -cc1 commands, each one corresponding to an arch. You need to check each arch.

arsenm marked an inline comment as done.Apr 13 2020, 9:50 AM

arsenm added inline comments.

clang/test/Driver/cuda-flush-denormals-to-zero.cu
27	Since the flag is not printed for the default case, having a second arch check line would interfere with the -NOT check, as there is no CHECK-SAME-NOT

Remove leftover comment from before I used JobAction

LGTM. The patch appears to be an NFC one for CUDA.

LGTM. Thanks.

This revision is now accepted and ready to land.Apr 13 2020, 10:51 AM

In D78019#1978216, @tra wrote:

LGTM. The patch appears to be an NFC one for CUDA.

CUDA currently isn't changing the default FTZ mode based on the subtarget, which differs from nvcc according to the documentation

dc89a3efb43feedec04facfa2206de011d2606e7

Revision Contents

Path

Size

clang/

include/

clang/

Driver/

ToolChain.h

3 lines

lib/

Driver/

ToolChains/

3 lines

14 lines

12 lines

3 lines

6 lines

5 lines

8 lines

5 lines

test/

Driver/

cuda-flush-denormals-to-zero.cu

26 lines

Diff 257011

clang/include/clang/Driver/ToolChain.h

Show First 20 Lines • Show All 630 Lines • ▼ Show 20 Lines	public:
/// Returns true when it's possible to split LTO unit to use whole		/// Returns true when it's possible to split LTO unit to use whole
/// program devirtualization and CFI santiizers.		/// program devirtualization and CFI santiizers.
virtual bool canSplitThinLTOUnit() const { return true; }		virtual bool canSplitThinLTOUnit() const { return true; }

/// Returns the output denormal handling type in the default floating point		/// Returns the output denormal handling type in the default floating point
/// environment for the given \p FPType if given. Otherwise, the default		/// environment for the given \p FPType if given. Otherwise, the default
/// assumed mode for any floating point type.		/// assumed mode for any floating point type.
virtual llvm::DenormalMode getDefaultDenormalModeForType(		virtual llvm::DenormalMode getDefaultDenormalModeForType(
const llvm::opt::ArgList &DriverArgs,		const llvm::opt::ArgList &DriverArgs, const JobAction &JA,
Action::OffloadKind DeviceOffloadKind,
const llvm::fltSemantics *FPType = nullptr) const {		const llvm::fltSemantics *FPType = nullptr) const {
return llvm::DenormalMode::getIEEE();		return llvm::DenormalMode::getIEEE();
}		}
};		};

/// Set a ToolChain's effective triple. Reset it when the registration object		/// Set a ToolChain's effective triple. Reset it when the registration object
/// is destroyed.		/// is destroyed.
class RegisterEffectiveTriple {		class RegisterEffectiveTriple {
Show All 15 Lines

clang/lib/Driver/ToolChains/AMDGPU.h

Show First 20 Lines • Show All 208 Lines • ▼ Show 20 Lines	void addClangTargetOptions(const llvm::opt::ArgList &DriverArgs,
llvm::opt::ArgStringList &CC1Args,		llvm::opt::ArgStringList &CC1Args,
Action::OffloadKind DeviceOffloadKind) const override;		Action::OffloadKind DeviceOffloadKind) const override;

/// Return whether denormals should be flushed, and treated as 0 by default		/// Return whether denormals should be flushed, and treated as 0 by default
/// for the subtarget.		/// for the subtarget.
static bool getDefaultDenormsAreZeroForTarget(llvm::AMDGPU::GPUKind GPUKind);		static bool getDefaultDenormsAreZeroForTarget(llvm::AMDGPU::GPUKind GPUKind);

llvm::DenormalMode getDefaultDenormalModeForType(		llvm::DenormalMode getDefaultDenormalModeForType(
const llvm::opt::ArgList &DriverArgs,		const llvm::opt::ArgList &DriverArgs, const JobAction &JA,
Action::OffloadKind DeviceOffloadKind,
const llvm::fltSemantics *FPType = nullptr) const override;		const llvm::fltSemantics *FPType = nullptr) const override;
};		};

class LLVM_LIBRARY_VISIBILITY ROCMToolChain : public AMDGPUToolChain {		class LLVM_LIBRARY_VISIBILITY ROCMToolChain : public AMDGPUToolChain {
private:		private:
RocmInstallationDetector RocmInstallation;		RocmInstallationDetector RocmInstallation;

public:		public:
Show All 13 Lines

clang/lib/Driver/ToolChains/AMDGPU.cpp

Show First 20 Lines • Show All 267 Lines • ▼ Show 20 Lines	bool AMDGPUToolChain::getDefaultDenormsAreZeroForTarget(
// fast with denormals		// fast with denormals
const bool BothDenormAndFMAFast =		const bool BothDenormAndFMAFast =
(ArchAttr & llvm::AMDGPU::FEATURE_FAST_FMA_F32) &&		(ArchAttr & llvm::AMDGPU::FEATURE_FAST_FMA_F32) &&
(ArchAttr & llvm::AMDGPU::FEATURE_FAST_DENORMAL_F32);		(ArchAttr & llvm::AMDGPU::FEATURE_FAST_DENORMAL_F32);
return !BothDenormAndFMAFast;		return !BothDenormAndFMAFast;
}		}

llvm::DenormalMode AMDGPUToolChain::getDefaultDenormalModeForType(		llvm::DenormalMode AMDGPUToolChain::getDefaultDenormalModeForType(
const llvm::opt::ArgList &DriverArgs, Action::OffloadKind DeviceOffloadKind,		const llvm::opt::ArgList &DriverArgs, const JobAction &JA,
const llvm::fltSemantics *FPType) const {		const llvm::fltSemantics *FPType) const {
// Denormals should always be enabled for f16 and f64.		// Denormals should always be enabled for f16 and f64.
if (!FPType \|\| FPType != &llvm::APFloat::IEEEsingle())		if (!FPType \|\| FPType != &llvm::APFloat::IEEEsingle())
return llvm::DenormalMode::getIEEE();		return llvm::DenormalMode::getIEEE();

if (DeviceOffloadKind == Action::OFK_Cuda) {		if (JA.getOffloadingDeviceKind() == Action::OFK_HIP \|\|
		JA.getOffloadingDeviceKind() == Action::OFK_Cuda) {
		auto Kind = llvm::AMDGPU::parseArchAMDGCN(JA.getOffloadingArch());
if (FPType && FPType == &llvm::APFloat::IEEEsingle() &&		if (FPType && FPType == &llvm::APFloat::IEEEsingle() &&
DriverArgs.hasFlag(options::OPT_fcuda_flush_denormals_to_zero,		DriverArgs.hasFlag(options::OPT_fcuda_flush_denormals_to_zero,
		yaxunlUnsubmitted Not Done Reply Inline Actions If there are multiple --cuda-gpu-arch, driver will create separate JobAction for launching separate `clang -cc1` command for each arch. This function is called for each JobAction and getOffloadingArch contains the single arch. Therefore there is no issue for multiple --cuda-gpu-arch and this comment can be removed. yaxunl: If there are multiple --cuda-gpu-arch, driver will create separate JobAction for launching…
options::OPT_fno_cuda_flush_denormals_to_zero,		options::OPT_fno_cuda_flush_denormals_to_zero,
false))		getDefaultDenormsAreZeroForTarget(Kind)))
return llvm::DenormalMode::getPreserveSign();		return llvm::DenormalMode::getPreserveSign();

		return llvm::DenormalMode::getIEEE();
}		}

const StringRef GpuArch = DriverArgs.getLastArgValue(options::OPT_mcpu_EQ);		const StringRef GpuArch = DriverArgs.getLastArgValue(options::OPT_mcpu_EQ);
auto Kind = llvm::AMDGPU::parseArchAMDGCN(GpuArch);		auto Kind = llvm::AMDGPU::parseArchAMDGCN(GpuArch);

// TODO: There are way too many flags that change this. Do we need to check		// TODO: There are way too many flags that change this. Do we need to check
// them all?		// them all?
bool DAZ = DriverArgs.hasArg(options::OPT_cl_denorms_are_zero) \|\|		bool DAZ = DriverArgs.hasArg(options::OPT_cl_denorms_are_zero) \|\|
getDefaultDenormsAreZeroForTarget(Kind);		getDefaultDenormsAreZeroForTarget(Kind);
// Outputs are flushed to zero, preserving sign
		// Outputs are flushed to zero (FTZ), preserving sign. Denormal inputs are
		// also implicit treated as zero (DAZ).
return DAZ ? llvm::DenormalMode::getPreserveSign() :		return DAZ ? llvm::DenormalMode::getPreserveSign() :
llvm::DenormalMode::getIEEE();		llvm::DenormalMode::getIEEE();
}		}

/// ROCM Toolchain		/// ROCM Toolchain
ROCMToolChain::ROCMToolChain(const Driver &D, const llvm::Triple &Triple,		ROCMToolChain::ROCMToolChain(const Driver &D, const llvm::Triple &Triple,
const ArgList &Args)		const ArgList &Args)
: AMDGPUToolChain(D, Triple, Args),		: AMDGPUToolChain(D, Triple, Args),
▲ Show 20 Lines • Show All 101 Lines • Show Last 20 Lines

clang/lib/Driver/ToolChains/Clang.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 2,504 Lines • ▼ Show 20 Lines	static void CollectArgsForIntegratedAssembler(Compilation &C,
if (C.getDriver().embedBitcodeEnabled() \|\|		if (C.getDriver().embedBitcodeEnabled() \|\|
C.getDriver().embedBitcodeMarkerOnly())		C.getDriver().embedBitcodeMarkerOnly())
Args.AddLastArg(CmdArgs, options::OPT_fembed_bitcode_EQ);		Args.AddLastArg(CmdArgs, options::OPT_fembed_bitcode_EQ);
}		}

static void RenderFloatingPointOptions(const ToolChain &TC, const Driver &D,		static void RenderFloatingPointOptions(const ToolChain &TC, const Driver &D,
bool OFastEnabled, const ArgList &Args,		bool OFastEnabled, const ArgList &Args,
ArgStringList &CmdArgs,		ArgStringList &CmdArgs,
Action::OffloadKind DeviceOffloadKind) {		const JobAction &JA) {
// Handle various floating point optimization flags, mapping them to the		// Handle various floating point optimization flags, mapping them to the
// appropriate LLVM code generation flags. This is complicated by several		// appropriate LLVM code generation flags. This is complicated by several
// "umbrella" flags, so we do this by stepping through the flags incrementally		// "umbrella" flags, so we do this by stepping through the flags incrementally
// adjusting what we think is enabled/disabled, then at the end setting the		// adjusting what we think is enabled/disabled, then at the end setting the
// LLVM flags based on the final state.		// LLVM flags based on the final state.
bool HonorINFs = true;		bool HonorINFs = true;
bool HonorNaNs = true;		bool HonorNaNs = true;
// -fmath-errno is the default on some platforms, e.g. BSD-derived OSes.		// -fmath-errno is the default on some platforms, e.g. BSD-derived OSes.
bool MathErrno = TC.IsMathErrnoDefault();		bool MathErrno = TC.IsMathErrnoDefault();
bool AssociativeMath = false;		bool AssociativeMath = false;
bool ReciprocalMath = false;		bool ReciprocalMath = false;
bool SignedZeros = true;		bool SignedZeros = true;
bool TrappingMath = false; // Implemented via -ffp-exception-behavior		bool TrappingMath = false; // Implemented via -ffp-exception-behavior
bool TrappingMathPresent = false; // Is trapping-math in args, and not		bool TrappingMathPresent = false; // Is trapping-math in args, and not
// overriden by ffp-exception-behavior?		// overriden by ffp-exception-behavior?
bool RoundingFPMath = false;		bool RoundingFPMath = false;
bool RoundingMathPresent = false; // Is rounding-math in args?		bool RoundingMathPresent = false; // Is rounding-math in args?
// -ffp-model values: strict, fast, precise		// -ffp-model values: strict, fast, precise
StringRef FPModel = "";		StringRef FPModel = "";
// -ffp-exception-behavior options: strict, maytrap, ignore		// -ffp-exception-behavior options: strict, maytrap, ignore
StringRef FPExceptionBehavior = "";		StringRef FPExceptionBehavior = "";
const llvm::DenormalMode DefaultDenormalFPMath =		const llvm::DenormalMode DefaultDenormalFPMath =
TC.getDefaultDenormalModeForType(Args, DeviceOffloadKind);		TC.getDefaultDenormalModeForType(Args, JA);
const llvm::DenormalMode DefaultDenormalFP32Math =		const llvm::DenormalMode DefaultDenormalFP32Math =
TC.getDefaultDenormalModeForType(Args, DeviceOffloadKind,		TC.getDefaultDenormalModeForType(Args, JA, &llvm::APFloat::IEEEsingle());
&llvm::APFloat::IEEEsingle());

llvm::DenormalMode DenormalFPMath = DefaultDenormalFPMath;		llvm::DenormalMode DenormalFPMath = DefaultDenormalFPMath;
llvm::DenormalMode DenormalFP32Math = DefaultDenormalFP32Math;		llvm::DenormalMode DenormalFP32Math = DefaultDenormalFP32Math;
StringRef FPContract = "";		StringRef FPContract = "";
bool StrictFPModel = false;		bool StrictFPModel = false;


if (const Arg *A = Args.getLastArg(options::OPT_flimited_precision_EQ)) {		if (const Arg *A = Args.getLastArg(options::OPT_flimited_precision_EQ)) {
▲ Show 20 Lines • Show All 1,742 Lines • ▼ Show 20 Lines	for (const auto &A : Args)
D.Diag(diag::err_drv_unsupported_embed_bitcode) << A->getSpelling();		D.Diag(diag::err_drv_unsupported_embed_bitcode) << A->getSpelling();

// Render the CodeGen options that need to be passed.		// Render the CodeGen options that need to be passed.
if (!Args.hasFlag(options::OPT_foptimize_sibling_calls,		if (!Args.hasFlag(options::OPT_foptimize_sibling_calls,
options::OPT_fno_optimize_sibling_calls))		options::OPT_fno_optimize_sibling_calls))
CmdArgs.push_back("-mdisable-tail-calls");		CmdArgs.push_back("-mdisable-tail-calls");

RenderFloatingPointOptions(TC, D, isOptimizationLevelFast(Args), Args,		RenderFloatingPointOptions(TC, D, isOptimizationLevelFast(Args), Args,
CmdArgs, JA.getOffloadingDeviceKind());		CmdArgs, JA);

// Render ABI arguments		// Render ABI arguments
switch (TC.getArch()) {		switch (TC.getArch()) {
default: break;		default: break;
case llvm::Triple::arm:		case llvm::Triple::arm:
case llvm::Triple::armeb:		case llvm::Triple::armeb:
case llvm::Triple::thumbeb:		case llvm::Triple::thumbeb:
RenderARMABI(Triple, Args, CmdArgs);		RenderARMABI(Triple, Args, CmdArgs);
▲ Show 20 Lines • Show All 306 Lines • ▼ Show 20 Lines	#endif

Args.AddLastArg(CmdArgs, options::OPT_ffine_grained_bitfield_accesses,		Args.AddLastArg(CmdArgs, options::OPT_ffine_grained_bitfield_accesses,
options::OPT_fno_fine_grained_bitfield_accesses);		options::OPT_fno_fine_grained_bitfield_accesses);

// Handle segmented stacks.		// Handle segmented stacks.
if (Args.hasArg(options::OPT_fsplit_stack))		if (Args.hasArg(options::OPT_fsplit_stack))
CmdArgs.push_back("-split-stacks");		CmdArgs.push_back("-split-stacks");

RenderFloatingPointOptions(TC, D, OFastEnabled, Args, CmdArgs,		RenderFloatingPointOptions(TC, D, OFastEnabled, Args, CmdArgs, JA);
JA.getOffloadingDeviceKind());

if (Arg *A = Args.getLastArg(options::OPT_mdouble_EQ)) {		if (Arg *A = Args.getLastArg(options::OPT_mdouble_EQ)) {
if (TC.getArch() == llvm::Triple::avr)		if (TC.getArch() == llvm::Triple::avr)
A->render(Args, CmdArgs);		A->render(Args, CmdArgs);
else		else
D.Diag(diag::err_drv_unsupported_opt_for_target)		D.Diag(diag::err_drv_unsupported_opt_for_target)
<< A->getAsString(Args) << TripleStr;		<< A->getAsString(Args) << TripleStr;
}		}
▲ Show 20 Lines • Show All 2,506 Lines • Show Last 20 Lines

clang/lib/Driver/ToolChains/Cuda.h

Show First 20 Lines • Show All 150 Lines • ▼ Show 20 Lines	public:
llvm::opt::DerivedArgList *		llvm::opt::DerivedArgList *
TranslateArgs(const llvm::opt::DerivedArgList &Args, StringRef BoundArch,		TranslateArgs(const llvm::opt::DerivedArgList &Args, StringRef BoundArch,
Action::OffloadKind DeviceOffloadKind) const override;		Action::OffloadKind DeviceOffloadKind) const override;
void addClangTargetOptions(const llvm::opt::ArgList &DriverArgs,		void addClangTargetOptions(const llvm::opt::ArgList &DriverArgs,
llvm::opt::ArgStringList &CC1Args,		llvm::opt::ArgStringList &CC1Args,
Action::OffloadKind DeviceOffloadKind) const override;		Action::OffloadKind DeviceOffloadKind) const override;

llvm::DenormalMode getDefaultDenormalModeForType(		llvm::DenormalMode getDefaultDenormalModeForType(
const llvm::opt::ArgList &DriverArgs,		const llvm::opt::ArgList &DriverArgs, const JobAction &JA,
Action::OffloadKind DeviceOffloadKind,
const llvm::fltSemantics *FPType = nullptr) const override;		const llvm::fltSemantics *FPType = nullptr) const override;

// Never try to use the integrated assembler with CUDA; always fork out to		// Never try to use the integrated assembler with CUDA; always fork out to
// ptxas.		// ptxas.
bool useIntegratedAs() const override { return false; }		bool useIntegratedAs() const override { return false; }
bool isCrossCompiling() const override { return true; }		bool isCrossCompiling() const override { return true; }
bool isPICDefault() const override { return false; }		bool isPICDefault() const override { return false; }
bool isPIEDefault() const override { return false; }		bool isPIEDefault() const override { return false; }
▲ Show 20 Lines • Show All 45 Lines • Show Last 20 Lines

clang/lib/Driver/ToolChains/Cuda.cpp

Show First 20 Lines • Show All 715 Lines • ▼ Show 20 Lines	if (DeviceOffloadingKind == Action::OFK_OpenMP) {
}		}
if (!FoundBCLibrary)		if (!FoundBCLibrary)
getDriver().Diag(diag::warn_drv_omp_offload_target_missingbcruntime)		getDriver().Diag(diag::warn_drv_omp_offload_target_missingbcruntime)
<< LibOmpTargetName;		<< LibOmpTargetName;
}		}
}		}

llvm::DenormalMode CudaToolChain::getDefaultDenormalModeForType(		llvm::DenormalMode CudaToolChain::getDefaultDenormalModeForType(
const llvm::opt::ArgList &DriverArgs, Action::OffloadKind DeviceOffloadKind,		const llvm::opt::ArgList &DriverArgs, const JobAction &JA,
const llvm::fltSemantics *FPType) const {		const llvm::fltSemantics *FPType) const {
if (DeviceOffloadKind == Action::OFK_Cuda) {		if (JA.getOffloadingDeviceKind() == Action::OFK_Cuda) {
if (FPType && FPType == &llvm::APFloat::IEEEsingle() &&		if (FPType && FPType == &llvm::APFloat::IEEEsingle() &&
DriverArgs.hasFlag(options::OPT_fcuda_flush_denormals_to_zero,		DriverArgs.hasFlag(options::OPT_fcuda_flush_denormals_to_zero,
options::OPT_fno_cuda_flush_denormals_to_zero,		options::OPT_fno_cuda_flush_denormals_to_zero,
false))		false))
return llvm::DenormalMode::getPreserveSign();		return llvm::DenormalMode::getPreserveSign();
}		}

assert(DeviceOffloadKind != Action::OFK_Host);		assert(JA.getOffloadingDeviceKind() != Action::OFK_Host);
return llvm::DenormalMode::getIEEE();		return llvm::DenormalMode::getIEEE();
}		}

bool CudaToolChain::supportsDebugInfoOption(const llvm::opt::Arg *A) const {		bool CudaToolChain::supportsDebugInfoOption(const llvm::opt::Arg *A) const {
const Option &O = A->getOption();		const Option &O = A->getOption();
return (O.matches(options::OPT_gN_Group) &&		return (O.matches(options::OPT_gN_Group) &&
!O.matches(options::OPT_gmodules)) \|\|		!O.matches(options::OPT_gmodules)) \|\|
O.matches(options::OPT_g_Flag) \|\|		O.matches(options::OPT_g_Flag) \|\|
▲ Show 20 Lines • Show All 131 Lines • Show Last 20 Lines

clang/lib/Driver/ToolChains/Linux.h

Show First 20 Lines • Show All 43 Lines • ▼ Show 20 Lines	public:

std::string getDynamicLinker(const llvm::opt::ArgList &Args) const override;		std::string getDynamicLinker(const llvm::opt::ArgList &Args) const override;

void addExtraOpts(llvm::opt::ArgStringList &CmdArgs) const override;		void addExtraOpts(llvm::opt::ArgStringList &CmdArgs) const override;

std::vector<std::string> ExtraOpts;		std::vector<std::string> ExtraOpts;

llvm::DenormalMode getDefaultDenormalModeForType(		llvm::DenormalMode getDefaultDenormalModeForType(
const llvm::opt::ArgList &DriverArgs,		const llvm::opt::ArgList &DriverArgs, const JobAction &JA,
Action::OffloadKind DeviceOffloadKind,
const llvm::fltSemantics *FPType = nullptr) const override;		const llvm::fltSemantics *FPType = nullptr) const override;

protected:		protected:
Tool *buildAssembler() const override;		Tool *buildAssembler() const override;
Tool *buildLinker() const override;		Tool *buildLinker() const override;

std::string getMultiarchTriple(const Driver &D,		std::string getMultiarchTriple(const Driver &D,
const llvm::Triple &TargetTriple,		const llvm::Triple &TargetTriple,
StringRef SysRoot) const override;		StringRef SysRoot) const override;
};		};

} // end namespace toolchains		} // end namespace toolchains
} // end namespace driver		} // end namespace driver
} // end namespace clang		} // end namespace clang

#endif // LLVM_CLANG_LIB_DRIVER_TOOLCHAINS_LINUX_H		#endif // LLVM_CLANG_LIB_DRIVER_TOOLCHAINS_LINUX_H

clang/lib/Driver/ToolChains/Linux.cpp

Show First 20 Lines • Show All 982 Lines • ▼ Show 20 Lines	void Linux::addProfileRTLibs(const llvm::opt::ArgList &Args,
// initialization module to be linked in.		// initialization module to be linked in.
if ((!Args.hasArg(options::OPT_coverage)) &&		if ((!Args.hasArg(options::OPT_coverage)) &&
(!Args.hasArg(options::OPT_ftest_coverage)))		(!Args.hasArg(options::OPT_ftest_coverage)))
CmdArgs.push_back(Args.MakeArgString(		CmdArgs.push_back(Args.MakeArgString(
Twine("-u", llvm::getInstrProfRuntimeHookVarName())));		Twine("-u", llvm::getInstrProfRuntimeHookVarName())));
ToolChain::addProfileRTLibs(Args, CmdArgs);		ToolChain::addProfileRTLibs(Args, CmdArgs);
}		}

llvm::DenormalMode Linux::getDefaultDenormalModeForType(		llvm::DenormalMode
const llvm::opt::ArgList &DriverArgs,		Linux::getDefaultDenormalModeForType(const llvm::opt::ArgList &DriverArgs,
Action::OffloadKind DeviceOffloadKind,		const JobAction &JA,
const llvm::fltSemantics *FPType) const {		const llvm::fltSemantics *FPType) const {
switch (getTriple().getArch()) {		switch (getTriple().getArch()) {
case llvm::Triple::x86:		case llvm::Triple::x86:
case llvm::Triple::x86_64: {		case llvm::Triple::x86_64: {
std::string Unused;		std::string Unused;
// DAZ and FTZ are turned on in crtfastmath.o		// DAZ and FTZ are turned on in crtfastmath.o
if (!DriverArgs.hasArg(options::OPT_nostdlib, options::OPT_nostartfiles) &&		if (!DriverArgs.hasArg(options::OPT_nostdlib, options::OPT_nostartfiles) &&
isFastMathRuntimeAvailable(DriverArgs, Unused))		isFastMathRuntimeAvailable(DriverArgs, Unused))
return llvm::DenormalMode::getPreserveSign();		return llvm::DenormalMode::getPreserveSign();
Show All 11 Lines

clang/lib/Driver/ToolChains/PS4CPU.h

Show First 20 Lines • Show All 88 Lines • ▼ Show 20 Lines	public:
bool canSplitThinLTOUnit() const override { return false; }		bool canSplitThinLTOUnit() const override { return false; }

void addClangTargetOptions(		void addClangTargetOptions(
const llvm::opt::ArgList &DriverArgs,		const llvm::opt::ArgList &DriverArgs,
llvm::opt::ArgStringList &CC1Args,		llvm::opt::ArgStringList &CC1Args,
Action::OffloadKind DeviceOffloadingKind) const override;		Action::OffloadKind DeviceOffloadingKind) const override;

llvm::DenormalMode getDefaultDenormalModeForType(		llvm::DenormalMode getDefaultDenormalModeForType(
const llvm::opt::ArgList &DriverArgs,		const llvm::opt::ArgList &DriverArgs, const JobAction &JA,
Action::OffloadKind DeviceOffloadKind,
const llvm::fltSemantics *FPType) const override {		const llvm::fltSemantics *FPType) const override {
// DAZ and FTZ are on by default.		// DAZ and FTZ are on by default.
return llvm::DenormalMode::getPreserveSign();		return llvm::DenormalMode::getPreserveSign();
}		}

protected:		protected:
Tool *buildAssembler() const override;		Tool *buildAssembler() const override;
Tool *buildLinker() const override;		Tool *buildLinker() const override;
};		};

} // end namespace toolchains		} // end namespace toolchains
} // end namespace driver		} // end namespace driver
} // end namespace clang		} // end namespace clang

#endif // LLVM_CLANG_LIB_DRIVER_TOOLCHAINS_PS4CPU_H		#endif // LLVM_CLANG_LIB_DRIVER_TOOLCHAINS_PS4CPU_H

clang/test/Driver/cuda-flush-denormals-to-zero.cu

	// Checks that cuda compilation does the right thing when passed			// Checks that cuda compilation does the right thing when passed
	// -fcuda-flush-denormals-to-zero. This should be translated to			// -fcuda-flush-denormals-to-zero. This should be translated to
	// -fdenormal-fp-math-f32=preserve-sign			// -fdenormal-fp-math-f32=preserve-sign

	// RUN: %clang -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=sm_20 -fcuda-flush-denormals-to-zero -nocudainc -nocudalib %s 2>&1 \| FileCheck -check-prefix=FTZ %s			// RUN: %clang -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=sm_20 -fcuda-flush-denormals-to-zero -nocudainc -nocudalib %s 2>&1 \| FileCheck -check-prefix=FTZ %s
	// RUN: %clang -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=sm_20 -fno-cuda-flush-denormals-to-zero -nocudainc -nocudalib %s 2>&1 \| FileCheck -check-prefix=NOFTZ %s			// RUN: %clang -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=sm_20 -fno-cuda-flush-denormals-to-zero -nocudainc -nocudalib %s 2>&1 \| FileCheck -check-prefix=NOFTZ %s
	// RUN: %clang -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=sm_70 -fcuda-flush-denormals-to-zero -nocudainc -nocudalib %s 2>&1 \| FileCheck -check-prefix=FTZ %s			// RUN: %clang -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=sm_70 -fcuda-flush-denormals-to-zero -nocudainc -nocudalib %s 2>&1 \| FileCheck -check-prefix=FTZ %s
	// RUN: %clang -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=sm_70 -fno-cuda-flush-denormals-to-zero -nocudainc -nocudalib %s 2>&1 \| FileCheck -check-prefix=NOFTZ %s			// RUN: %clang -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=sm_70 -fno-cuda-flush-denormals-to-zero -nocudainc -nocudalib %s 2>&1 \| FileCheck -check-prefix=NOFTZ %s

	// Test explicit argument.			// Test explicit argument, with CUDA offload kind
	// RUN: %clang -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=gfx803 -fcuda-flush-denormals-to-zero -nocudainc -nogpulib %s 2>&1 \| FileCheck -check-prefix=FTZ %s			// RUN: %clang -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=gfx803 -fcuda-flush-denormals-to-zero -nocudainc -nogpulib %s 2>&1 \| FileCheck -check-prefix=FTZ %s
	// RUN: %clang -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=gfx803 -fno-cuda-flush-denormals-to-zero -nocudainc -nogpulib %s 2>&1 \| FileCheck -check-prefix=NOFTZ %s			// RUN: %clang -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=gfx803 -fno-cuda-flush-denormals-to-zero -nocudainc -nogpulib %s 2>&1 \| FileCheck -check-prefix=NOFTZ %s

				// Test explicit argument, with HIP offload kind
				// RUN: %clang -x hip -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=gfx803 -fcuda-flush-denormals-to-zero -nocudainc -nogpulib %s 2>&1 \| FileCheck -check-prefix=FTZ %s
				// RUN: %clang -x hip -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=gfx803 -fno-cuda-flush-denormals-to-zero -nocudainc -nogpulib %s 2>&1 \| FileCheck -check-prefix=NOFTZ %s

	// RUN: %clang -x hip -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=gfx900 -fcuda-flush-denormals-to-zero -nocudainc -nogpulib %s 2>&1 \| FileCheck -check-prefix=FTZ %s			// RUN: %clang -x hip -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=gfx900 -fcuda-flush-denormals-to-zero -nocudainc -nogpulib %s 2>&1 \| FileCheck -check-prefix=FTZ %s
	// RUN: %clang -x hip -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=gfx900 -fno-cuda-flush-denormals-to-zero -nocudainc -nogpulib %s 2>&1 \| FileCheck -check-prefix=NOFTZ %s			// RUN: %clang -x hip -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=gfx900 -fno-cuda-flush-denormals-to-zero -nocudainc -nogpulib %s 2>&1 \| FileCheck -check-prefix=NOFTZ %s

	// Test the default changing with no argument based on the subtarget.			// Test the default changing with no argument based on the subtarget in HIP mode
	// RUN: %clang -x hip -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=gfx803 -nocudainc -nogpulib %s 2>&1 \| FileCheck -check-prefix=FTZ %s			// RUN: %clang -x hip -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=gfx803 -nocudainc -nogpulib %s 2>&1 \| FileCheck -check-prefix=FTZ %s
	// RUN: %clang -x hip -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=gfx900 -nocudainc -nogpulib %s 2>&1 \| FileCheck -check-prefix=NOFTZ %s			// RUN: %clang -x hip -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=gfx900 -nocudainc -nogpulib %s 2>&1 \| FileCheck -check-prefix=NOFTZ %s


				// Test multiple offload archs with different defaults.
				// RUN: %clang -x hip -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell --cuda-gpu-arch=gfx803 --cuda-gpu-arch=gfx900 -nocudainc -nogpulib %s 2>&1 \| FileCheck -check-prefix=MIXED-DEFAULT-MODE %s
				yaxunlUnsubmitted Not Done Reply Inline Actions this will result in multiple clang -cc1 commands, each one corresponding to an arch. You need to check each arch. yaxunl: this will result in multiple clang -cc1 commands, each one corresponding to an arch. You need…
				arsenmAuthorUnsubmitted Done Reply Inline Actions Since the flag is not printed for the default case, having a second arch check line would interfere with the -NOT check, as there is no CHECK-SAME-NOT arsenm: Since the flag is not printed for the default case, having a second arch check line would…
				// RUN: %clang -x hip -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell -fcuda-flush-denormals-to-zero --cuda-gpu-arch=gfx803 --cuda-gpu-arch=gfx900 -nocudainc -nogpulib %s 2>&1 \| FileCheck -check-prefix=FTZX2 %s
				// RUN: %clang -x hip -no-canonical-prefixes -### -target x86_64-linux-gnu -c -march=haswell -fno-cuda-flush-denormals-to-zero --cuda-gpu-arch=gfx803 --cuda-gpu-arch=gfx900 -nocudainc -nogpulib %s 2>&1 \| FileCheck -check-prefix=NOFTZ %s


	// CPUFTZ-NOT: -fdenormal-fp-math			// CPUFTZ-NOT: -fdenormal-fp-math

	// FTZ-NOT: -fdenormal-fp-math-f32=			// FTZ-NOT: -fdenormal-fp-math-f32=
	// FTZ: "-fdenormal-fp-math-f32=preserve-sign,preserve-sign"			// FTZ: "-fdenormal-fp-math-f32=preserve-sign,preserve-sign"

	// The default of ieee is omitted			// The default of ieee is omitted
	// NOFTZ-NOT: "-fdenormal-fp-math"			// NOFTZ-NOT: "-fdenormal-fp-math"
	// NOFTZ-NOT: "-fdenormal-fp-math-f32"			// NOFTZ-NOT: "-fdenormal-fp-math-f32"

				// MIXED-DEFAULT-MODE-NOT: -denormal-fp-math
				// MIXED-DEFAULT-MODE: "-fdenormal-fp-math-f32=preserve-sign,preserve-sign"
				// MIXED-DEFAULT-MODE-SAME: "-target-cpu" "gfx803"
				// MIXED-DEFAULT-MODE-NOT: -denormal-fp-math

				// FTZX2: "-fdenormal-fp-math-f32=preserve-sign,preserve-sign"
				// FTZX2-SAME: "-target-cpu" "gfx803"
				// FTZX2: "-fdenormal-fp-math-f32=preserve-sign,preserve-sign"
				// FTZX2-SAME: "-target-cpu" "gfx900"

This is an archive of the discontinued LLVM Phabricator instance.

HIP: Fix handling of denormal modeClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 257011

clang/include/clang/Driver/ToolChain.h

clang/lib/Driver/ToolChains/AMDGPU.h

clang/lib/Driver/ToolChains/AMDGPU.cpp

clang/lib/Driver/ToolChains/Clang.cpp

clang/lib/Driver/ToolChains/Cuda.h

clang/lib/Driver/ToolChains/Cuda.cpp

clang/lib/Driver/ToolChains/Linux.h

clang/lib/Driver/ToolChains/Linux.cpp

clang/lib/Driver/ToolChains/PS4CPU.h

clang/test/Driver/cuda-flush-denormals-to-zero.cu

HIP: Fix handling of denormal mode
ClosedPublic