This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
include/llvm/IR/
-
llvm/
-
IR/
1/1
IntrinsicsNVVM.td
-
lib/Target/NVPTX/
-
Target/
-
NVPTX/
-
NVPTXInstrInfo.td
1/1
NVPTXIntrinsics.td
4/4
NVPTXTargetTransformInfo.cpp
-
test/CodeGen/NVPTX/
-
CodeGen/
-
NVPTX/
-
math-intrins-sm80-ptx70-instcombine.ll
-
math-intrins-sm80-ptx70.ll
-
math-intrins-sm86-ptx72.ll

Differential D117887

[NVPTX] Expose float tys min, max, abs, neg as builtins
ClosedPublic

Authored by jchlanda on Jan 21 2022, 5:52 AM.

Download Raw Diff

Details

Reviewers

csigg
tra
bkramer

Commits

rG7a6d692b3b11: [NVPTX] Expose float tys min, max, abs, neg as builtins
rGe0dc4ac28f00: [NVPTX] Expose float tys min, max, abs, neg as builtins

Summary

Adds support for the following builtins:

abs, neg:
- .bf16,
- .bf16x2
min, max
- {.ftz}{.NaN}{.xorsign.abs}.f16
- {.ftz}{.NaN}{.xorsign.abs}.f16x2
- {.NaN}{.xorsign.abs}.bf16
- {.NaN}{.xorsign.abs}.bf16x2
- {.ftz}{.NaN}{.xorsign.abs}.f32

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

jchlanda created this revision.Jan 21 2022, 5:52 AM

Herald added subscribers: asavonic, hiraditya, jholewinski. · View Herald TranscriptJan 21 2022, 5:52 AM

jchlanda requested review of this revision.Jan 21 2022, 5:52 AM

Herald added projects: Restricted Project, Restricted Project. · View Herald TranscriptJan 21 2022, 5:52 AM

Herald added subscribers: llvm-commits, cfe-commits, jdoerfert. · View Herald Transcript

Harbormaster completed remote builds in B144818: Diff 401965.Jan 21 2022, 7:20 AM

Looks good overall.
Please do check that the generated PTX does get assembled by ptxas.

There are few newer variants of these instructions that appear to be missing. E.g. {min/max}.xorsign.abs.
If you only intended to add instructions available in PTX-7.0, which, based on the constraints used in the patch, appears to be the case, I'd mention that in the commit log.

clang/test/CodeGen/builtins-nvptx.c
822 ↗	(On Diff #401965)	I'd `#define` the magic values to give them sensible names.
llvm/include/llvm/IR/IntrinsicsNVVM.td
582–615	Nit: `variant` might work better here and below.
llvm/lib/Target/NVPTX/NVPTXIntrinsics.td
652	Ditto. Capacity->Variant.

In D117887#3262024, @tra wrote:

If you only intended to add instructions available in PTX-7.0, which, based on the constraints used in the patch, appears to be the case, I'd mention that in the commit log.

Yeap, we were only going to bump up to 7.0, I don't mind adding the xorsign.abs, while I'm at it. Will update the diff shortly.

Added xorsign.abs variant and test.

In D117887#3262024, @tra wrote:

Please do check that the generated PTX does get assembled by ptxas.

ptxas is happy with asm generated from both math-intrins-sm86-ptx72.ll and math-intrins-sm80-ptx70.ll

jchlanda marked 2 inline comments as done.Feb 2 2022, 12:34 AM

jchlanda added inline comments.

clang/test/CodeGen/builtins-nvptx.c
822 ↗	(On Diff #401965)	I've added #defs for those values, they are not strictly needed (as in the values don't really matter) as this is not being executed, but I agree, it makes for a better read of the test.

Harbormaster completed remote builds in B147066: Diff 405161.Feb 2 2022, 1:13 AM

jchlanda marked an inline comment as done.Feb 2 2022, 1:57 AM

In D117887#3289481, @jchlanda wrote:

ptxas is happy with asm generated from both math-intrins-sm86-ptx72.ll and math-intrins-sm80-ptx70.ll

Thank you for checking that.

clang/test/CodeGen/builtins-nvptx.c
822 ↗	(On Diff #401965)	I mostly had NaN/Inf in mind. Arbitrary numbers could remain literals. This is OK, too.

This revision is now accepted and ready to land.Feb 2 2022, 10:18 AM

jchlanda marked an inline comment as done.Feb 3 2022, 5:15 AM

jchlanda added a child revision: D118977: [NVPTX] Add more FMA intriniscs/builtins.Feb 4 2022, 2:01 AM

tra added inline comments.Feb 9 2022, 11:08 AM

llvm/lib/Target/NVPTX/NVPTXTargetTransformInfo.cpp
162	The new 3-argument constructor above obviates the need for this one.

jchlanda added inline comments.Feb 9 2022, 11:20 AM

llvm/lib/Target/NVPTX/NVPTXTargetTransformInfo.cpp
162	I'm not sure if it does, the 3-way takes `Intrinsic`, while this one `Instruction`.

tra added inline comments.Feb 9 2022, 11:33 AM

llvm/lib/Target/NVPTX/NVPTXTargetTransformInfo.cpp
162	You're right. Sorry, my mistake.

jchlanda marked 2 inline comments as done.Feb 9 2022, 11:37 AM

jchlanda added inline comments.

llvm/lib/Target/NVPTX/NVPTXTargetTransformInfo.cpp
162	np

jchlanda mentioned this in D118977: [NVPTX] Add more FMA intriniscs/builtins.Feb 17 2022, 4:31 AM

This revision was landed with ongoing or failed builds.Feb 23 2022, 1:57 PM

Closed by commit rGe0dc4ac28f00: [NVPTX] Expose float tys min, max, abs, neg as builtins (authored by jchlanda, committed by tra). · Explain Why

This revision was automatically updated to reflect the committed changes.

tra added a commit: rGe0dc4ac28f00: [NVPTX] Expose float tys min, max, abs, neg as builtins.

@tra thank you for landing the patches, it seems that the clang part (builtin declarations and tests) have been dropped, only llvm dir changes made it through. Is there any way I could fix it (same goes for the other two patches in this stack)?

In D117887#3351257, @jchlanda wrote:

@tra thank you for landing the patches, it seems that the clang part (builtin declarations and tests) have been dropped, only llvm dir changes made it through. Is there any way I could fix it (same goes for the other two patches in this stack)?

Somehow arc export | git apply didn't pick clang changes when I was transferring the patch from the phabricator. I'll re-fetch the patches and will land the missing pieces shortly.

I'm not sure how the you've submitted the patch to phabricator. In general, it works best when the patch is supplied as a gic commit diff, with the author metadata, etc.
Or via arc diff. See for the details. https://llvm.org/docs/Phabricator.html#phabricator-reviews

tra added a commit: rG7a6d692b3b11: [NVPTX] Expose float tys min, max, abs, neg as builtins.Mar 1 2022, 11:08 AM

Missing clang-side changes have landed. Please check.

In D117887#3352079, @tra wrote:

In D117887#3351257, @jchlanda wrote:

@tra thank you for landing the patches, it seems that the clang part (builtin declarations and tests) have been dropped, only llvm dir changes made it through. Is there any way I could fix it (same goes for the other two patches in this stack)?

Somehow arc export | git apply didn't pick clang changes when I was transferring the patch from the phabricator. I'll re-fetch the patches and will land the missing pieces shortly.

I'm not sure how the you've submitted the patch to phabricator. In general, it works best when the patch is supplied as a gic commit diff, with the author metadata, etc.
Or via arc diff. See for the details. https://llvm.org/docs/Phabricator.html#phabricator-reviews

I went with the web interface as described here: https://llvm.org/docs/Phabricator.html#requesting-a-review-via-the-web-interface
with git diff -U999999 ... didn't want to bite the bullet of arc, hoping that github PRs will soon be a thing.

All working now, thank you for resolving that so quickly.

Herald added a project: Restricted Project. · View Herald TranscriptMar 2 2022, 12:20 AM

In D117887#3353653, @jchlanda wrote:

I went with the web interface as described here: https://llvm.org/docs/Phabricator.html#requesting-a-review-via-the-web-interface
with git diff -U999999 ... didn't want to bite the bullet of arc, hoping that github PRs will soon be a thing.

git show -U99999 should work even better as it would include author info and commit log message, so one would not need to re-enter it manually when importing the patch from phabricator.

In any case that's probably not the root cause of my error, just a minor inconvenience.
I still have no idea what went wrong during my initial commit, but I think I've learned the lesson and will start double checking the imported changes for completeness.

jchlanda mentioned this in D120991: [NVPTX] Correctly set regs for neg, abs intrinsics.Mar 4 2022, 5:35 AM

tra mentioned this in rGdce6aa237a07: [NVPTX] Correctly set regs for neg, abs intrinsics.Mar 4 2022, 11:07 AM

Revision Contents

Path

Size

llvm/

include/

llvm/

IR/

IntrinsicsNVVM.td

76 lines

lib/

Target/

NVPTX/

NVPTXInstrInfo.td

2 lines

NVPTXIntrinsics.td

151 lines

NVPTXTargetTransformInfo.cpp

55 lines

test/

CodeGen/

NVPTX/

math-intrins-sm80-ptx70-instcombine.ll

268 lines

math-intrins-sm80-ptx70.ll

260 lines

math-intrins-sm86-ptx72.ll

259 lines

Diff 410930

llvm/include/llvm/IR/IntrinsicsNVVM.td

Show First 20 Lines • Show All 558 Lines • ▼ Show 20 Lines	let TargetPrefix = "nvvm" in {
def int_nvvm_prmt : GCCBuiltin<"__nvvm_prmt">,		def int_nvvm_prmt : GCCBuiltin<"__nvvm_prmt">,
DefaultAttrsIntrinsic<[llvm_i32_ty], [llvm_i32_ty, llvm_i32_ty, llvm_i32_ty],		DefaultAttrsIntrinsic<[llvm_i32_ty], [llvm_i32_ty, llvm_i32_ty, llvm_i32_ty],
[IntrNoMem, Commutative]>;		[IntrNoMem, Commutative]>;

//		//
// Min Max		// Min Max
//		//

def int_nvvm_fmin_f : GCCBuiltin<"__nvvm_fmin_f">,		foreach operation = ["min", "max"] in {
DefaultAttrsIntrinsic<[llvm_float_ty], [llvm_float_ty, llvm_float_ty],		def int_nvvm_f # operation # _d :
		GCCBuiltin<!strconcat("__nvvm_f", operation, "_d")>,
		DefaultAttrsIntrinsic<[llvm_double_ty], [llvm_double_ty, llvm_double_ty],
[IntrNoMem, IntrSpeculatable, Commutative]>;		[IntrNoMem, IntrSpeculatable, Commutative]>;
def int_nvvm_fmin_ftz_f : GCCBuiltin<"__nvvm_fmin_ftz_f">,
		foreach variant = ["_f", "_ftz_f", "_nan_f", "_ftz_nan_f",
		"_xorsign_abs_f", "_ftz_xorsign_abs_f", "_nan_xorsign_abs_f",
		"_ftz_nan_xorsign_abs_f"] in {
		def int_nvvm_f # operation # variant :
		GCCBuiltin<!strconcat("__nvvm_f", operation, variant)>,
DefaultAttrsIntrinsic<[llvm_float_ty], [llvm_float_ty, llvm_float_ty],		DefaultAttrsIntrinsic<[llvm_float_ty], [llvm_float_ty, llvm_float_ty],
[IntrNoMem, IntrSpeculatable, Commutative]>;		[IntrNoMem, IntrSpeculatable, Commutative]>;
		}

def int_nvvm_fmax_f : GCCBuiltin<"__nvvm_fmax_f">,		foreach variant = ["_f16", "_ftz_f16", "_nan_f16", "_ftz_nan_f16",
DefaultAttrsIntrinsic<[llvm_float_ty], [llvm_float_ty, llvm_float_ty]		"_xorsign_abs_f16", "_ftz_xorsign_abs_f16", "_nan_xorsign_abs_f16",
, [IntrNoMem, IntrSpeculatable, Commutative]>;		"_ftz_nan_xorsign_abs_f16"] in {
def int_nvvm_fmax_ftz_f : GCCBuiltin<"__nvvm_fmax_ftz_f">,		def int_nvvm_f # operation # variant :
DefaultAttrsIntrinsic<[llvm_float_ty], [llvm_float_ty, llvm_float_ty],		GCCBuiltin<!strconcat("__nvvm_f", operation, variant)>,
		DefaultAttrsIntrinsic<[llvm_half_ty], [llvm_half_ty, llvm_half_ty],
[IntrNoMem, IntrSpeculatable, Commutative]>;		[IntrNoMem, IntrSpeculatable, Commutative]>;
		}

def int_nvvm_fmin_d : GCCBuiltin<"__nvvm_fmin_d">,		foreach variant = ["_f16x2", "_ftz_f16x2", "_nan_f16x2",
DefaultAttrsIntrinsic<[llvm_double_ty], [llvm_double_ty, llvm_double_ty],		"_ftz_nan_f16x2", "_xorsign_abs_f16x2", "_ftz_xorsign_abs_f16x2",
		"_nan_xorsign_abs_f16x2", "_ftz_nan_xorsign_abs_f16x2"] in {
		def int_nvvm_f # operation # variant :
		GCCBuiltin<!strconcat("__nvvm_f", operation, variant)>,
		DefaultAttrsIntrinsic<[llvm_v2f16_ty], [llvm_v2f16_ty, llvm_v2f16_ty],
[IntrNoMem, IntrSpeculatable, Commutative]>;		[IntrNoMem, IntrSpeculatable, Commutative]>;
def int_nvvm_fmax_d : GCCBuiltin<"__nvvm_fmax_d">,		}
DefaultAttrsIntrinsic<[llvm_double_ty], [llvm_double_ty, llvm_double_ty],
		foreach variant = ["_bf16", "_nan_bf16", "_xorsign_abs_bf16",
		"_nan_xorsign_abs_bf16"] in {
		def int_nvvm_f # operation # variant :
		GCCBuiltin<!strconcat("__nvvm_f", operation, variant)>,
		DefaultAttrsIntrinsic<[llvm_i16_ty], [llvm_i16_ty, llvm_i16_ty],
[IntrNoMem, IntrSpeculatable, Commutative]>;		[IntrNoMem, IntrSpeculatable, Commutative]>;
		}

		foreach variant = ["_bf16x2", "_nan_bf16x2", "_xorsign_abs_bf16x2",
		"_nan_xorsign_abs_bf16x2"] in {
		def int_nvvm_f # operation # variant :
		GCCBuiltin<!strconcat("__nvvm_f", operation, variant)>,
		DefaultAttrsIntrinsic<[llvm_i32_ty], [llvm_i32_ty, llvm_i32_ty],
		[IntrNoMem, IntrSpeculatable, Commutative]>;
		}
		}
		traUnsubmitted Done Reply Inline Actions Nit: `variant` might work better here and below. tra: Nit: `variant` might work better here and below.

//		//
// Multiplication		// Multiplication
//		//

def int_nvvm_mulhi_i : GCCBuiltin<"__nvvm_mulhi_i">,		def int_nvvm_mulhi_i : GCCBuiltin<"__nvvm_mulhi_i">,
DefaultAttrsIntrinsic<[llvm_i32_ty], [llvm_i32_ty, llvm_i32_ty],		DefaultAttrsIntrinsic<[llvm_i32_ty], [llvm_i32_ty, llvm_i32_ty],
[IntrNoMem, IntrSpeculatable, Commutative]>;		[IntrNoMem, IntrSpeculatable, Commutative]>;
▲ Show 20 Lines • Show All 141 Lines • ▼ Show 20 Lines	//
def int_nvvm_fabs_ftz_f : GCCBuiltin<"__nvvm_fabs_ftz_f">,		def int_nvvm_fabs_ftz_f : GCCBuiltin<"__nvvm_fabs_ftz_f">,
DefaultAttrsIntrinsic<[llvm_float_ty], [llvm_float_ty], [IntrNoMem, IntrSpeculatable]>;		DefaultAttrsIntrinsic<[llvm_float_ty], [llvm_float_ty], [IntrNoMem, IntrSpeculatable]>;
def int_nvvm_fabs_f : GCCBuiltin<"__nvvm_fabs_f">,		def int_nvvm_fabs_f : GCCBuiltin<"__nvvm_fabs_f">,
DefaultAttrsIntrinsic<[llvm_float_ty], [llvm_float_ty], [IntrNoMem, IntrSpeculatable]>;		DefaultAttrsIntrinsic<[llvm_float_ty], [llvm_float_ty], [IntrNoMem, IntrSpeculatable]>;
def int_nvvm_fabs_d : GCCBuiltin<"__nvvm_fabs_d">,		def int_nvvm_fabs_d : GCCBuiltin<"__nvvm_fabs_d">,
DefaultAttrsIntrinsic<[llvm_double_ty], [llvm_double_ty], [IntrNoMem, IntrSpeculatable]>;		DefaultAttrsIntrinsic<[llvm_double_ty], [llvm_double_ty], [IntrNoMem, IntrSpeculatable]>;

//		//
		// Abs, Neg bf16, bf16x2
		//

		foreach unary = ["abs", "neg"] in {
		def int_nvvm_ # unary # _bf16 :
		GCCBuiltin<!strconcat("__nvvm_", unary, "_bf16")>,
		DefaultAttrsIntrinsic<[llvm_i16_ty], [llvm_i16_ty], [IntrNoMem]>;
		def int_nvvm_ # unary # _bf16x2 :
		GCCBuiltin<!strconcat("__nvvm_", unary, "_bf16x2")>,
		DefaultAttrsIntrinsic<[llvm_i32_ty], [llvm_i32_ty], [IntrNoMem]>;
		}

		//
// Round		// Round
//		//

def int_nvvm_round_ftz_f : GCCBuiltin<"__nvvm_round_ftz_f">,		def int_nvvm_round_ftz_f : GCCBuiltin<"__nvvm_round_ftz_f">,
DefaultAttrsIntrinsic<[llvm_float_ty], [llvm_float_ty], [IntrNoMem, IntrSpeculatable]>;		DefaultAttrsIntrinsic<[llvm_float_ty], [llvm_float_ty], [IntrNoMem, IntrSpeculatable]>;
def int_nvvm_round_f : GCCBuiltin<"__nvvm_round_f">,		def int_nvvm_round_f : GCCBuiltin<"__nvvm_round_f">,
DefaultAttrsIntrinsic<[llvm_float_ty], [llvm_float_ty], [IntrNoMem, IntrSpeculatable]>;		DefaultAttrsIntrinsic<[llvm_float_ty], [llvm_float_ty], [IntrNoMem, IntrSpeculatable]>;

▲ Show 20 Lines • Show All 3,863 Lines • Show Last 20 Lines

llvm/lib/Target/NVPTX/NVPTXInstrInfo.td

	Show First 20 Lines • Show All 146 Lines • ▼ Show 20 Lines
	def hasPTX31 : Predicate<"Subtarget->getPTXVersion() >= 31">;			def hasPTX31 : Predicate<"Subtarget->getPTXVersion() >= 31">;
	def hasPTX60 : Predicate<"Subtarget->getPTXVersion() >= 60">;			def hasPTX60 : Predicate<"Subtarget->getPTXVersion() >= 60">;
	def hasPTX61 : Predicate<"Subtarget->getPTXVersion() >= 61">;			def hasPTX61 : Predicate<"Subtarget->getPTXVersion() >= 61">;
	def hasPTX63 : Predicate<"Subtarget->getPTXVersion() >= 63">;			def hasPTX63 : Predicate<"Subtarget->getPTXVersion() >= 63">;
	def hasPTX64 : Predicate<"Subtarget->getPTXVersion() >= 64">;			def hasPTX64 : Predicate<"Subtarget->getPTXVersion() >= 64">;
	def hasPTX65 : Predicate<"Subtarget->getPTXVersion() >= 65">;			def hasPTX65 : Predicate<"Subtarget->getPTXVersion() >= 65">;
	def hasPTX70 : Predicate<"Subtarget->getPTXVersion() >= 70">;			def hasPTX70 : Predicate<"Subtarget->getPTXVersion() >= 70">;
	def hasPTX71 : Predicate<"Subtarget->getPTXVersion() >= 71">;			def hasPTX71 : Predicate<"Subtarget->getPTXVersion() >= 71">;
				def hasPTX72 : Predicate<"Subtarget->getPTXVersion() >= 72">;

	def hasSM30 : Predicate<"Subtarget->getSmVersion() >= 30">;			def hasSM30 : Predicate<"Subtarget->getSmVersion() >= 30">;
	def hasSM70 : Predicate<"Subtarget->getSmVersion() >= 70">;			def hasSM70 : Predicate<"Subtarget->getSmVersion() >= 70">;
	def hasSM72 : Predicate<"Subtarget->getSmVersion() >= 72">;			def hasSM72 : Predicate<"Subtarget->getSmVersion() >= 72">;
	def hasSM75 : Predicate<"Subtarget->getSmVersion() >= 75">;			def hasSM75 : Predicate<"Subtarget->getSmVersion() >= 75">;
	def hasSM80 : Predicate<"Subtarget->getSmVersion() >= 80">;			def hasSM80 : Predicate<"Subtarget->getSmVersion() >= 80">;
				def hasSM86 : Predicate<"Subtarget->getSmVersion() >= 86">;

	// non-sync shfl instructions are not available on sm_70+ in PTX6.4+			// non-sync shfl instructions are not available on sm_70+ in PTX6.4+
	def hasSHFL : Predicate<"!(Subtarget->getSmVersion() >= 70"			def hasSHFL : Predicate<"!(Subtarget->getSmVersion() >= 70"
	"&& Subtarget->getPTXVersion() >= 64)">;			"&& Subtarget->getPTXVersion() >= 64)">;

	def useShortPtr : Predicate<"useShortPointers()">;			def useShortPtr : Predicate<"useShortPointers()">;
	def useFP16Math: Predicate<"Subtarget->allowFP16Math()">;			def useFP16Math: Predicate<"Subtarget->allowFP16Math()">;

	▲ Show 20 Lines • Show All 3,046 Lines • Show Last 20 Lines

llvm/lib/Target/NVPTX/NVPTXIntrinsics.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 543 Lines • ▼ Show 20 Lines
def : Pat<(int_nvvm_fmin_d		def : Pat<(int_nvvm_fmin_d
(int_nvvm_fmax_d Float64Regs:$a, immDouble0), immDouble1),		(int_nvvm_fmax_d Float64Regs:$a, immDouble0), immDouble1),
(CVT_f64_f64 Float64Regs:$a, CvtSAT)>;		(CVT_f64_f64 Float64Regs:$a, CvtSAT)>;


// We need a full string for OpcStr here because we need to deal with case like		// We need a full string for OpcStr here because we need to deal with case like
// INT_PTX_RECIP.		// INT_PTX_RECIP.
class F_MATH_1<string OpcStr, NVPTXRegClass target_regclass,		class F_MATH_1<string OpcStr, NVPTXRegClass target_regclass,
NVPTXRegClass src_regclass, Intrinsic IntOP>		NVPTXRegClass src_regclass, Intrinsic IntOP, list<Predicate> Preds = []>
: NVPTXInst<(outs target_regclass:$dst), (ins src_regclass:$src0),		: NVPTXInst<(outs target_regclass:$dst), (ins src_regclass:$src0),
OpcStr,		OpcStr,
[(set target_regclass:$dst, (IntOP src_regclass:$src0))]>;		[(set target_regclass:$dst, (IntOP src_regclass:$src0))]>,
		Requires<Preds>;

// We need a full string for OpcStr here because we need to deal with the case		// We need a full string for OpcStr here because we need to deal with the case
// like INT_PTX_NATIVE_POWR_F.		// like INT_PTX_NATIVE_POWR_F.
class F_MATH_2<string OpcStr, NVPTXRegClass t_regclass,		class F_MATH_2<string OpcStr, NVPTXRegClass t_regclass,
NVPTXRegClass s0_regclass, NVPTXRegClass s1_regclass, Intrinsic IntOP>		NVPTXRegClass s0_regclass, NVPTXRegClass s1_regclass, Intrinsic IntOP,
		list<Predicate> Preds = []>
: NVPTXInst<(outs t_regclass:$dst),		: NVPTXInst<(outs t_regclass:$dst),
(ins s0_regclass:$src0, s1_regclass:$src1),		(ins s0_regclass:$src0, s1_regclass:$src1),
OpcStr,		OpcStr,
[(set t_regclass:$dst, (IntOP s0_regclass:$src0, s1_regclass:$src1))]>;		[(set t_regclass:$dst, (IntOP s0_regclass:$src0, s1_regclass:$src1))]>,
		Requires<Preds>;

class F_MATH_3<string OpcStr, NVPTXRegClass t_regclass,		class F_MATH_3<string OpcStr, NVPTXRegClass t_regclass,
NVPTXRegClass s0_regclass, NVPTXRegClass s1_regclass,		NVPTXRegClass s0_regclass, NVPTXRegClass s1_regclass,
NVPTXRegClass s2_regclass, Intrinsic IntOP>		NVPTXRegClass s2_regclass, Intrinsic IntOP>
: NVPTXInst<(outs t_regclass:$dst),		: NVPTXInst<(outs t_regclass:$dst),
(ins s0_regclass:$src0, s1_regclass:$src1, s2_regclass:$src2),		(ins s0_regclass:$src0, s1_regclass:$src1, s2_regclass:$src2),
OpcStr,		OpcStr,
[(set t_regclass:$dst,		[(set t_regclass:$dst,
Show All 9 Lines
//		//
// Min Max		// Min Max
//		//

def INT_NVVM_FMIN_F : F_MATH_2<"min.f32 \t$dst, $src0, $src1;", Float32Regs,		def INT_NVVM_FMIN_F : F_MATH_2<"min.f32 \t$dst, $src0, $src1;", Float32Regs,
Float32Regs, Float32Regs, int_nvvm_fmin_f>;		Float32Regs, Float32Regs, int_nvvm_fmin_f>;
def INT_NVVM_FMIN_FTZ_F : F_MATH_2<"min.ftz.f32 \t$dst, $src0, $src1;",		def INT_NVVM_FMIN_FTZ_F : F_MATH_2<"min.ftz.f32 \t$dst, $src0, $src1;",
Float32Regs, Float32Regs, Float32Regs, int_nvvm_fmin_ftz_f>;		Float32Regs, Float32Regs, Float32Regs, int_nvvm_fmin_ftz_f>;
		def INT_NVVM_FMIN_NAN_F : F_MATH_2<"min.NaN.f32 \t$dst, $src0, $src1;",
		Float32Regs, Float32Regs, Float32Regs, int_nvvm_fmin_nan_f,
		[hasPTX70, hasSM80]>;
		def INT_NVVM_FMIN_FTZ_NAN_F : F_MATH_2<"min.ftz.NaN.f32 \t$dst, $src0, $src1;",
		Float32Regs, Float32Regs, Float32Regs, int_nvvm_fmin_ftz_nan_f,
		[hasPTX70, hasSM80]>;
		def INT_NVVM_FMIN_XORSIGN_ABS_F :
		F_MATH_2<"min.xorsign.abs.f32 \t$dst, $src0, $src1;",
		Float32Regs, Float32Regs, Float32Regs, int_nvvm_fmin_xorsign_abs_f,
		[hasPTX72, hasSM86]>;
		def INT_NVVM_FMIN_FTZ_XORSIGN_ABS_F :
		F_MATH_2<"min.ftz.xorsign.abs.f32 \t$dst, $src0, $src1;",
		Float32Regs, Float32Regs, Float32Regs, int_nvvm_fmin_ftz_xorsign_abs_f,
		[hasPTX72, hasSM86]>;
		def INT_NVVM_FMIN_NAN_XORSIGN_ABS_F :
		F_MATH_2<"min.NaN.xorsign.abs.f32 \t$dst, $src0, $src1;",
		Float32Regs, Float32Regs, Float32Regs, int_nvvm_fmin_nan_xorsign_abs_f,
		[hasPTX72, hasSM86]>;
		def INT_NVVM_FMIN_FTZ_NAN_XORSIGN_ABS_F :
		F_MATH_2<"min.ftz.NaN.xorsign.abs.f32 \t$dst, $src0, $src1;",
		Float32Regs, Float32Regs, Float32Regs, int_nvvm_fmin_ftz_nan_xorsign_abs_f,
		[hasPTX72, hasSM86]>;

def INT_NVVM_FMAX_F : F_MATH_2<"max.f32 \t$dst, $src0, $src1;", Float32Regs,		def INT_NVVM_FMAX_F : F_MATH_2<"max.f32 \t$dst, $src0, $src1;", Float32Regs,
Float32Regs, Float32Regs, int_nvvm_fmax_f>;		Float32Regs, Float32Regs, int_nvvm_fmax_f>;
def INT_NVVM_FMAX_FTZ_F : F_MATH_2<"max.ftz.f32 \t$dst, $src0, $src1;",		def INT_NVVM_FMAX_FTZ_F : F_MATH_2<"max.ftz.f32 \t$dst, $src0, $src1;",
Float32Regs, Float32Regs, Float32Regs, int_nvvm_fmax_ftz_f>;		Float32Regs, Float32Regs, Float32Regs, int_nvvm_fmax_ftz_f>;
		def INT_NVVM_FMAX_NAN_F : F_MATH_2<"max.NaN.f32 \t$dst, $src0, $src1;",
		Float32Regs, Float32Regs, Float32Regs, int_nvvm_fmax_nan_f,
		[hasPTX70, hasSM80]>;
		def INT_NVVM_FMAX_FTZ_NAN_F : F_MATH_2<"max.ftz.NaN.f32 \t$dst, $src0, $src1;",
		Float32Regs, Float32Regs, Float32Regs, int_nvvm_fmax_ftz_nan_f,
		[hasPTX70, hasSM80]>;
		def INT_NVVM_FMAX_XORSIGN_ABS_F :
		F_MATH_2<"max.xorsign.abs.f32 \t$dst, $src0, $src1;",
		Float32Regs, Float32Regs, Float32Regs, int_nvvm_fmax_xorsign_abs_f,
		[hasPTX72, hasSM86]>;
		def INT_NVVM_FMAX_FTZ_XORSIGN_ABS_F :
		F_MATH_2<"max.ftz.xorsign.abs.f32 \t$dst, $src0, $src1;",
		Float32Regs, Float32Regs, Float32Regs, int_nvvm_fmax_ftz_xorsign_abs_f,
		[hasPTX72, hasSM86]>;
		def INT_NVVM_FMAX_NAN_XORSIGN_ABS_F :
		F_MATH_2<"max.NaN.xorsign.abs.f32 \t$dst, $src0, $src1;",
		Float32Regs, Float32Regs, Float32Regs, int_nvvm_fmax_nan_xorsign_abs_f,
		[hasPTX72, hasSM86]>;
		def INT_NVVM_FMAX_FTZ_NAN_XORSIGN_ABS_F :
		F_MATH_2<"max.ftz.NaN.xorsign.abs.f32 \t$dst, $src0, $src1;",
		Float32Regs, Float32Regs, Float32Regs, int_nvvm_fmax_ftz_nan_xorsign_abs_f,
		[hasPTX72, hasSM86]>;

def INT_NVVM_FMIN_D : F_MATH_2<"min.f64 \t$dst, $src0, $src1;", Float64Regs,		def INT_NVVM_FMIN_D : F_MATH_2<"min.f64 \t$dst, $src0, $src1;", Float64Regs,
Float64Regs, Float64Regs, int_nvvm_fmin_d>;		Float64Regs, Float64Regs, int_nvvm_fmin_d>;
def INT_NVVM_FMAX_D : F_MATH_2<"max.f64 \t$dst, $src0, $src1;", Float64Regs,		def INT_NVVM_FMAX_D : F_MATH_2<"max.f64 \t$dst, $src0, $src1;", Float64Regs,
Float64Regs, Float64Regs, int_nvvm_fmax_d>;		Float64Regs, Float64Regs, int_nvvm_fmax_d>;

		//
		// Min Max f16, f16x2, bf16, bf16x2
		//
		class MIN_MAX_TUPLE<string V, Intrinsic I, NVPTXRegClass RC,
		list<Predicate> Preds = [hasPTX70, hasSM80]> {
		traUnsubmitted Done Reply Inline Actions Ditto. Capacity->Variant. tra: Ditto. Capacity->Variant.
		string Variant = V;
		Intrinsic Intr = I;
		NVPTXRegClass RegClass = RC;
		list<Predicate> Predicates = Preds;
		}

		multiclass MIN_MAX<string IntName> {
		foreach P = [
		MIN_MAX_TUPLE<"_f16", !if(!eq(IntName, "min"), int_nvvm_fmin_f16,
		int_nvvm_fmax_f16), Float16Regs>,
		MIN_MAX_TUPLE<"_ftz_f16", !if(!eq(IntName, "min"), int_nvvm_fmin_ftz_f16,
		int_nvvm_fmax_ftz_f16), Float16Regs>,
		MIN_MAX_TUPLE<"_NaN_f16", !if(!eq(IntName, "min"), int_nvvm_fmin_nan_f16,
		int_nvvm_fmax_nan_f16), Float16Regs>,
		MIN_MAX_TUPLE<"_ftz_NaN_f16", !if(!eq(IntName, "min"),
		int_nvvm_fmin_ftz_nan_f16, int_nvvm_fmax_ftz_nan_f16), Float16Regs>,
		MIN_MAX_TUPLE<"_xorsign_abs_f16", !if(!eq(IntName, "min"),
		int_nvvm_fmin_xorsign_abs_f16, int_nvvm_fmax_xorsign_abs_f16),
		Float16Regs, [hasPTX72, hasSM86]>,
		MIN_MAX_TUPLE<"_ftz_xorsign_abs_f16", !if(!eq(IntName, "min"),
		int_nvvm_fmin_ftz_xorsign_abs_f16, int_nvvm_fmax_ftz_xorsign_abs_f16),
		Float16Regs, [hasPTX72, hasSM86]>,
		MIN_MAX_TUPLE<"_NaN_xorsign_abs_f16", !if(!eq(IntName, "min"),
		int_nvvm_fmin_nan_xorsign_abs_f16, int_nvvm_fmax_nan_xorsign_abs_f16),
		Float16Regs, [hasPTX72, hasSM86]>,
		MIN_MAX_TUPLE<"_ftz_NaN_xorsign_abs_f16", !if(!eq(IntName, "min"),
		int_nvvm_fmin_ftz_nan_xorsign_abs_f16,
		int_nvvm_fmax_ftz_nan_xorsign_abs_f16), Float16Regs, [hasPTX72, hasSM86]>,
		MIN_MAX_TUPLE<"_f16x2", !if(!eq(IntName, "min"), int_nvvm_fmin_f16x2,
		int_nvvm_fmax_f16x2), Float16x2Regs>,
		MIN_MAX_TUPLE<"_ftz_f16x2", !if(!eq(IntName, "min"),
		int_nvvm_fmin_ftz_f16x2, int_nvvm_fmax_ftz_f16x2), Float16x2Regs>,
		MIN_MAX_TUPLE<"_NaN_f16x2", !if(!eq(IntName, "min"),
		int_nvvm_fmin_nan_f16x2, int_nvvm_fmax_nan_f16x2), Float16x2Regs>,
		MIN_MAX_TUPLE<"_ftz_NaN_f16x2", !if(!eq(IntName, "min"),
		int_nvvm_fmin_ftz_nan_f16x2, int_nvvm_fmax_ftz_nan_f16x2), Float16x2Regs>,
		MIN_MAX_TUPLE<"_xorsign_abs_f16x2", !if(!eq(IntName, "min"),
		int_nvvm_fmin_xorsign_abs_f16x2, int_nvvm_fmax_xorsign_abs_f16x2),
		Float16x2Regs, [hasPTX72, hasSM86]>,
		MIN_MAX_TUPLE<"_ftz_xorsign_abs_f16x2", !if(!eq(IntName, "min"),
		int_nvvm_fmin_ftz_xorsign_abs_f16x2, int_nvvm_fmax_ftz_xorsign_abs_f16x2),
		Float16x2Regs, [hasPTX72, hasSM86]>,
		MIN_MAX_TUPLE<"_NaN_xorsign_abs_f16x2", !if(!eq(IntName, "min"),
		int_nvvm_fmin_nan_xorsign_abs_f16x2, int_nvvm_fmax_nan_xorsign_abs_f16x2),
		Float16x2Regs, [hasPTX72, hasSM86]>,
		MIN_MAX_TUPLE<"_ftz_NaN_xorsign_abs_f16x2", !if(!eq(IntName, "min"),
		int_nvvm_fmin_ftz_nan_xorsign_abs_f16x2,
		int_nvvm_fmax_ftz_nan_xorsign_abs_f16x2),
		Float16x2Regs, [hasPTX72, hasSM86]>,
		MIN_MAX_TUPLE<"_bf16", !if(!eq(IntName, "min"),
		int_nvvm_fmin_bf16, int_nvvm_fmax_bf16), Int16Regs>,
		MIN_MAX_TUPLE<"_NaN_bf16", !if(!eq(IntName, "min"), int_nvvm_fmin_nan_bf16,
		int_nvvm_fmax_nan_bf16), Int16Regs>,
		MIN_MAX_TUPLE<"_xorsign_abs_bf16", !if(!eq(IntName, "min"),
		int_nvvm_fmin_xorsign_abs_bf16, int_nvvm_fmax_xorsign_abs_bf16),
		Int16Regs, [hasPTX72, hasSM86]>,
		MIN_MAX_TUPLE<"_NaN_xorsign_abs_bf16", !if(!eq(IntName, "min"),
		int_nvvm_fmin_nan_xorsign_abs_bf16, int_nvvm_fmax_nan_xorsign_abs_bf16),
		Int16Regs, [hasPTX72, hasSM86]>,
		MIN_MAX_TUPLE<"_bf16x2", !if(!eq(IntName, "min"), int_nvvm_fmin_bf16x2,
		int_nvvm_fmax_bf16x2), Int32Regs>,
		MIN_MAX_TUPLE<"_NaN_bf16x2", !if(!eq(IntName, "min"),
		int_nvvm_fmin_nan_bf16x2, int_nvvm_fmax_nan_bf16x2), Int32Regs>,
		MIN_MAX_TUPLE<"_xorsign_abs_bf16x2", !if(!eq(IntName, "min"),
		int_nvvm_fmin_xorsign_abs_bf16x2, int_nvvm_fmax_xorsign_abs_bf16x2),
		Int32Regs, [hasPTX72, hasSM86]>,
		MIN_MAX_TUPLE<"_NaN_xorsign_abs_bf16x2", !if(!eq(IntName, "min"),
		int_nvvm_fmin_nan_xorsign_abs_bf16x2,
		int_nvvm_fmax_nan_xorsign_abs_bf16x2),
		Int32Regs, [hasPTX72, hasSM86]>] in {
		def P.Variant : F_MATH_2<!strconcat(
		IntName, !subst("_", ".", P.Variant), " \t$dst, $src0, $src1;"),
		P.RegClass, P.RegClass, P.RegClass, P.Intr, P.Predicates>;
		}
		}

		defm INT_NVVM_FMIN : MIN_MAX<"min">;
		defm INT_NVVM_FMAN : MIN_MAX<"max">;

//		//
// Multiplication		// Multiplication
//		//

def INT_NVVM_MULHI_I : F_MATH_2<"mul.hi.s32 \t$dst, $src0, $src1;", Int32Regs,		def INT_NVVM_MULHI_I : F_MATH_2<"mul.hi.s32 \t$dst, $src0, $src1;", Int32Regs,
Int32Regs, Int32Regs, int_nvvm_mulhi_i>;		Int32Regs, Int32Regs, int_nvvm_mulhi_i>;
def INT_NVVM_MULHI_UI : F_MATH_2<"mul.hi.u32 \t$dst, $src0, $src1;", Int32Regs,		def INT_NVVM_MULHI_UI : F_MATH_2<"mul.hi.u32 \t$dst, $src0, $src1;", Int32Regs,
▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines	def INT_NVVM_FABS_FTZ_F : F_MATH_1<"abs.ftz.f32 \t$dst, $src0;", Float32Regs,
Float32Regs, int_nvvm_fabs_ftz_f>;		Float32Regs, int_nvvm_fabs_ftz_f>;
def INT_NVVM_FABS_F : F_MATH_1<"abs.f32 \t$dst, $src0;", Float32Regs,		def INT_NVVM_FABS_F : F_MATH_1<"abs.f32 \t$dst, $src0;", Float32Regs,
Float32Regs, int_nvvm_fabs_f>;		Float32Regs, int_nvvm_fabs_f>;

def INT_NVVM_FABS_D : F_MATH_1<"abs.f64 \t$dst, $src0;", Float64Regs,		def INT_NVVM_FABS_D : F_MATH_1<"abs.f64 \t$dst, $src0;", Float64Regs,
Float64Regs, int_nvvm_fabs_d>;		Float64Regs, int_nvvm_fabs_d>;

//		//
		// Abs, Neg bf16, bf16x2
		//

		def INT_NVVM_ABS_BF16 : F_MATH_1<"abs.bf16 \t$dst, $dst;", Int16Regs,
		Int16Regs, int_nvvm_abs_bf16, [hasPTX70, hasSM80]>;
		def INT_NVVM_ABS_BF16X2 : F_MATH_1<"abs.bf16x2 \t$dst, $dst;", Int32Regs,
		Int32Regs, int_nvvm_abs_bf16x2, [hasPTX70, hasSM80]>;
		def INT_NVVM_NEG_BF16 : F_MATH_1<"neg.bf16 \t$dst, $dst;", Int16Regs,
		Int16Regs, int_nvvm_neg_bf16, [hasPTX70, hasSM80]>;
		def INT_NVVM_NEG_BF16X2 : F_MATH_1<"neg.bf16x2 \t$dst, $dst;", Int32Regs,
		Int32Regs, int_nvvm_neg_bf16x2, [hasPTX70, hasSM80]>;

		//
// Round		// Round
//		//

def : Pat<(int_nvvm_round_ftz_f Float32Regs:$a),		def : Pat<(int_nvvm_round_ftz_f Float32Regs:$a),
(CVT_f32_f32 Float32Regs:$a, CvtRNI_FTZ)>;		(CVT_f32_f32 Float32Regs:$a, CvtRNI_FTZ)>;
def : Pat<(int_nvvm_round_f Float32Regs:$a),		def : Pat<(int_nvvm_round_f Float32Regs:$a),
(CVT_f32_f32 Float32Regs:$a, CvtRNI)>;		(CVT_f32_f32 Float32Regs:$a, CvtRNI)>;
def : Pat<(int_nvvm_round_d Float64Regs:$a),		def : Pat<(int_nvvm_round_d Float64Regs:$a),
▲ Show 20 Lines • Show All 5,778 Lines • Show Last 20 Lines

llvm/lib/Target/NVPTX/NVPTXTargetTransformInfo.cpp

Show First 20 Lines • Show All 139 Lines • ▼ Show 20 Lines	static Instruction simplifyNvvmIntrinsic(IntrinsicInst II, InstCombiner &IC) {
struct SimplifyAction {		struct SimplifyAction {
// Invariant: At most one of these Optionals has a value.		// Invariant: At most one of these Optionals has a value.
Optional<Intrinsic::ID> IID;		Optional<Intrinsic::ID> IID;
Optional<Instruction::CastOps> CastOp;		Optional<Instruction::CastOps> CastOp;
Optional<Instruction::BinaryOps> BinaryOp;		Optional<Instruction::BinaryOps> BinaryOp;
Optional<SpecialCase> Special;		Optional<SpecialCase> Special;

FtzRequirementTy FtzRequirement = FTZ_Any;		FtzRequirementTy FtzRequirement = FTZ_Any;
		// Denormal handling is guarded by different attributes depending on the
		// type (denormal-fp-math vs denormal-fp-math-f32), take note of halfs.
		bool IsHalfTy = false;

SimplifyAction() = default;		SimplifyAction() = default;

SimplifyAction(Intrinsic::ID IID, FtzRequirementTy FtzReq)		SimplifyAction(Intrinsic::ID IID, FtzRequirementTy FtzReq,
: IID(IID), FtzRequirement(FtzReq) {}		bool IsHalfTy = false)
		: IID(IID), FtzRequirement(FtzReq), IsHalfTy(IsHalfTy) {}

// Cast operations don't have anything to do with FTZ, so we skip that		// Cast operations don't have anything to do with FTZ, so we skip that
// argument.		// argument.
SimplifyAction(Instruction::CastOps CastOp) : CastOp(CastOp) {}		SimplifyAction(Instruction::CastOps CastOp) : CastOp(CastOp) {}

SimplifyAction(Instruction::BinaryOps BinaryOp, FtzRequirementTy FtzReq)		SimplifyAction(Instruction::BinaryOps BinaryOp, FtzRequirementTy FtzReq)
		traUnsubmitted Done Reply Inline Actions The new 3-argument constructor above obviates the need for this one. tra: The new 3-argument constructor above obviates the need for this one.
		jchlandaAuthorUnsubmitted Done Reply Inline Actions I'm not sure if it does, the 3-way takes `Intrinsic`, while this one `Instruction`. jchlanda: I'm not sure if it does, the 3-way takes `Intrinsic`, while this one `Instruction`.
		traUnsubmitted Done Reply Inline Actions You're right. Sorry, my mistake. tra: You're right. Sorry, my mistake.
		jchlandaAuthorUnsubmitted Done Reply Inline Actions np jchlanda: np
: BinaryOp(BinaryOp), FtzRequirement(FtzReq) {}		: BinaryOp(BinaryOp), FtzRequirement(FtzReq) {}

SimplifyAction(SpecialCase Special, FtzRequirementTy FtzReq)		SimplifyAction(SpecialCase Special, FtzRequirementTy FtzReq)
: Special(Special), FtzRequirement(FtzReq) {}		: Special(Special), FtzRequirement(FtzReq) {}
};		};

// Try to generate a SimplifyAction describing how to replace our		// Try to generate a SimplifyAction describing how to replace our
// IntrinsicInstr with target-generic LLVM IR.		// IntrinsicInstr with target-generic LLVM IR.
Show All 25 Lines	const SimplifyAction Action = [II]() -> SimplifyAction {
case Intrinsic::nvvm_fma_rn_ftz_f:		case Intrinsic::nvvm_fma_rn_ftz_f:
return {Intrinsic::fma, FTZ_MustBeOn};		return {Intrinsic::fma, FTZ_MustBeOn};
case Intrinsic::nvvm_fmax_d:		case Intrinsic::nvvm_fmax_d:
return {Intrinsic::maxnum, FTZ_Any};		return {Intrinsic::maxnum, FTZ_Any};
case Intrinsic::nvvm_fmax_f:		case Intrinsic::nvvm_fmax_f:
return {Intrinsic::maxnum, FTZ_MustBeOff};		return {Intrinsic::maxnum, FTZ_MustBeOff};
case Intrinsic::nvvm_fmax_ftz_f:		case Intrinsic::nvvm_fmax_ftz_f:
return {Intrinsic::maxnum, FTZ_MustBeOn};		return {Intrinsic::maxnum, FTZ_MustBeOn};
		case Intrinsic::nvvm_fmax_nan_f:
		return {Intrinsic::maximum, FTZ_MustBeOff};
		case Intrinsic::nvvm_fmax_ftz_nan_f:
		return {Intrinsic::maximum, FTZ_MustBeOn};
		case Intrinsic::nvvm_fmax_f16:
		return {Intrinsic::maxnum, FTZ_MustBeOff, true};
		case Intrinsic::nvvm_fmax_ftz_f16:
		return {Intrinsic::maxnum, FTZ_MustBeOn, true};
		case Intrinsic::nvvm_fmax_f16x2:
		return {Intrinsic::maxnum, FTZ_MustBeOff, true};
		case Intrinsic::nvvm_fmax_ftz_f16x2:
		return {Intrinsic::maxnum, FTZ_MustBeOn, true};
		case Intrinsic::nvvm_fmax_nan_f16:
		return {Intrinsic::maximum, FTZ_MustBeOff, true};
		case Intrinsic::nvvm_fmax_ftz_nan_f16:
		return {Intrinsic::maximum, FTZ_MustBeOn, true};
		case Intrinsic::nvvm_fmax_nan_f16x2:
		return {Intrinsic::maximum, FTZ_MustBeOff, true};
		case Intrinsic::nvvm_fmax_ftz_nan_f16x2:
		return {Intrinsic::maximum, FTZ_MustBeOn, true};
case Intrinsic::nvvm_fmin_d:		case Intrinsic::nvvm_fmin_d:
return {Intrinsic::minnum, FTZ_Any};		return {Intrinsic::minnum, FTZ_Any};
case Intrinsic::nvvm_fmin_f:		case Intrinsic::nvvm_fmin_f:
return {Intrinsic::minnum, FTZ_MustBeOff};		return {Intrinsic::minnum, FTZ_MustBeOff};
case Intrinsic::nvvm_fmin_ftz_f:		case Intrinsic::nvvm_fmin_ftz_f:
return {Intrinsic::minnum, FTZ_MustBeOn};		return {Intrinsic::minnum, FTZ_MustBeOn};
		case Intrinsic::nvvm_fmin_nan_f:
		return {Intrinsic::minimum, FTZ_MustBeOff};
		case Intrinsic::nvvm_fmin_ftz_nan_f:
		return {Intrinsic::minimum, FTZ_MustBeOn};
		case Intrinsic::nvvm_fmin_f16:
		return {Intrinsic::minnum, FTZ_MustBeOff, true};
		case Intrinsic::nvvm_fmin_ftz_f16:
		return {Intrinsic::minnum, FTZ_MustBeOn, true};
		case Intrinsic::nvvm_fmin_f16x2:
		return {Intrinsic::minnum, FTZ_MustBeOff, true};
		case Intrinsic::nvvm_fmin_ftz_f16x2:
		return {Intrinsic::minnum, FTZ_MustBeOn, true};
		case Intrinsic::nvvm_fmin_nan_f16:
		return {Intrinsic::minimum, FTZ_MustBeOff, true};
		case Intrinsic::nvvm_fmin_ftz_nan_f16:
		return {Intrinsic::minimum, FTZ_MustBeOn, true};
		case Intrinsic::nvvm_fmin_nan_f16x2:
		return {Intrinsic::minimum, FTZ_MustBeOff, true};
		case Intrinsic::nvvm_fmin_ftz_nan_f16x2:
		return {Intrinsic::minimum, FTZ_MustBeOn, true};
case Intrinsic::nvvm_round_d:		case Intrinsic::nvvm_round_d:
return {Intrinsic::round, FTZ_Any};		return {Intrinsic::round, FTZ_Any};
case Intrinsic::nvvm_round_f:		case Intrinsic::nvvm_round_f:
return {Intrinsic::round, FTZ_MustBeOff};		return {Intrinsic::round, FTZ_MustBeOff};
case Intrinsic::nvvm_round_ftz_f:		case Intrinsic::nvvm_round_ftz_f:
return {Intrinsic::round, FTZ_MustBeOn};		return {Intrinsic::round, FTZ_MustBeOn};
case Intrinsic::nvvm_sqrt_rn_d:		case Intrinsic::nvvm_sqrt_rn_d:
return {Intrinsic::sqrt, FTZ_Any};		return {Intrinsic::sqrt, FTZ_Any};
▲ Show 20 Lines • Show All 97 Lines • ▼ Show 20 Lines	const SimplifyAction Action = [II]() -> SimplifyAction {
}		}
}();		}();

// If Action.FtzRequirementTy is not satisfied by the module's ftz state, we		// If Action.FtzRequirementTy is not satisfied by the module's ftz state, we
// can bail out now. (Notice that in the case that IID is not an NVVM		// can bail out now. (Notice that in the case that IID is not an NVVM
// intrinsic, we don't have to look up any module metadata, as		// intrinsic, we don't have to look up any module metadata, as
// FtzRequirementTy will be FTZ_Any.)		// FtzRequirementTy will be FTZ_Any.)
if (Action.FtzRequirement != FTZ_Any) {		if (Action.FtzRequirement != FTZ_Any) {
StringRef Attr = II->getFunction()		const char *AttrName =
->getFnAttribute("denormal-fp-math-f32")		Action.IsHalfTy ? "denormal-fp-math" : "denormal-fp-math-f32";
.getValueAsString();		StringRef Attr =
		II->getFunction()->getFnAttribute(AttrName).getValueAsString();
DenormalMode Mode = parseDenormalFPAttribute(Attr);		DenormalMode Mode = parseDenormalFPAttribute(Attr);
bool FtzEnabled = Mode.Output != DenormalMode::IEEE;		bool FtzEnabled = Mode.Output != DenormalMode::IEEE;

if (FtzEnabled != (Action.FtzRequirement == FTZ_MustBeOn))		if (FtzEnabled != (Action.FtzRequirement == FTZ_MustBeOn))
return nullptr;		return nullptr;
}		}

// Simplify to target-generic intrinsic.		// Simplify to target-generic intrinsic.
▲ Show 20 Lines • Show All 91 Lines • Show Last 20 Lines

llvm/test/CodeGen/NVPTX/math-intrins-sm80-ptx70-instcombine.ll

This file was added.

				; RUN: opt < %s -instcombine -S -mtriple=nvptx-nvidia-cuda -march=nvptx64 \
				; RUN: -mcpu=sm_80 -mattr=+ptx70 \| \
				; RUN: FileCheck %s

				declare half @llvm.nvvm.fmin.f16(half, half)
				declare half @llvm.nvvm.fmin.ftz.f16(half, half)
				declare <2 x half> @llvm.nvvm.fmin.f16x2(<2 x half>, <2 x half>)
				declare <2 x half> @llvm.nvvm.fmin.ftz.f16x2(<2 x half>, <2 x half>)
				declare float @llvm.nvvm.fmin.nan.f(float, float)
				declare float @llvm.nvvm.fmin.ftz.nan.f(float, float)
				declare half @llvm.nvvm.fmin.nan.f16(half, half)
				declare half @llvm.nvvm.fmin.ftz.nan.f16(half, half)
				declare <2 x half> @llvm.nvvm.fmin.nan.f16x2(<2 x half>, <2 x half>)
				declare <2 x half> @llvm.nvvm.fmin.ftz.nan.f16x2(<2 x half>, <2 x half>)

				declare half @llvm.nvvm.fmax.f16(half, half)
				declare half @llvm.nvvm.fmax.ftz.f16(half, half)
				declare <2 x half> @llvm.nvvm.fmax.f16x2(<2 x half>, <2 x half>)
				declare <2 x half> @llvm.nvvm.fmax.ftz.f16x2(<2 x half>, <2 x half>)
				declare float @llvm.nvvm.fmax.nan.f(float, float)
				declare float @llvm.nvvm.fmax.ftz.nan.f(float, float)
				declare half @llvm.nvvm.fmax.nan.f16(half, half)
				declare half @llvm.nvvm.fmax.ftz.nan.f16(half, half)
				declare <2 x half> @llvm.nvvm.fmax.nan.f16x2(<2 x half>, <2 x half>)
				declare <2 x half> @llvm.nvvm.fmax.ftz.nan.f16x2(<2 x half>, <2 x half>)

				; CHECK-LABEL: fmin_f16
				define half @fmin_f16(half %0, half %1) {
				; CHECK-NOT: @llvm.nvvm.fmin.f16
				; CHECK: @llvm.minnum.f16
				%res = call half @llvm.nvvm.fmin.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmin_ftz_f16
				define half @fmin_ftz_f16(half %0, half %1) #0 {
				; CHECK-NOT: @llvm.nvvm.fmin.ftz.f16
				; CHECK: @llvm.minnum.f16
				%res = call half @llvm.nvvm.fmin.ftz.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmin_ftz_f16_no_attr
				define half @fmin_ftz_f16_no_attr(half %0, half %1) {
				; CHECK-NOT: @llvm.minnum.f16
				; CHECK: @llvm.nvvm.fmin.ftz.f16
				%res = call half @llvm.nvvm.fmin.ftz.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmin_f16x2
				define <2 x half> @fmin_f16x2(<2 x half> %0, <2 x half> %1) {
				; CHECK-NOT: @llvm.nvvm.fmin.f16x2
				; CHECK: @llvm.minnum.v2f16
				%res = call <2 x half> @llvm.nvvm.fmin.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmin_ftz_f16x2
				define <2 x half> @fmin_ftz_f16x2(<2 x half> %0, <2 x half> %1) #0 {
				; CHECK-NOT: @llvm.nvvm.fmin.ftz.f16x2
				; CHECK: @llvm.minnum.v2f16
				%res = call <2 x half> @llvm.nvvm.fmin.ftz.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmin_ftz_f16x2_no_attr
				define <2 x half> @fmin_ftz_f16x2_no_attr(<2 x half> %0, <2 x half> %1) {
				; CHECK-NOT: @llvm.minnum.v2f16
				; CHECK: @llvm.nvvm.fmin.ftz.f16x2
				%res = call <2 x half> @llvm.nvvm.fmin.ftz.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmin_nan_f
				define float @fmin_nan_f(float %0, float %1) {
				; CHECK-NOT: @llvm.nvvm.fmin.nan.f
				; CHECK: @llvm.minimum.f32
				%res = call float @llvm.nvvm.fmin.nan.f(float %0, float %1)
				ret float %res
				}

				; CHECK-LABEL: fmin_ftz_nan_f
				define float @fmin_ftz_nan_f(float %0, float %1) #1 {
				; CHECK-NOT: @llvm.nvvm.fmin.ftz.nan.f
				; CHECK: @llvm.minimum.f32
				%res = call float @llvm.nvvm.fmin.ftz.nan.f(float %0, float %1)
				ret float %res
				}

				; CHECK-LABEL: fmin_ftz_nan_f_no_attr
				define float @fmin_ftz_nan_f_no_attr(float %0, float %1) {
				; CHECK: @llvm.nvvm.fmin.ftz.nan.f
				; CHECK-NOT: @llvm.minimum.f32
				%res = call float @llvm.nvvm.fmin.ftz.nan.f(float %0, float %1)
				ret float %res
				}

				; CHECK-LABEL: fmin_nan_f16
				define half @fmin_nan_f16(half %0, half %1) {
				; CHECK-NOT: @llvm.nvvm.fmin.nan.f16
				; CHECK: @llvm.minimum.f16
				%res = call half @llvm.nvvm.fmin.nan.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmin_ftz_nan_f16
				define half @fmin_ftz_nan_f16(half %0, half %1) #0 {
				; CHECK-NOT: @llvm.nvvm.fmin.ftz.nan.f16
				; CHECK: @llvm.minimum.f16
				%res = call half @llvm.nvvm.fmin.ftz.nan.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmin_ftz_nan_f16_no_attr
				define half @fmin_ftz_nan_f16_no_attr(half %0, half %1) {
				; CHECK: @llvm.nvvm.fmin.ftz.nan.f16
				; CHECK-NOT: @llvm.minimum.f16
				%res = call half @llvm.nvvm.fmin.ftz.nan.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmin_nan_f16x2
				define <2 x half> @fmin_nan_f16x2(<2 x half> %0, <2 x half> %1) {
				; CHECK-NOT: @llvm.nvvm.fmin.nan.f16x2
				; CHECK: @llvm.minimum.v2f16
				%res = call <2 x half> @llvm.nvvm.fmin.nan.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmin_ftz_nan_f16x2
				define <2 x half> @fmin_ftz_nan_f16x2(<2 x half> %0, <2 x half> %1) #0 {
				; CHECK-NOT: @llvm.nvvm.fmin.ftz.nan.f16x2
				; CHECK: @llvm.minimum.v2f16
				%res = call <2 x half> @llvm.nvvm.fmin.ftz.nan.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmin_ftz_nan_f16x2_no_attr
				define <2 x half> @fmin_ftz_nan_f16x2_no_attr(<2 x half> %0, <2 x half> %1) {
				; CHECK-NOT: @llvm.minimum.v2f16
				; CHECK: @llvm.nvvm.fmin.ftz.nan.f16x2
				%res = call <2 x half> @llvm.nvvm.fmin.ftz.nan.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmax_f16
				define half @fmax_f16(half %0, half %1) {
				; CHECK-NOT: @llvm.nvvm.fmax.f16
				; CHECK: @llvm.maxnum.f16
				%res = call half @llvm.nvvm.fmax.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmax_ftz_f16
				define half @fmax_ftz_f16(half %0, half %1) #0 {
				; CHECK-NOT: @llvm.nvvm.fmax.ftz.f16
				; CHECK: @llvm.maxnum.f16
				%res = call half @llvm.nvvm.fmax.ftz.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmax_ftz_f16_no_attr
				define half @fmax_ftz_f16_no_attr(half %0, half %1) {
				; CHECK-NOT: @llvm.maxnum.f16
				; CHECK: @llvm.nvvm.fmax.ftz.f16
				%res = call half @llvm.nvvm.fmax.ftz.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmax_f16x2
				define <2 x half> @fmax_f16x2(<2 x half> %0, <2 x half> %1) {
				; CHECK-NOT: @llvm.nvvm.fmax.f16x2
				; CHECK: @llvm.maxnum.v2f16
				%res = call <2 x half> @llvm.nvvm.fmax.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmax_ftz_f16x2
				define <2 x half> @fmax_ftz_f16x2(<2 x half> %0, <2 x half> %1) #0 {
				; CHECK-NOT: @llvm.nvvm.fmax.ftz.f16x2
				; CHECK: @llvm.maxnum.v2f16
				%res = call <2 x half> @llvm.nvvm.fmax.ftz.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmax_ftz_f16x2_no_attr
				define <2 x half> @fmax_ftz_f16x2_no_attr(<2 x half> %0, <2 x half> %1) {
				; CHECK-NOT: @llvm.maxnum.v2f16
				; CHECK: @llvm.nvvm.fmax.ftz.f16x2
				%res = call <2 x half> @llvm.nvvm.fmax.ftz.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmax_nan_f
				define float @fmax_nan_f(float %0, float %1) {
				; CHECK-NOT: @llvm.nvvm.fmax.nan.f
				; CHECK: @llvm.maximum.f32
				%res = call float @llvm.nvvm.fmax.nan.f(float %0, float %1)
				ret float %res
				}

				; CHECK-LABEL: fmax_ftz_nan_f
				define float @fmax_ftz_nan_f(float %0, float %1) #1 {
				; CHECK-NOT: @llvm.nvvm.fmax.ftz.nan.f
				; CHECK: @llvm.maximum.f32
				%res = call float @llvm.nvvm.fmax.ftz.nan.f(float %0, float %1)
				ret float %res
				}

				; CHECK-LABEL: fmax_ftz_nan_f_no_attr
				define float @fmax_ftz_nan_f_no_attr(float %0, float %1) {
				; CHECK: @llvm.nvvm.fmax.ftz.nan.f
				; CHECK-NOT: @llvm.maximum.f32
				%res = call float @llvm.nvvm.fmax.ftz.nan.f(float %0, float %1)
				ret float %res
				}

				; CHECK-LABEL: fmax_nan_f16
				define half @fmax_nan_f16(half %0, half %1) {
				; CHECK-NOT: @llvm.nvvm.fmax.nan.f16
				; CHECK: @llvm.maximum.f16
				%res = call half @llvm.nvvm.fmax.nan.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmax_ftz_nan_f16
				define half @fmax_ftz_nan_f16(half %0, half %1) #0 {
				; CHECK-NOT: @llvm.nvvm.fmax.ftz.nan.f16
				; CHECK: @llvm.maximum.f16
				%res = call half @llvm.nvvm.fmax.ftz.nan.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmax_ftz_nan_f16_no_attr
				define half @fmax_ftz_nan_f16_no_attr(half %0, half %1) {
				; CHECK: @llvm.nvvm.fmax.ftz.nan.f16
				; CHECK-NOT: @llvm.maximum.f16
				%res = call half @llvm.nvvm.fmax.ftz.nan.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmax_nan_f16x2
				define <2 x half> @fmax_nan_f16x2(<2 x half> %0, <2 x half> %1) {
				; CHECK-NOT: @llvm.nvvm.fmax.nan.f16x2
				; CHECK: @llvm.maximum.v2f16
				%res = call <2 x half> @llvm.nvvm.fmax.nan.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmax_ftz_nan_f16x2
				define <2 x half> @fmax_ftz_nan_f16x2(<2 x half> %0, <2 x half> %1) #0 {
				; CHECK-NOT: @llvm.nvvm.fmax.ftz.nan.f16x2
				; CHECK: @llvm.maximum.v2f16
				%res = call <2 x half> @llvm.nvvm.fmax.ftz.nan.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmax_ftz_nan_f16x2_no_attr
				define <2 x half> @fmax_ftz_nan_f16x2_no_attr(<2 x half> %0, <2 x half> %1) {
				; CHECK-NOT: @llvm.maximum.v2f16
				; CHECK: @llvm.nvvm.fmax.ftz.nan.f16x2
				%res = call <2 x half> @llvm.nvvm.fmax.ftz.nan.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				attributes #0 = { "denormal-fp-math"="preserve-sign" }
				attributes #1 = { "denormal-fp-math-f32"="preserve-sign" }

llvm/test/CodeGen/NVPTX/math-intrins-sm80-ptx70.ll

This file was added.

				; RUN: llc < %s -march=nvptx64 -mcpu=sm_80 -mattr=+ptx70 \| FileCheck %s

				declare i16 @llvm.nvvm.abs.bf16(i16)
				declare i32 @llvm.nvvm.abs.bf16x2(i32)
				declare i16 @llvm.nvvm.neg.bf16(i16)
				declare i32 @llvm.nvvm.neg.bf16x2(i32)

				declare float @llvm.nvvm.fmin.nan.f(float, float)
				declare float @llvm.nvvm.fmin.ftz.nan.f(float, float)
				declare half @llvm.nvvm.fmin.f16(half, half)
				declare half @llvm.nvvm.fmin.ftz.f16(half, half)
				declare half @llvm.nvvm.fmin.nan.f16(half, half)
				declare half @llvm.nvvm.fmin.ftz.nan.f16(half, half)
				declare <2 x half> @llvm.nvvm.fmin.f16x2(<2 x half>, <2 x half>)
				declare <2 x half> @llvm.nvvm.fmin.ftz.f16x2(<2 x half>, <2 x half>)
				declare <2 x half> @llvm.nvvm.fmin.nan.f16x2(<2 x half>, <2 x half>)
				declare <2 x half> @llvm.nvvm.fmin.ftz.nan.f16x2(<2 x half>, <2 x half>)
				declare i16 @llvm.nvvm.fmin.bf16(i16, i16)
				declare i16 @llvm.nvvm.fmin.nan.bf16(i16, i16)
				declare i32 @llvm.nvvm.fmin.bf16x2(i32, i32)
				declare i32 @llvm.nvvm.fmin.nan.bf16x2(i32, i32)

				declare float @llvm.nvvm.fmax.nan.f(float, float)
				declare float @llvm.nvvm.fmax.ftz.nan.f(float, float)
				declare half @llvm.nvvm.fmax.f16(half, half)
				declare half @llvm.nvvm.fmax.ftz.f16(half, half)
				declare half @llvm.nvvm.fmax.nan.f16(half, half)
				declare half @llvm.nvvm.fmax.ftz.nan.f16(half, half)
				declare <2 x half> @llvm.nvvm.fmax.f16x2(<2 x half>, <2 x half>)
				declare <2 x half> @llvm.nvvm.fmax.ftz.f16x2(<2 x half>, <2 x half>)
				declare <2 x half> @llvm.nvvm.fmax.nan.f16x2(<2 x half>, <2 x half>)
				declare <2 x half> @llvm.nvvm.fmax.ftz.nan.f16x2(<2 x half>, <2 x half>)
				declare i16 @llvm.nvvm.fmax.bf16(i16, i16)
				declare i16 @llvm.nvvm.fmax.nan.bf16(i16, i16)
				declare i32 @llvm.nvvm.fmax.bf16x2(i32, i32)
				declare i32 @llvm.nvvm.fmax.nan.bf16x2(i32, i32)

				; CHECK-LABEL: abs_bf16
				define i16 @abs_bf16(i16 %0) {
				; CHECK: abs.bf16
				%res = call i16 @llvm.nvvm.abs.bf16(i16 %0);
				ret i16 %res
				}

				; CHECK-LABEL: abs_bf16x2
				define i32 @abs_bf16x2(i32 %0) {
				; CHECK: abs.bf16x2
				%res = call i32 @llvm.nvvm.abs.bf16x2(i32 %0);
				ret i32 %res
				}

				; CHECK-LABEL: neg_bf16
				define i16 @neg_bf16(i16 %0) {
				; CHECK: neg.bf16
				%res = call i16 @llvm.nvvm.neg.bf16(i16 %0);
				ret i16 %res
				}

				; CHECK-LABEL: neg_bf16x2
				define i32 @neg_bf16x2(i32 %0) {
				; CHECK: neg.bf16x2
				%res = call i32 @llvm.nvvm.neg.bf16x2(i32 %0);
				ret i32 %res
				}

				; CHECK-LABEL: fmin_nan_f
				define float @fmin_nan_f(float %0, float %1) {
				; CHECK: min.NaN.f32
				%res = call float @llvm.nvvm.fmin.nan.f(float %0, float %1);
				ret float %res
				}

				; CHECK-LABEL: fmin_ftz_nan_f
				define float @fmin_ftz_nan_f(float %0, float %1) {
				; CHECK: min.ftz.NaN.f32
				%res = call float @llvm.nvvm.fmin.ftz.nan.f(float %0, float %1);
				ret float %res
				}

				; CHECK-LABEL: fmin_f16
				define half @fmin_f16(half %0, half %1) {
				; CHECK: min.f16
				%res = call half @llvm.nvvm.fmin.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmin_ftz_f16
				define half @fmin_ftz_f16(half %0, half %1) {
				; CHECK: min.ftz.f16
				%res = call half @llvm.nvvm.fmin.ftz.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmin_nan_f16
				define half @fmin_nan_f16(half %0, half %1) {
				; CHECK: min.NaN.f16
				%res = call half @llvm.nvvm.fmin.nan.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmin_ftz_nan_f16
				define half @fmin_ftz_nan_f16(half %0, half %1) {
				; CHECK: min.ftz.NaN.f16
				%res = call half @llvm.nvvm.fmin.ftz.nan.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmin_f16x2
				define <2 x half> @fmin_f16x2(<2 x half> %0, <2 x half> %1) {
				; CHECK: min.f16x2
				%res = call <2 x half> @llvm.nvvm.fmin.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmin_ftz_f16x2
				define <2 x half> @fmin_ftz_f16x2(<2 x half> %0, <2 x half> %1) {
				; CHECK: min.ftz.f16x2
				%res = call <2 x half> @llvm.nvvm.fmin.ftz.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmin_nan_f16x2
				define <2 x half> @fmin_nan_f16x2(<2 x half> %0, <2 x half> %1) {
				; CHECK: min.NaN.f16x2
				%res = call <2 x half> @llvm.nvvm.fmin.nan.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmin_ftz_nan_f16x2
				define <2 x half> @fmin_ftz_nan_f16x2(<2 x half> %0, <2 x half> %1) {
				; CHECK: min.ftz.NaN.f16x2
				%res = call <2 x half> @llvm.nvvm.fmin.ftz.nan.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmin_bf16
				define i16 @fmin_bf16(i16 %0, i16 %1) {
				; CHECK: min.bf16
				%res = call i16 @llvm.nvvm.fmin.bf16(i16 %0, i16 %1)
				ret i16 %res
				}

				; CHECK-LABEL: fmin_nan_bf16
				define i16 @fmin_nan_bf16(i16 %0, i16 %1) {
				; CHECK: min.NaN.bf16
				%res = call i16 @llvm.nvvm.fmin.nan.bf16(i16 %0, i16 %1)
				ret i16 %res
				}

				; CHECK-LABEL: fmin_bf16x2
				define i32 @fmin_bf16x2(i32 %0, i32 %1) {
				; CHECK: min.bf16x2
				%res = call i32 @llvm.nvvm.fmin.bf16x2(i32 %0, i32 %1)
				ret i32 %res
				}

				; CHECK-LABEL: fmin_nan_bf16x2
				define i32 @fmin_nan_bf16x2(i32 %0, i32 %1) {
				; CHECK: min.NaN.bf16x2
				%res = call i32 @llvm.nvvm.fmin.nan.bf16x2(i32 %0, i32 %1)
				ret i32 %res
				}

				; CHECK-LABEL: fmax_nan_f
				define float @fmax_nan_f(float %0, float %1) {
				; CHECK: max.NaN.f32
				%res = call float @llvm.nvvm.fmax.nan.f(float %0, float %1);
				ret float %res
				}

				; CHECK-LABEL: fmax_ftz_nan_f
				define float @fmax_ftz_nan_f(float %0, float %1) {
				; CHECK: max.ftz.NaN.f32
				%res = call float @llvm.nvvm.fmax.ftz.nan.f(float %0, float %1);
				ret float %res
				}

				; CHECK-LABEL: fmax_f16
				define half @fmax_f16(half %0, half %1) {
				; CHECK: max.f16
				%res = call half @llvm.nvvm.fmax.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmax_ftz_f16
				define half @fmax_ftz_f16(half %0, half %1) {
				; CHECK: max.ftz.f16
				%res = call half @llvm.nvvm.fmax.ftz.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmax_nan_f16
				define half @fmax_nan_f16(half %0, half %1) {
				; CHECK: max.NaN.f16
				%res = call half @llvm.nvvm.fmax.nan.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmax_ftz_nan_f16
				define half @fmax_ftz_nan_f16(half %0, half %1) {
				; CHECK: max.ftz.NaN.f16
				%res = call half @llvm.nvvm.fmax.ftz.nan.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmax_f16x2
				define <2 x half> @fmax_f16x2(<2 x half> %0, <2 x half> %1) {
				; CHECK: max.f16x2
				%res = call <2 x half> @llvm.nvvm.fmax.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmax_ftz_f16x2
				define <2 x half> @fmax_ftz_f16x2(<2 x half> %0, <2 x half> %1) {
				; CHECK: max.ftz.f16x2
				%res = call <2 x half> @llvm.nvvm.fmax.ftz.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmax_nan_f16x2
				define <2 x half> @fmax_nan_f16x2(<2 x half> %0, <2 x half> %1) {
				; CHECK: max.NaN.f16x2
				%res = call <2 x half> @llvm.nvvm.fmax.nan.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmax_ftz_nan_f16x2
				define <2 x half> @fmax_ftz_nan_f16x2(<2 x half> %0, <2 x half> %1) {
				; CHECK: max.ftz.NaN.f16x2
				%res = call <2 x half> @llvm.nvvm.fmax.ftz.nan.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmax_bf16
				define i16 @fmax_bf16(i16 %0, i16 %1) {
				; CHECK: max.bf16
				%res = call i16 @llvm.nvvm.fmax.bf16(i16 %0, i16 %1)
				ret i16 %res
				}

				; CHECK-LABEL: fmax_nan_bf16
				define i16 @fmax_nan_bf16(i16 %0, i16 %1) {
				; CHECK: max.NaN.bf16
				%res = call i16 @llvm.nvvm.fmax.nan.bf16(i16 %0, i16 %1)
				ret i16 %res
				}

				; CHECK-LABEL: fmax_bf16x2
				define i32 @fmax_bf16x2(i32 %0, i32 %1) {
				; CHECK: max.bf16x2
				%res = call i32 @llvm.nvvm.fmax.bf16x2(i32 %0, i32 %1)
				ret i32 %res
				}

				; CHECK-LABEL: fmax_nan_bf16x2
				define i32 @fmax_nan_bf16x2(i32 %0, i32 %1) {
				; CHECK: max.NaN.bf16x2
				%res = call i32 @llvm.nvvm.fmax.nan.bf16x2(i32 %0, i32 %1)
				ret i32 %res
				}

llvm/test/CodeGen/NVPTX/math-intrins-sm86-ptx72.ll

This file was added.

				; RUN: llc < %s -march=nvptx64 -mcpu=sm_86 -mattr=+ptx72 \| FileCheck %s

				declare half @llvm.nvvm.fmin.xorsign.abs.f16(half, half)
				declare half @llvm.nvvm.fmin.ftz.xorsign.abs.f16(half, half)
				declare half @llvm.nvvm.fmin.nan.xorsign.abs.f16(half, half)
				declare half @llvm.nvvm.fmin.ftz.nan.xorsign.abs.f16(half, half)
				declare <2 x half> @llvm.nvvm.fmin.xorsign.abs.f16x2(<2 x half> , <2 x half>)
				declare <2 x half> @llvm.nvvm.fmin.ftz.xorsign.abs.f16x2(<2 x half> , <2 x half>)
				declare <2 x half> @llvm.nvvm.fmin.nan.xorsign.abs.f16x2(<2 x half> , <2 x half>)
				declare <2 x half> @llvm.nvvm.fmin.ftz.nan.xorsign.abs.f16x2(<2 x half> , <2 x half>)
				declare i16 @llvm.nvvm.fmin.xorsign.abs.bf16(i16, i16)
				declare i16 @llvm.nvvm.fmin.nan.xorsign.abs.bf16(i16, i16)
				declare i32 @llvm.nvvm.fmin.xorsign.abs.bf16x2(i32, i32)
				declare i32 @llvm.nvvm.fmin.nan.xorsign.abs.bf16x2(i32, i32)
				declare float @llvm.nvvm.fmin.xorsign.abs.f(float, float)
				declare float @llvm.nvvm.fmin.ftz.xorsign.abs.f(float, float)
				declare float @llvm.nvvm.fmin.nan.xorsign.abs.f(float, float)
				declare float @llvm.nvvm.fmin.ftz.nan.xorsign.abs.f(float, float)

				declare half @llvm.nvvm.fmax.xorsign.abs.f16(half, half)
				declare half @llvm.nvvm.fmax.ftz.xorsign.abs.f16(half, half)
				declare half @llvm.nvvm.fmax.nan.xorsign.abs.f16(half, half)
				declare half @llvm.nvvm.fmax.ftz.nan.xorsign.abs.f16(half, half)
				declare <2 x half> @llvm.nvvm.fmax.xorsign.abs.f16x2(<2 x half> , <2 x half>)
				declare <2 x half> @llvm.nvvm.fmax.ftz.xorsign.abs.f16x2(<2 x half> , <2 x half>)
				declare <2 x half> @llvm.nvvm.fmax.nan.xorsign.abs.f16x2(<2 x half> , <2 x half>)
				declare <2 x half> @llvm.nvvm.fmax.ftz.nan.xorsign.abs.f16x2(<2 x half> , <2 x half>)
				declare i16 @llvm.nvvm.fmax.xorsign.abs.bf16(i16, i16)
				declare i16 @llvm.nvvm.fmax.nan.xorsign.abs.bf16(i16, i16)
				declare i32 @llvm.nvvm.fmax.xorsign.abs.bf16x2(i32, i32)
				declare i32 @llvm.nvvm.fmax.nan.xorsign.abs.bf16x2(i32, i32)
				declare float @llvm.nvvm.fmax.xorsign.abs.f(float, float)
				declare float @llvm.nvvm.fmax.ftz.xorsign.abs.f(float, float)
				declare float @llvm.nvvm.fmax.nan.xorsign.abs.f(float, float)
				declare float @llvm.nvvm.fmax.ftz.nan.xorsign.abs.f(float, float)

				; CHECK-LABEL: fmin_xorsign_abs_f16
				define half @fmin_xorsign_abs_f16(half %0, half %1) {
				; CHECK: min.xorsign.abs.f16
				%res = call half @llvm.nvvm.fmin.xorsign.abs.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmin_ftz_xorsign_abs_f16
				define half @fmin_ftz_xorsign_abs_f16(half %0, half %1) {
				; CHECK: min.ftz.xorsign.abs.f16
				%res = call half @llvm.nvvm.fmin.ftz.xorsign.abs.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmin_nan_xorsign_abs_f16
				define half @fmin_nan_xorsign_abs_f16(half %0, half %1) {
				; CHECK: min.NaN.xorsign.abs.f16
				%res = call half @llvm.nvvm.fmin.nan.xorsign.abs.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmin_ftz_nan_xorsign_abs_f16
				define half @fmin_ftz_nan_xorsign_abs_f16(half %0, half %1) {
				; CHECK: min.ftz.NaN.xorsign.abs.f16
				%res = call half @llvm.nvvm.fmin.ftz.nan.xorsign.abs.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmin_xorsign_abs_f16x2
				define <2 x half> @fmin_xorsign_abs_f16x2(<2 x half> %0, <2 x half> %1) {
				; CHECK: min.xorsign.abs.f16x2
				%res = call <2 x half> @llvm.nvvm.fmin.xorsign.abs.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmin_ftz_xorsign_abs_f16x2
				define <2 x half> @fmin_ftz_xorsign_abs_f16x2(<2 x half> %0, <2 x half> %1) {
				; CHECK: min.ftz.xorsign.abs.f16x2
				%res = call <2 x half> @llvm.nvvm.fmin.ftz.xorsign.abs.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmin_nan_xorsign_abs_f16x2
				define <2 x half> @fmin_nan_xorsign_abs_f16x2(<2 x half> %0, <2 x half> %1) {
				; CHECK: min.NaN.xorsign.abs.f16x2
				%res = call <2 x half> @llvm.nvvm.fmin.nan.xorsign.abs.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmin_ftz_nan_xorsign_abs_f16x2
				define <2 x half> @fmin_ftz_nan_xorsign_abs_f16x2(<2 x half> %0, <2 x half> %1) {
				; CHECK: min.ftz.NaN.xorsign.abs.f16x2
				%res = call <2 x half> @llvm.nvvm.fmin.ftz.nan.xorsign.abs.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmin_xorsign_abs_bf16
				define i16 @fmin_xorsign_abs_bf16(i16 %0, i16 %1) {
				; CHECK: min.xorsign.abs.bf16
				%res = call i16 @llvm.nvvm.fmin.xorsign.abs.bf16(i16 %0, i16 %1)
				ret i16 %res
				}

				; CHECK-LABEL: fmin_nan_xorsign_abs_bf16
				define i16 @fmin_nan_xorsign_abs_bf16(i16 %0, i16 %1) {
				; CHECK: min.NaN.xorsign.abs.bf16
				%res = call i16 @llvm.nvvm.fmin.nan.xorsign.abs.bf16(i16 %0, i16 %1)
				ret i16 %res
				}

				; CHECK-LABEL: fmin_xorsign_abs_bf16x2
				define i32 @fmin_xorsign_abs_bf16x2(i32 %0, i32 %1) {
				; CHECK: min.xorsign.abs.bf16x2
				%res = call i32 @llvm.nvvm.fmin.xorsign.abs.bf16x2(i32 %0, i32 %1)
				ret i32 %res
				}

				; CHECK-LABEL: fmin_nan_xorsign_abs_bf16x2
				define i32 @fmin_nan_xorsign_abs_bf16x2(i32 %0, i32 %1) {
				; CHECK: min.NaN.xorsign.abs.bf16x2
				%res = call i32 @llvm.nvvm.fmin.nan.xorsign.abs.bf16x2(i32 %0, i32 %1)
				ret i32 %res
				}

				; CHECK-LABEL: fmin_xorsign_abs_f
				define float @fmin_xorsign_abs_f(float %0, float %1) {
				; CHECK: min.xorsign.abs.f
				%res = call float @llvm.nvvm.fmin.xorsign.abs.f(float %0, float %1)
				ret float %res
				}

				; CHECK-LABEL: fmin_ftz_xorsign_abs_f
				define float @fmin_ftz_xorsign_abs_f(float %0, float %1) {
				; CHECK: min.ftz.xorsign.abs.f
				%res = call float @llvm.nvvm.fmin.ftz.xorsign.abs.f(float %0, float %1)
				ret float %res
				}

				; CHECK-LABEL: fmin_nan_xorsign_abs_f
				define float @fmin_nan_xorsign_abs_f(float %0, float %1) {
				; CHECK: min.NaN.xorsign.abs.f
				%res = call float @llvm.nvvm.fmin.nan.xorsign.abs.f(float %0, float %1)
				ret float %res
				}

				; CHECK-LABEL: fmin_ftz_nan_xorsign_abs_f
				define float @fmin_ftz_nan_xorsign_abs_f(float %0, float %1) {
				; CHECK: min.ftz.NaN.xorsign.abs.f
				%res = call float @llvm.nvvm.fmin.ftz.nan.xorsign.abs.f(float %0, float %1)
				ret float %res
				}

				; CHECK-LABEL: fmax_xorsign_abs_f16
				define half @fmax_xorsign_abs_f16(half %0, half %1) {
				; CHECK: max.xorsign.abs.f16
				%res = call half @llvm.nvvm.fmax.xorsign.abs.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmax_ftz_xorsign_abs_f16
				define half @fmax_ftz_xorsign_abs_f16(half %0, half %1) {
				; CHECK: max.ftz.xorsign.abs.f16
				%res = call half @llvm.nvvm.fmax.ftz.xorsign.abs.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmax_nan_xorsign_abs_f16
				define half @fmax_nan_xorsign_abs_f16(half %0, half %1) {
				; CHECK: max.NaN.xorsign.abs.f16
				%res = call half @llvm.nvvm.fmax.nan.xorsign.abs.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmax_ftz_nan_xorsign_abs_f16
				define half @fmax_ftz_nan_xorsign_abs_f16(half %0, half %1) {
				; CHECK: max.ftz.NaN.xorsign.abs.f16
				%res = call half @llvm.nvvm.fmax.ftz.nan.xorsign.abs.f16(half %0, half %1)
				ret half %res
				}

				; CHECK-LABEL: fmax_xorsign_abs_f16x2
				define <2 x half> @fmax_xorsign_abs_f16x2(<2 x half> %0, <2 x half> %1) {
				; CHECK: max.xorsign.abs.f16x2
				%res = call <2 x half> @llvm.nvvm.fmax.xorsign.abs.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmax_ftz_xorsign_abs_f16x2
				define <2 x half> @fmax_ftz_xorsign_abs_f16x2(<2 x half> %0, <2 x half> %1) {
				; CHECK: max.ftz.xorsign.abs.f16x2
				%res = call <2 x half> @llvm.nvvm.fmax.ftz.xorsign.abs.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmax_nan_xorsign_abs_f16x2
				define <2 x half> @fmax_nan_xorsign_abs_f16x2(<2 x half> %0, <2 x half> %1) {
				; CHECK: max.NaN.xorsign.abs.f16x2
				%res = call <2 x half> @llvm.nvvm.fmax.nan.xorsign.abs.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmax_ftz_nan_xorsign_abs_f16x2
				define <2 x half> @fmax_ftz_nan_xorsign_abs_f16x2(<2 x half> %0, <2 x half> %1) {
				; CHECK: max.ftz.NaN.xorsign.abs.f16x2
				%res = call <2 x half> @llvm.nvvm.fmax.ftz.nan.xorsign.abs.f16x2(<2 x half> %0, <2 x half> %1)
				ret <2 x half> %res
				}

				; CHECK-LABEL: fmax_xorsign_abs_bf16
				define i16 @fmax_xorsign_abs_bf16(i16 %0, i16 %1) {
				; CHECK: max.xorsign.abs.bf16
				%res = call i16 @llvm.nvvm.fmax.xorsign.abs.bf16(i16 %0, i16 %1)
				ret i16 %res
				}

				; CHECK-LABEL: fmax_nan_xorsign_abs_bf16
				define i16 @fmax_nan_xorsign_abs_bf16(i16 %0, i16 %1) {
				; CHECK: max.NaN.xorsign.abs.bf16
				%res = call i16 @llvm.nvvm.fmax.nan.xorsign.abs.bf16(i16 %0, i16 %1)
				ret i16 %res
				}

				; CHECK-LABEL: fmax_xorsign_abs_bf16x2
				define i32 @fmax_xorsign_abs_bf16x2(i32 %0, i32 %1) {
				; CHECK: max.xorsign.abs.bf16x2
				%res = call i32 @llvm.nvvm.fmax.xorsign.abs.bf16x2(i32 %0, i32 %1)
				ret i32 %res
				}

				; CHECK-LABEL: fmax_nan_xorsign_abs_bf16x2
				define i32 @fmax_nan_xorsign_abs_bf16x2(i32 %0, i32 %1) {
				; CHECK: max.NaN.xorsign.abs.bf16x2
				%res = call i32 @llvm.nvvm.fmax.nan.xorsign.abs.bf16x2(i32 %0, i32 %1)
				ret i32 %res
				}

				; CHECK-LABEL: fmax_xorsign_abs_f
				define float @fmax_xorsign_abs_f(float %0, float %1) {
				; CHECK: max.xorsign.abs.f
				%res = call float @llvm.nvvm.fmax.xorsign.abs.f(float %0, float %1)
				ret float %res
				}

				; CHECK-LABEL: fmax_ftz_xorsign_abs_f
				define float @fmax_ftz_xorsign_abs_f(float %0, float %1) {
				; CHECK: max.ftz.xorsign.abs.f
				%res = call float @llvm.nvvm.fmax.ftz.xorsign.abs.f(float %0, float %1)
				ret float %res
				}

				; CHECK-LABEL: fmax_nan_xorsign_abs_f
				define float @fmax_nan_xorsign_abs_f(float %0, float %1) {
				; CHECK: max.NaN.xorsign.abs.f
				%res = call float @llvm.nvvm.fmax.nan.xorsign.abs.f(float %0, float %1)
				ret float %res
				}

				; CHECK-LABEL: fmax_ftz_nan_xorsign_abs_f
				define float @fmax_ftz_nan_xorsign_abs_f(float %0, float %1) {
				; CHECK: max.ftz.NaN.xorsign.abs.f
				%res = call float @llvm.nvvm.fmax.ftz.nan.xorsign.abs.f(float %0, float %1)
				ret float %res
				}