This is an archive of the discontinued LLVM Phabricator instance.

DAG: Handle expanding strict_fsub into fneg and strict_fadd
ClosedPublic

Authored by arsenm on May 27 2020, 7:06 AM.

Download Raw Diff

Details

Reviewers

uweigand
craig.topper
cameron.mcinally
kpn

Summary

The AMDGPU handling of f16 vectors is terrible still since it gets
scalarized even when the vector operation is legal.

The code is is essentially duplicated between the non-strict and
strict case. Apparently no other expansions are currently trying to do
this. This is mostly because I found the behavior of
getStrictFPOperationAction to be confusing. In the ARM case, it would
expand strict_fsub even though it shouldn't due to the later check. At
that point, the logic required to check for legality was more complex
than just duplicating the 2 instruction expansion.

Diff Detail

Event Timeline

arsenm created this revision.May 27 2020, 7:06 AM

Herald added a project: Restricted Project. · View Herald TranscriptMay 27 2020, 7:06 AM

Herald added subscribers: kerbowa, hiraditya, tpr and 3 others. · View Herald Transcript

Fix losing flags

LGTM

This revision is now accepted and ready to land.May 27 2020, 11:25 AM

Breaks AArch64/ARM tests which start expanding strict_fsub instead of directly selecting it

Fix ARM/AArch64 tests by duplicating the logic rather than adding all the logic to account for getStrictFPOperationAction

This revision is now accepted and ready to land.Jul 10 2020, 10:17 AM

Herald added a subscriber: kristof.beyls. · View Herald TranscriptJul 10 2020, 10:17 AM

arsenm requested review of this revision.Jul 10 2020, 10:17 AM

ping

LGTM

This revision is now accepted and ready to land.Jul 21 2020, 11:44 AM

2fe0ea8261cf40d9c1ccdb9af633328290dd925e

Revision Contents

Path

Size

llvm/

lib/

CodeGen/

SelectionDAG/

LegalizeDAG.cpp

17 lines

Target/

AMDGPU/

VOP2Instructions.td

4 lines

test/

CodeGen/

AMDGPU/

strict_fsub.f16.ll

196 lines

strict_fsub.f32.ll

129 lines

strict_fsub.f64.ll

96 lines

Diff 277087

llvm/lib/CodeGen/SelectionDAG/LegalizeDAG.cpp

Show First 20 Lines • Show All 3,893 Lines • ▼ Show 20 Lines	if (!TLI.isStrictFPEnabled() && Results.empty() && Node->isStrictFPOpcode()) {
// operation will happen in SelectionDAGISel::DoInstructionSelection.		// operation will happen in SelectionDAGISel::DoInstructionSelection.
switch (Node->getOpcode()) {		switch (Node->getOpcode()) {
default:		default:
if (TLI.getStrictFPOperationAction(Node->getOpcode(),		if (TLI.getStrictFPOperationAction(Node->getOpcode(),
Node->getValueType(0))		Node->getValueType(0))
== TargetLowering::Legal)		== TargetLowering::Legal)
return true;		return true;
break;		break;
		case ISD::STRICT_FSUB: {
		if (TLI.getStrictFPOperationAction(Node->getOpcode(),
		Node->getValueType(0))
		== TargetLowering::Legal)
		return true;

		EVT VT = Node->getValueType(0);
		const SDNodeFlags Flags = Node->getFlags();
		SDValue Neg = DAG.getNode(ISD::FNEG, dl, VT, Node->getOperand(2), Flags);
		SDValue Fadd = DAG.getNode(ISD::STRICT_FADD, dl, Node->getVTList(),
		{Node->getOperand(0), Node->getOperand(1), Neg},
		Flags);

		Results.push_back(Fadd);
		Results.push_back(Fadd.getValue(1));
		break;
		}
case ISD::STRICT_LRINT:		case ISD::STRICT_LRINT:
case ISD::STRICT_LLRINT:		case ISD::STRICT_LLRINT:
case ISD::STRICT_LROUND:		case ISD::STRICT_LROUND:
case ISD::STRICT_LLROUND:		case ISD::STRICT_LLROUND:
// These are registered by the operand type instead of the value		// These are registered by the operand type instead of the value
// type. Reflect that here.		// type. Reflect that here.
if (TLI.getStrictFPOperationAction(Node->getOpcode(),		if (TLI.getStrictFPOperationAction(Node->getOpcode(),
Node->getOperand(1).getValueType())		Node->getOperand(1).getValueType())
▲ Show 20 Lines • Show All 968 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/VOP2Instructions.td

	Show First 20 Lines • Show All 462 Lines • ▼ Show 20 Lines
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	defm V_CNDMASK_B32 : VOP2eInst <"v_cndmask_b32", VOP2e_I32_I32_I32_I1>;			defm V_CNDMASK_B32 : VOP2eInst <"v_cndmask_b32", VOP2e_I32_I32_I32_I1>;
	let SubtargetPredicate = HasMadMacF32Insts in			let SubtargetPredicate = HasMadMacF32Insts in
	def V_MADMK_F32 : VOP2_Pseudo <"v_madmk_f32", VOP_MADMK_F32, []>;			def V_MADMK_F32 : VOP2_Pseudo <"v_madmk_f32", VOP_MADMK_F32, []>;

	let isCommutable = 1 in {			let isCommutable = 1 in {
	defm V_ADD_F32 : VOP2Inst <"v_add_f32", VOP_F32_F32_F32, any_fadd>;			defm V_ADD_F32 : VOP2Inst <"v_add_f32", VOP_F32_F32_F32, any_fadd>;
	defm V_SUB_F32 : VOP2Inst <"v_sub_f32", VOP_F32_F32_F32, fsub>;			defm V_SUB_F32 : VOP2Inst <"v_sub_f32", VOP_F32_F32_F32, any_fsub>;
	defm V_SUBREV_F32 : VOP2Inst <"v_subrev_f32", VOP_F32_F32_F32, null_frag, "v_sub_f32">;			defm V_SUBREV_F32 : VOP2Inst <"v_subrev_f32", VOP_F32_F32_F32, null_frag, "v_sub_f32">;
	defm V_MUL_LEGACY_F32 : VOP2Inst <"v_mul_legacy_f32", VOP_F32_F32_F32, AMDGPUfmul_legacy>;			defm V_MUL_LEGACY_F32 : VOP2Inst <"v_mul_legacy_f32", VOP_F32_F32_F32, AMDGPUfmul_legacy>;
	defm V_MUL_F32 : VOP2Inst <"v_mul_f32", VOP_F32_F32_F32, any_fmul>;			defm V_MUL_F32 : VOP2Inst <"v_mul_f32", VOP_F32_F32_F32, any_fmul>;
	defm V_MUL_I32_I24 : VOP2Inst <"v_mul_i32_i24", VOP_I32_I32_I32_ARITH, AMDGPUmul_i24>;			defm V_MUL_I32_I24 : VOP2Inst <"v_mul_i32_i24", VOP_I32_I32_I32_ARITH, AMDGPUmul_i24>;
	defm V_MUL_HI_I32_I24 : VOP2Inst <"v_mul_hi_i32_i24", VOP_PAT_GEN<VOP_I32_I32_I32, 2>, AMDGPUmulhi_i24>;			defm V_MUL_HI_I32_I24 : VOP2Inst <"v_mul_hi_i32_i24", VOP_PAT_GEN<VOP_I32_I32_I32, 2>, AMDGPUmulhi_i24>;
	defm V_MUL_U32_U24 : VOP2Inst <"v_mul_u32_u24", VOP_I32_I32_I32_ARITH, AMDGPUmul_u24>;			defm V_MUL_U32_U24 : VOP2Inst <"v_mul_u32_u24", VOP_I32_I32_I32_ARITH, AMDGPUmul_u24>;
	defm V_MUL_HI_U32_U24 : VOP2Inst <"v_mul_hi_u32_u24", VOP_PAT_GEN<VOP_I32_I32_I32, 2>, AMDGPUmulhi_u24>;			defm V_MUL_HI_U32_U24 : VOP2Inst <"v_mul_hi_u32_u24", VOP_PAT_GEN<VOP_I32_I32_I32, 2>, AMDGPUmulhi_u24>;
	defm V_MIN_F32 : VOP2Inst <"v_min_f32", VOP_F32_F32_F32, fminnum_like>;			defm V_MIN_F32 : VOP2Inst <"v_min_f32", VOP_F32_F32_F32, fminnum_like>;
	▲ Show 20 Lines • Show All 150 Lines • ▼ Show 20 Lines

	defm V_LSHLREV_B16 : VOP2Inst <"v_lshlrev_b16", VOP_I16_I16_I16, lshl_rev>;			defm V_LSHLREV_B16 : VOP2Inst <"v_lshlrev_b16", VOP_I16_I16_I16, lshl_rev>;
	defm V_LSHRREV_B16 : VOP2Inst <"v_lshrrev_b16", VOP_I16_I16_I16, lshr_rev>;			defm V_LSHRREV_B16 : VOP2Inst <"v_lshrrev_b16", VOP_I16_I16_I16, lshr_rev>;
	defm V_ASHRREV_I16 : VOP2Inst <"v_ashrrev_i16", VOP_I16_I16_I16, ashr_rev>;			defm V_ASHRREV_I16 : VOP2Inst <"v_ashrrev_i16", VOP_I16_I16_I16, ashr_rev>;

	let isCommutable = 1 in {			let isCommutable = 1 in {
	let FPDPRounding = 1 in {			let FPDPRounding = 1 in {
	defm V_ADD_F16 : VOP2Inst <"v_add_f16", VOP_F16_F16_F16, any_fadd>;			defm V_ADD_F16 : VOP2Inst <"v_add_f16", VOP_F16_F16_F16, any_fadd>;
	defm V_SUB_F16 : VOP2Inst <"v_sub_f16", VOP_F16_F16_F16, fsub>;			defm V_SUB_F16 : VOP2Inst <"v_sub_f16", VOP_F16_F16_F16, any_fsub>;
	defm V_SUBREV_F16 : VOP2Inst <"v_subrev_f16", VOP_F16_F16_F16, null_frag, "v_sub_f16">;			defm V_SUBREV_F16 : VOP2Inst <"v_subrev_f16", VOP_F16_F16_F16, null_frag, "v_sub_f16">;
	defm V_MUL_F16 : VOP2Inst <"v_mul_f16", VOP_F16_F16_F16, any_fmul>;			defm V_MUL_F16 : VOP2Inst <"v_mul_f16", VOP_F16_F16_F16, any_fmul>;

	let mayRaiseFPException = 0 in {			let mayRaiseFPException = 0 in {
	def V_MADAK_F16 : VOP2_Pseudo <"v_madak_f16", VOP_MADAK_F16, [], "">;			def V_MADAK_F16 : VOP2_Pseudo <"v_madak_f16", VOP_MADAK_F16, [], "">;
	}			}

	} // End FPDPRounding = 1			} // End FPDPRounding = 1
	▲ Show 20 Lines • Show All 977 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/strict_fsub.f16.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 < %s \| FileCheck -check-prefixes=GCN,GFX9 %s
				; RUN: llc -mtriple=amdgcn-mesa-mesa3d -mcpu=fiji < %s \| FileCheck -check-prefixes=GCN,GFX8 %s
				; FIXME: promotion not handled without f16 insts

				define half @v_constained_fsub_f16_fpexcept_strict(half %x, half %y) #0 {
				; GCN-LABEL: v_constained_fsub_f16_fpexcept_strict:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_sub_f16_e32 v0, v0, v1
				; GCN-NEXT: s_setpc_b64 s[30:31]
				%val = call half @llvm.experimental.constrained.fsub.f16(half %x, half %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
				ret half %val
				}

				define half @v_constained_fsub_f16_fpexcept_ignore(half %x, half %y) #0 {
				; GCN-LABEL: v_constained_fsub_f16_fpexcept_ignore:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_sub_f16_e32 v0, v0, v1
				; GCN-NEXT: s_setpc_b64 s[30:31]
				%val = call half @llvm.experimental.constrained.fsub.f16(half %x, half %y, metadata !"round.tonearest", metadata !"fpexcept.ignore")
				ret half %val
				}

				define half @v_constained_fsub_f16_fpexcept_maytrap(half %x, half %y) #0 {
				; GCN-LABEL: v_constained_fsub_f16_fpexcept_maytrap:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_sub_f16_e32 v0, v0, v1
				; GCN-NEXT: s_setpc_b64 s[30:31]
				%val = call half @llvm.experimental.constrained.fsub.f16(half %x, half %y, metadata !"round.tonearest", metadata !"fpexcept.maytrap")
				ret half %val
				}

				define <2 x half> @v_constained_fsub_v2f16_fpexcept_strict(<2 x half> %x, <2 x half> %y) #0 {
				; GFX9-LABEL: v_constained_fsub_v2f16_fpexcept_strict:
				; GFX9: ; %bb.0:
				; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX9-NEXT: v_sub_f16_e32 v0, v0, v1
				; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
				; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0
				; GFX9-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX8-LABEL: v_constained_fsub_v2f16_fpexcept_strict:
				; GFX8: ; %bb.0:
				; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX8-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX8-NEXT: v_sub_f16_e32 v0, v0, v1
				; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
				; GFX8-NEXT: s_setpc_b64 s[30:31]
				%val = call <2 x half> @llvm.experimental.constrained.fsub.v2f16(<2 x half> %x, <2 x half> %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
				ret <2 x half> %val
				}

				define <2 x half> @v_constained_fsub_v2f16_fpexcept_ignore(<2 x half> %x, <2 x half> %y) #0 {
				; GFX9-LABEL: v_constained_fsub_v2f16_fpexcept_ignore:
				; GFX9: ; %bb.0:
				; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX9-NEXT: v_sub_f16_e32 v0, v0, v1
				; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
				; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0
				; GFX9-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX8-LABEL: v_constained_fsub_v2f16_fpexcept_ignore:
				; GFX8: ; %bb.0:
				; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX8-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX8-NEXT: v_sub_f16_e32 v0, v0, v1
				; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
				; GFX8-NEXT: s_setpc_b64 s[30:31]
				%val = call <2 x half> @llvm.experimental.constrained.fsub.v2f16(<2 x half> %x, <2 x half> %y, metadata !"round.tonearest", metadata !"fpexcept.ignore")
				ret <2 x half> %val
				}

				define <2 x half> @v_constained_fsub_v2f16_fpexcept_maytrap(<2 x half> %x, <2 x half> %y) #0 {
				; GFX9-LABEL: v_constained_fsub_v2f16_fpexcept_maytrap:
				; GFX9: ; %bb.0:
				; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX9-NEXT: v_sub_f16_e32 v0, v0, v1
				; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
				; GFX9-NEXT: v_lshl_or_b32 v0, v2, 16, v0
				; GFX9-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX8-LABEL: v_constained_fsub_v2f16_fpexcept_maytrap:
				; GFX8: ; %bb.0:
				; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX8-NEXT: v_sub_f16_sdwa v2, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX8-NEXT: v_sub_f16_e32 v0, v0, v1
				; GFX8-NEXT: v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
				; GFX8-NEXT: s_setpc_b64 s[30:31]
				%val = call <2 x half> @llvm.experimental.constrained.fsub.v2f16(<2 x half> %x, <2 x half> %y, metadata !"round.tonearest", metadata !"fpexcept.maytrap")
				ret <2 x half> %val
				}

				define <3 x half> @v_constained_fsub_v3f16_fpexcept_strict(<3 x half> %x, <3 x half> %y) #0 {
				; GFX9-LABEL: v_constained_fsub_v3f16_fpexcept_strict:
				; GFX9: ; %bb.0:
				; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-NEXT: v_sub_f16_sdwa v4, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX9-NEXT: v_sub_f16_e32 v0, v0, v2
				; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
				; GFX9-NEXT: v_lshl_or_b32 v0, v4, 16, v0
				; GFX9-NEXT: v_sub_f16_e32 v1, v1, v3
				; GFX9-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX8-LABEL: v_constained_fsub_v3f16_fpexcept_strict:
				; GFX8: ; %bb.0:
				; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX8-NEXT: v_sub_f16_sdwa v4, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX8-NEXT: v_sub_f16_e32 v0, v0, v2
				; GFX8-NEXT: v_or_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
				; GFX8-NEXT: v_sub_f16_e32 v1, v1, v3
				; GFX8-NEXT: s_setpc_b64 s[30:31]
				%val = call <3 x half> @llvm.experimental.constrained.fsub.v3f16(<3 x half> %x, <3 x half> %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
				ret <3 x half> %val
				}

				; FIXME: Scalarized
				define <4 x half> @v_constained_fsub_v4f16_fpexcept_strict(<4 x half> %x, <4 x half> %y) #0 {
				; GFX9-LABEL: v_constained_fsub_v4f16_fpexcept_strict:
				; GFX9: ; %bb.0:
				; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-NEXT: v_sub_f16_sdwa v4, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX9-NEXT: v_sub_f16_sdwa v5, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX9-NEXT: v_sub_f16_e32 v0, v0, v2
				; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff
				; GFX9-NEXT: v_sub_f16_e32 v1, v1, v3
				; GFX9-NEXT: v_and_b32_e32 v0, v2, v0
				; GFX9-NEXT: v_and_b32_e32 v1, v2, v1
				; GFX9-NEXT: v_lshl_or_b32 v0, v5, 16, v0
				; GFX9-NEXT: v_lshl_or_b32 v1, v4, 16, v1
				; GFX9-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX8-LABEL: v_constained_fsub_v4f16_fpexcept_strict:
				; GFX8: ; %bb.0:
				; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX8-NEXT: v_sub_f16_sdwa v4, v1, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX8-NEXT: v_sub_f16_e32 v1, v1, v3
				; GFX8-NEXT: v_sub_f16_sdwa v5, v0, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX8-NEXT: v_sub_f16_e32 v0, v0, v2
				; GFX8-NEXT: v_or_b32_sdwa v0, v0, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
				; GFX8-NEXT: v_or_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
				; GFX8-NEXT: s_setpc_b64 s[30:31]
				%val = call <4 x half> @llvm.experimental.constrained.fsub.v4f16(<4 x half> %x, <4 x half> %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
				ret <4 x half> %val
				}

				define amdgpu_ps half @s_constained_fsub_f16_fpexcept_strict(half inreg %x, half inreg %y) #0 {
				; GCN-LABEL: s_constained_fsub_f16_fpexcept_strict:
				; GCN: ; %bb.0:
				; GCN-NEXT: v_mov_b32_e32 v0, s3
				; GCN-NEXT: v_sub_f16_e32 v0, s2, v0
				; GCN-NEXT: ; return to shader part epilog
				%val = call half @llvm.experimental.constrained.fsub.f16(half %x, half %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
				ret half %val
				}

				define amdgpu_ps <2 x half> @s_constained_fsub_v2f16_fpexcept_strict(<2 x half> inreg %x, <2 x half> inreg %y) #0 {
				; GFX9-LABEL: s_constained_fsub_v2f16_fpexcept_strict:
				; GFX9: ; %bb.0:
				; GFX9-NEXT: v_mov_b32_e32 v1, s3
				; GFX9-NEXT: s_lshr_b32 s0, s3, 16
				; GFX9-NEXT: v_sub_f16_e32 v1, s2, v1
				; GFX9-NEXT: s_lshr_b32 s1, s2, 16
				; GFX9-NEXT: v_mov_b32_e32 v0, s0
				; GFX9-NEXT: v_sub_f16_e32 v0, s1, v0
				; GFX9-NEXT: v_and_b32_e32 v1, 0xffff, v1
				; GFX9-NEXT: v_lshl_or_b32 v0, v0, 16, v1
				; GFX9-NEXT: ; return to shader part epilog
				;
				; GFX8-LABEL: s_constained_fsub_v2f16_fpexcept_strict:
				; GFX8: ; %bb.0:
				; GFX8-NEXT: s_lshr_b32 s0, s3, 16
				; GFX8-NEXT: s_lshr_b32 s1, s2, 16
				; GFX8-NEXT: v_mov_b32_e32 v0, s0
				; GFX8-NEXT: v_mov_b32_e32 v1, s1
				; GFX8-NEXT: v_sub_f16_sdwa v0, v1, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
				; GFX8-NEXT: v_mov_b32_e32 v1, s3
				; GFX8-NEXT: v_sub_f16_e32 v1, s2, v1
				; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
				; GFX8-NEXT: ; return to shader part epilog
				%val = call <2 x half> @llvm.experimental.constrained.fsub.v2f16(<2 x half> %x, <2 x half> %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
				ret <2 x half> %val
				}

				declare half @llvm.experimental.constrained.fsub.f16(half, half, metadata, metadata) #1
				declare <2 x half> @llvm.experimental.constrained.fsub.v2f16(<2 x half>, <2 x half>, metadata, metadata) #1
				declare <3 x half> @llvm.experimental.constrained.fsub.v3f16(<3 x half>, <3 x half>, metadata, metadata) #1
				declare <4 x half> @llvm.experimental.constrained.fsub.v4f16(<4 x half>, <4 x half>, metadata, metadata) #1

				attributes #0 = { strictfp }
				attributes #1 = { inaccessiblememonly nounwind willreturn }

llvm/test/CodeGen/AMDGPU/strict_fsub.f32.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 < %s \| FileCheck -check-prefix=GCN %s

				define float @v_constained_fsub_f32_fpexcept_strict(float %x, float %y) #0 {
				; GCN-LABEL: v_constained_fsub_f32_fpexcept_strict:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_sub_f32_e32 v0, v0, v1
				; GCN-NEXT: s_setpc_b64 s[30:31]
				%val = call float @llvm.experimental.constrained.fsub.f32(float %x, float %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
				ret float %val
				}

				define float @v_constained_fsub_f32_fpexcept_ignore(float %x, float %y) #0 {
				; GCN-LABEL: v_constained_fsub_f32_fpexcept_ignore:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_sub_f32_e32 v0, v0, v1
				; GCN-NEXT: s_setpc_b64 s[30:31]
				%val = call float @llvm.experimental.constrained.fsub.f32(float %x, float %y, metadata !"round.tonearest", metadata !"fpexcept.ignore")
				ret float %val
				}

				define float @v_constained_fsub_f32_fpexcept_maytrap(float %x, float %y) #0 {
				; GCN-LABEL: v_constained_fsub_f32_fpexcept_maytrap:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_sub_f32_e32 v0, v0, v1
				; GCN-NEXT: s_setpc_b64 s[30:31]
				%val = call float @llvm.experimental.constrained.fsub.f32(float %x, float %y, metadata !"round.tonearest", metadata !"fpexcept.maytrap")
				ret float %val
				}

				define <2 x float> @v_constained_fsub_v2f32_fpexcept_strict(<2 x float> %x, <2 x float> %y) #0 {
				; GCN-LABEL: v_constained_fsub_v2f32_fpexcept_strict:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_sub_f32_e32 v0, v0, v2
				; GCN-NEXT: v_sub_f32_e32 v1, v1, v3
				; GCN-NEXT: s_setpc_b64 s[30:31]
				%val = call <2 x float> @llvm.experimental.constrained.fsub.v2f32(<2 x float> %x, <2 x float> %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
				ret <2 x float> %val
				}

				define <2 x float> @v_constained_fsub_v2f32_fpexcept_ignore(<2 x float> %x, <2 x float> %y) #0 {
				; GCN-LABEL: v_constained_fsub_v2f32_fpexcept_ignore:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_sub_f32_e32 v0, v0, v2
				; GCN-NEXT: v_sub_f32_e32 v1, v1, v3
				; GCN-NEXT: s_setpc_b64 s[30:31]
				%val = call <2 x float> @llvm.experimental.constrained.fsub.v2f32(<2 x float> %x, <2 x float> %y, metadata !"round.tonearest", metadata !"fpexcept.ignore")
				ret <2 x float> %val
				}

				define <2 x float> @v_constained_fsub_v2f32_fpexcept_maytrap(<2 x float> %x, <2 x float> %y) #0 {
				; GCN-LABEL: v_constained_fsub_v2f32_fpexcept_maytrap:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_sub_f32_e32 v0, v0, v2
				; GCN-NEXT: v_sub_f32_e32 v1, v1, v3
				; GCN-NEXT: s_setpc_b64 s[30:31]
				%val = call <2 x float> @llvm.experimental.constrained.fsub.v2f32(<2 x float> %x, <2 x float> %y, metadata !"round.tonearest", metadata !"fpexcept.maytrap")
				ret <2 x float> %val
				}

				define <3 x float> @v_constained_fsub_v3f32_fpexcept_strict(<3 x float> %x, <3 x float> %y) #0 {
				; GCN-LABEL: v_constained_fsub_v3f32_fpexcept_strict:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_sub_f32_e32 v0, v0, v3
				; GCN-NEXT: v_sub_f32_e32 v1, v1, v4
				; GCN-NEXT: v_sub_f32_e32 v2, v2, v5
				; GCN-NEXT: s_setpc_b64 s[30:31]
				%val = call <3 x float> @llvm.experimental.constrained.fsub.v3f32(<3 x float> %x, <3 x float> %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
				ret <3 x float> %val
				}

				define amdgpu_ps float @s_constained_fsub_f32_fpexcept_strict(float inreg %x, float inreg %y) #0 {
				; GCN-LABEL: s_constained_fsub_f32_fpexcept_strict:
				; GCN: ; %bb.0:
				; GCN-NEXT: v_mov_b32_e32 v0, s3
				; GCN-NEXT: v_sub_f32_e32 v0, s2, v0
				; GCN-NEXT: ; return to shader part epilog
				%val = call float @llvm.experimental.constrained.fsub.f32(float %x, float %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
				ret float %val
				}

				define float @v_constained_fsub_f32_fpexcept_strict_fabs_lhs(float %x, float %y) #0 {
				; GCN-LABEL: v_constained_fsub_f32_fpexcept_strict_fabs_lhs:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_sub_f32_e64 v0, \|v0\|, v1
				; GCN-NEXT: s_setpc_b64 s[30:31]
				%fabs.x = call float @llvm.fabs.f32(float %x)
				%val = call float @llvm.experimental.constrained.fsub.f32(float %fabs.x, float %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
				ret float %val
				}

				define float @v_constained_fsub_f32_fpexcept_strict_fabs_rhs(float %x, float %y) #0 {
				; GCN-LABEL: v_constained_fsub_f32_fpexcept_strict_fabs_rhs:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_sub_f32_e64 v0, v0, \|v1\|
				; GCN-NEXT: s_setpc_b64 s[30:31]
				%fabs.y = call float @llvm.fabs.f32(float %y)
				%val = call float @llvm.experimental.constrained.fsub.f32(float %x, float %fabs.y, metadata !"round.tonearest", metadata !"fpexcept.strict")
				ret float %val
				}

				define float @v_constained_fsub_f32_fpexcept_strict_fneg_fabs_lhs(float %x, float %y) #0 {
				; GCN-LABEL: v_constained_fsub_f32_fpexcept_strict_fneg_fabs_lhs:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_sub_f32_e64 v0, -\|v0\|, v1
				; GCN-NEXT: s_setpc_b64 s[30:31]
				%fabs.x = call float @llvm.fabs.f32(float %x)
				%neg.fabs.x = fneg float %fabs.x
				%val = call float @llvm.experimental.constrained.fsub.f32(float %neg.fabs.x, float %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
				ret float %val
				}

				declare float @llvm.fabs.f32(float) #1
				declare float @llvm.experimental.constrained.fsub.f32(float, float, metadata, metadata) #1
				declare <2 x float> @llvm.experimental.constrained.fsub.v2f32(<2 x float>, <2 x float>, metadata, metadata) #1
				declare <3 x float> @llvm.experimental.constrained.fsub.v3f32(<3 x float>, <3 x float>, metadata, metadata) #1

				attributes #0 = { strictfp }
				attributes #1 = { inaccessiblememonly nounwind willreturn }

llvm/test/CodeGen/AMDGPU/strict_fsub.f64.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 < %s \| FileCheck -check-prefix=GCN %s

				define double @v_constained_fsub_f64_fpexcept_strict(double %x, double %y) #0 {
				; GCN-LABEL: v_constained_fsub_f64_fpexcept_strict:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_add_f64 v[0:1], v[0:1], -v[2:3]
				; GCN-NEXT: s_setpc_b64 s[30:31]
				%val = call double @llvm.experimental.constrained.fsub.f64(double %x, double %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
				ret double %val
				}

				define double @v_constained_fsub_f64_fpexcept_ignore(double %x, double %y) #0 {
				; GCN-LABEL: v_constained_fsub_f64_fpexcept_ignore:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_add_f64 v[0:1], v[0:1], -v[2:3]
				; GCN-NEXT: s_setpc_b64 s[30:31]
				%val = call double @llvm.experimental.constrained.fsub.f64(double %x, double %y, metadata !"round.tonearest", metadata !"fpexcept.ignore")
				ret double %val
				}

				define double @v_constained_fsub_f64_fpexcept_maytrap(double %x, double %y) #0 {
				; GCN-LABEL: v_constained_fsub_f64_fpexcept_maytrap:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_add_f64 v[0:1], v[0:1], -v[2:3]
				; GCN-NEXT: s_setpc_b64 s[30:31]
				%val = call double @llvm.experimental.constrained.fsub.f64(double %x, double %y, metadata !"round.tonearest", metadata !"fpexcept.maytrap")
				ret double %val
				}

				define <2 x double> @v_constained_fsub_v2f64_fpexcept_strict(<2 x double> %x, <2 x double> %y) #0 {
				; GCN-LABEL: v_constained_fsub_v2f64_fpexcept_strict:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_add_f64 v[0:1], v[0:1], -v[4:5]
				; GCN-NEXT: v_add_f64 v[2:3], v[2:3], -v[6:7]
				; GCN-NEXT: s_setpc_b64 s[30:31]
				%val = call <2 x double> @llvm.experimental.constrained.fsub.v2f64(<2 x double> %x, <2 x double> %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
				ret <2 x double> %val
				}

				define <2 x double> @v_constained_fsub_v2f64_fpexcept_ignore(<2 x double> %x, <2 x double> %y) #0 {
				; GCN-LABEL: v_constained_fsub_v2f64_fpexcept_ignore:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_add_f64 v[0:1], v[0:1], -v[4:5]
				; GCN-NEXT: v_add_f64 v[2:3], v[2:3], -v[6:7]
				; GCN-NEXT: s_setpc_b64 s[30:31]
				%val = call <2 x double> @llvm.experimental.constrained.fsub.v2f64(<2 x double> %x, <2 x double> %y, metadata !"round.tonearest", metadata !"fpexcept.ignore")
				ret <2 x double> %val
				}

				define <2 x double> @v_constained_fsub_v2f64_fpexcept_maytrap(<2 x double> %x, <2 x double> %y) #0 {
				; GCN-LABEL: v_constained_fsub_v2f64_fpexcept_maytrap:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_add_f64 v[0:1], v[0:1], -v[4:5]
				; GCN-NEXT: v_add_f64 v[2:3], v[2:3], -v[6:7]
				; GCN-NEXT: s_setpc_b64 s[30:31]
				%val = call <2 x double> @llvm.experimental.constrained.fsub.v2f64(<2 x double> %x, <2 x double> %y, metadata !"round.tonearest", metadata !"fpexcept.maytrap")
				ret <2 x double> %val
				}

				define <3 x double> @v_constained_fsub_v3f64_fpexcept_strict(<3 x double> %x, <3 x double> %y) #0 {
				; GCN-LABEL: v_constained_fsub_v3f64_fpexcept_strict:
				; GCN: ; %bb.0:
				; GCN-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GCN-NEXT: v_add_f64 v[0:1], v[0:1], -v[6:7]
				; GCN-NEXT: v_add_f64 v[2:3], v[2:3], -v[8:9]
				; GCN-NEXT: v_add_f64 v[4:5], v[4:5], -v[10:11]
				; GCN-NEXT: s_setpc_b64 s[30:31]
				%val = call <3 x double> @llvm.experimental.constrained.fsub.v3f64(<3 x double> %x, <3 x double> %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
				ret <3 x double> %val
				}

				define amdgpu_ps <2 x float> @s_constained_fsub_f64_fpexcept_strict(double inreg %x, double inreg %y) #0 {
				; GCN-LABEL: s_constained_fsub_f64_fpexcept_strict:
				; GCN: ; %bb.0:
				; GCN-NEXT: v_mov_b32_e32 v0, s4
				; GCN-NEXT: v_mov_b32_e32 v1, s5
				; GCN-NEXT: v_add_f64 v[0:1], s[2:3], -v[0:1]
				; GCN-NEXT: ; return to shader part epilog
				%val = call double @llvm.experimental.constrained.fsub.f64(double %x, double %y, metadata !"round.tonearest", metadata !"fpexcept.strict")
				%cast = bitcast double %val to <2 x float>
				ret <2 x float> %cast
				}

				declare double @llvm.experimental.constrained.fsub.f64(double, double, metadata, metadata) #1
				declare <2 x double> @llvm.experimental.constrained.fsub.v2f64(<2 x double>, <2 x double>, metadata, metadata) #1
				declare <3 x double> @llvm.experimental.constrained.fsub.v3f64(<3 x double>, <3 x double>, metadata, metadata) #1

				attributes #0 = { strictfp }
				attributes #1 = { inaccessiblememonly nounwind willreturn }