Diff 540043

llvm/lib/Target/AMDGPU/VOP3PInstructions.td

Show First 20 Lines • Show All 176 Lines • ▼ Show 20 Lines	def : GCNPat <
(mixlo_inst $src0_modifiers, $src0,		(mixlo_inst $src0_modifiers, $src0,
$src1_modifiers, $src1,		$src1_modifiers, $src1,
$src2_modifiers, $src2,		$src2_modifiers, $src2,
DSTCLAMP.NONE,		DSTCLAMP.NONE,
(i32 (IMPLICIT_DEF)))		(i32 (IMPLICIT_DEF)))
>;		>;

// FIXME: Special case handling for maxhi (especially for clamp)		// FIXME: Special case handling for maxhi (especially for clamp)
// because dealing with the write to high half of the register is		// because dealing with the write to high half of the register is
		arsenmUnsubmitted Not Done Reply Inline Actions probably should be just fmul, this may not be the correct behavior with strictfp if the fmul were to raise an exception arsenm: probably should be just fmul, this may not be the correct behavior with strictfp if the fmul…
// difficult.		// difficult.
def : GCNPat <		def : GCNPat <
		arsenmUnsubmitted Not Done Reply Inline Actions If this is using v_mad_mix (i.e >= gfx900 && < gfx906), you can't introduce v_mad* without checking if denormal flushing is enabled arsenm: If this is using v_mad_mix (i.e >= gfx900 && < gfx906), you can't introduce v_mad* without…
		foadUnsubmitted Not Done Reply Inline Actions Is that a pre-existing problem with the other patterns in this multiclass (I see there is a TODO comment about it at the top)? Or do they check for denormal handling before creating anything that matches `fma_like`? foad: Is that a pre-existing problem with the other patterns in this multiclass (I see there is a…
		matejamAuthorUnsubmitted Done Reply Inline Actions If you run llvm/test/CodeGen/AMDGPU/mad-mix-lo.ll with -denormal-fp-math=ieee or preserve-sign, you will get the same result, both will select v_fma/mad_mix* instructions. matejam: If you run llvm/test/CodeGen/AMDGPU/mad-mix-lo.ll with -denormal-fp-math=ieee or preserve-sign…
		matejamAuthorUnsubmitted Done Reply Inline Actions Or do they check for denormal handling before creating anything that matches fma_like? It is checked in SITargetLowering::isFMAFasterThanFMulAndFAdd and SITargetLowering::isFMADLegal, I think. matejam: > Or do they check for denormal handling before creating anything that matches fma_like? It is…
(build_vector f16:$elt0, (fpround (fma_like (f32 (VOP3PMadMixMods f16:$src0, i32:$src0_modifiers)),		(build_vector f16:$elt0, (fpround (fma_like (f32 (VOP3PMadMixMods f16:$src0, i32:$src0_modifiers)),
(f32 (VOP3PMadMixMods f16:$src1, i32:$src1_modifiers)),		(f32 (VOP3PMadMixMods f16:$src1, i32:$src1_modifiers)),
(f32 (VOP3PMadMixMods f16:$src2, i32:$src2_modifiers))))),		(f32 (VOP3PMadMixMods f16:$src2, i32:$src2_modifiers))))),
(v2f16 (mixhi_inst $src0_modifiers, $src0,		(v2f16 (mixhi_inst $src0_modifiers, $src0,
$src1_modifiers, $src1,		$src1_modifiers, $src1,
$src2_modifiers, $src2,		$src2_modifiers, $src2,
DSTCLAMP.NONE,		DSTCLAMP.NONE,
		matejamAuthorUnsubmitted Done Reply Inline Actions I could add two more patterns similar to this one, with AMDGPUclamp. One with elt0 as its first element and the other with lo_src* and hi_src. matejam:* I could add two more patterns similar to this one, with AMDGPUclamp. One with elt0 as its first…
VGPR_32:$elt0))		VGPR_32:$elt0))
>;		>;

def : GCNPat <		def : GCNPat <
(build_vector		(build_vector
f16:$elt0,		f16:$elt0,
(AMDGPUclamp (fpround (fma_like (f32 (VOP3PMadMixMods f16:$src0, i32:$src0_modifiers)),		(AMDGPUclamp (fpround (fma_like (f32 (VOP3PMadMixMods f16:$src0, i32:$src0_modifiers)),
(f32 (VOP3PMadMixMods f16:$src1, i32:$src1_modifiers)),		(f32 (VOP3PMadMixMods f16:$src1, i32:$src1_modifiers)),
Show All 18 Lines	(v2f16 (mixhi_inst $hi_src0_modifiers, $hi_src0,
$hi_src2_modifiers, $hi_src2,		$hi_src2_modifiers, $hi_src2,
DSTCLAMP.ENABLE,		DSTCLAMP.ENABLE,
(mixlo_inst $lo_src0_modifiers, $lo_src0,		(mixlo_inst $lo_src0_modifiers, $lo_src0,
$lo_src1_modifiers, $lo_src1,		$lo_src1_modifiers, $lo_src1,
$lo_src2_modifiers, $lo_src2,		$lo_src2_modifiers, $lo_src2,
DSTCLAMP.ENABLE,		DSTCLAMP.ENABLE,
(i32 (IMPLICIT_DEF)))))		(i32 (IMPLICIT_DEF)))))
>;		>;

		def : GCNPat <
		(f16 (fpround (fmul (f32 (VOP3PMadMixMods f32:$src0, i32:$src0_modifiers)),
		(f32 (VOP3PMadMixMods f32:$src1, i32:$src1_modifiers))))),
		(mixlo_inst $src0_modifiers, $src0,
		$src1_modifiers, $src1,
		(i32 0), (i32 0),
		DSTCLAMP.NONE,
		(i32 (IMPLICIT_DEF)))
		>;

		def : GCNPat <
		(build_vector f16:$elt0, (fpround (fmul (f32 (VOP3PMadMixMods f32:$src0, i32:$src0_modifiers)),
		(f32 (VOP3PMadMixMods f32:$src1, i32:$src1_modifiers))))),
		(v2f16 (mixhi_inst $src0_modifiers, $src0,
		$src1_modifiers, $src1,
		(i32 0), (i32 0),
		DSTCLAMP.NONE,
		VGPR_32:$elt0))
		>;
}		}

let SubtargetPredicate = HasMadMixInsts, OtherPredicates = [NoFP32Denormals] in {		let SubtargetPredicate = HasMadMixInsts, OtherPredicates = [NoFP32Denormals] in {

// These are VOP3a-like opcodes which accept no omod.		// These are VOP3a-like opcodes which accept no omod.
// Size of src arguments (16/32) is controlled by op_sel.		// Size of src arguments (16/32) is controlled by op_sel.
// For 16-bit src arguments their location (hi/lo) are controlled by op_sel_hi.		// For 16-bit src arguments their location (hi/lo) are controlled by op_sel_hi.
let isCommutable = 1, mayRaiseFPException = 0 in {		let isCommutable = 1, mayRaiseFPException = 0 in {
▲ Show 20 Lines • Show All 1,014 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/fdiv.f16.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; Denormal mode shouldn't matter for f16, check with and without flushing.			; Denormal mode shouldn't matter for f16, check with and without flushing.
	; RUN: llc -global-isel -march=amdgcn -mcpu=tahiti -denormal-fp-math=ieee -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX6,GFX6-IEEE %s			; RUN: llc -global-isel -march=amdgcn -mcpu=tahiti -denormal-fp-math=ieee -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX6,GFX6-IEEE %s
	; RUN: llc -global-isel -march=amdgcn -mcpu=tahiti -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX6,GFX6-FLUSH %s			; RUN: llc -global-isel -march=amdgcn -mcpu=tahiti -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX6,GFX6-FLUSH %s

	; RUN: llc -global-isel -march=amdgcn -mcpu=fiji -denormal-fp-math=ieee -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX89,GFX8 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=fiji -denormal-fp-math=ieee -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX89,GFX8,GFX8-IEEE %s
	; RUN: llc -global-isel -march=amdgcn -mcpu=fiji -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX89,GFX8 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=fiji -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX89,GFX8,GFX8-FLUSH %s

	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx900 -denormal-fp-math=ieee -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX89,GFX9 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx900 -denormal-fp-math=ieee -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX89,GFX9,GFX9-IEEE %s
	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx900 -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX89,GFX9 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx900 -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX89,GFX9,GFX9-FLUSH %s

	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 -denormal-fp-math=ieee -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX10 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 -denormal-fp-math=ieee -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX10,GFX10-IEEE %s
	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX10 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX10,GFX10-FLUSH %s

	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1100 -amdgpu-enable-delay-alu=0 -denormal-fp-math=ieee -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX11 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1100 -amdgpu-enable-delay-alu=0 -denormal-fp-math=ieee -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX11,GFX11-IEEE %s
	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1100 -amdgpu-enable-delay-alu=0 -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX11 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1100 -amdgpu-enable-delay-alu=0 -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX11,GFX11-FLUSH %s

	define half @v_fdiv_f16(half %a, half %b) {			define half @v_fdiv_f16(half %a, half %b) {
	; GFX6-IEEE-LABEL: v_fdiv_f16:			; GFX6-IEEE-LABEL: v_fdiv_f16:
	; GFX6-IEEE: ; %bb.0:			; GFX6-IEEE: ; %bb.0:
	; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v0, v0			; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v0, v0
	; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v1, v1			; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v1, v1
	; GFX6-IEEE-NEXT: v_div_scale_f32 v2, s[4:5], v1, v1, v0			; GFX6-IEEE-NEXT: v_div_scale_f32 v2, s[4:5], v1, v1, v0
	Show All 27 Lines
	; GFX6-FLUSH-NEXT: v_fma_f32 v2, -v2, v5, v4			; GFX6-FLUSH-NEXT: v_fma_f32 v2, -v2, v5, v4
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0
	; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v5			; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v5
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v1, v0			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v1, v0
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX89-LABEL: v_fdiv_f16:			; GFX8-LABEL: v_fdiv_f16:
	; GFX89: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX89-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX89-NEXT: v_cvt_f32_f16_e32 v2, v1			; GFX8-NEXT: v_cvt_f32_f16_e32 v2, v1
	; GFX89-NEXT: v_cvt_f32_f16_e32 v3, v0			; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v0
	; GFX89-NEXT: v_rcp_f32_e32 v2, v2			; GFX8-NEXT: v_rcp_f32_e32 v2, v2
	; GFX89-NEXT: v_mul_f32_e32 v2, v3, v2			; GFX8-NEXT: v_mul_f32_e32 v2, v3, v2
	; GFX89-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX8-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX89-NEXT: v_div_fixup_f16 v0, v2, v1, v0			; GFX8-NEXT: v_div_fixup_f16 v0, v2, v1, v0
	; GFX89-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-IEEE-LABEL: v_fdiv_f16:
				; GFX9-IEEE: ; %bb.0:
				; GFX9-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v2, v1
				; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v3, v0
				; GFX9-IEEE-NEXT: v_rcp_f32_e32 v2, v2
				; GFX9-IEEE-NEXT: v_mul_f32_e32 v2, v3, v2
				; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v2, v2
				; GFX9-IEEE-NEXT: v_div_fixup_f16 v0, v2, v1, v0
				; GFX9-IEEE-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-FLUSH-LABEL: v_fdiv_f16:
				; GFX9-FLUSH: ; %bb.0:
				; GFX9-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, v1
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v2, v2
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v2, v0, v2, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v0, v2, v1, v0
				; GFX9-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_fdiv_f16:			; GFX10-LABEL: v_fdiv_f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v0
	; GFX10-NEXT: v_rcp_f32_e32 v2, v2			; GFX10-NEXT: v_rcp_f32_e32 v2, v2
	; GFX10-NEXT: v_mul_f32_e32 v2, v3, v2			; GFX10-NEXT: v_fma_mixlo_f16 v2, v0, v2, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX10-NEXT: v_div_fixup_f16 v0, v2, v1, v0			; GFX10-NEXT: v_div_fixup_f16 v0, v2, v1, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_fdiv_f16:			; GFX11-LABEL: v_fdiv_f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v1			; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v0
	; GFX11-NEXT: v_rcp_f32_e32 v2, v2			; GFX11-NEXT: v_rcp_f32_e32 v2, v2
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v2, v3, v2			; GFX11-NEXT: v_fma_mixlo_f16 v2, v0, v2, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX11-NEXT: v_div_fixup_f16 v0, v2, v1, v0			; GFX11-NEXT: v_div_fixup_f16 v0, v2, v1, v0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv half %a, %b			%fdiv = fdiv half %a, %b
	ret half %fdiv			ret half %fdiv
	}			}

	define half @v_fdiv_f16_afn(half %a, half %b) {			define half @v_fdiv_f16_afn(half %a, half %b) {
	; GFX6-LABEL: v_fdiv_f16_afn:			; GFX6-LABEL: v_fdiv_f16_afn:
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: v_fma_f32 v2, -v2, v5, v4			; GFX6-FLUSH-NEXT: v_fma_f32 v2, -v2, v5, v4
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0
	; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v5			; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v5
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v1, v0			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v1, v0
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX89-LABEL: v_fdiv_f16_ulp25:			; GFX8-LABEL: v_fdiv_f16_ulp25:
	; GFX89: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX89-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX89-NEXT: v_cvt_f32_f16_e32 v2, v1			; GFX8-NEXT: v_cvt_f32_f16_e32 v2, v1
	; GFX89-NEXT: v_cvt_f32_f16_e32 v3, v0			; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v0
	; GFX89-NEXT: v_rcp_f32_e32 v2, v2			; GFX8-NEXT: v_rcp_f32_e32 v2, v2
	; GFX89-NEXT: v_mul_f32_e32 v2, v3, v2			; GFX8-NEXT: v_mul_f32_e32 v2, v3, v2
	; GFX89-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX8-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX89-NEXT: v_div_fixup_f16 v0, v2, v1, v0			; GFX8-NEXT: v_div_fixup_f16 v0, v2, v1, v0
	; GFX89-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-IEEE-LABEL: v_fdiv_f16_ulp25:
				; GFX9-IEEE: ; %bb.0:
				; GFX9-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v2, v1
				; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v3, v0
				; GFX9-IEEE-NEXT: v_rcp_f32_e32 v2, v2
				; GFX9-IEEE-NEXT: v_mul_f32_e32 v2, v3, v2
				; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v2, v2
				; GFX9-IEEE-NEXT: v_div_fixup_f16 v0, v2, v1, v0
				; GFX9-IEEE-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-FLUSH-LABEL: v_fdiv_f16_ulp25:
				; GFX9-FLUSH: ; %bb.0:
				; GFX9-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, v1
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v2, v2
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v2, v0, v2, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v0, v2, v1, v0
				; GFX9-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_fdiv_f16_ulp25:			; GFX10-LABEL: v_fdiv_f16_ulp25:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v0
	; GFX10-NEXT: v_rcp_f32_e32 v2, v2			; GFX10-NEXT: v_rcp_f32_e32 v2, v2
	; GFX10-NEXT: v_mul_f32_e32 v2, v3, v2			; GFX10-NEXT: v_fma_mixlo_f16 v2, v0, v2, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX10-NEXT: v_div_fixup_f16 v0, v2, v1, v0			; GFX10-NEXT: v_div_fixup_f16 v0, v2, v1, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_fdiv_f16_ulp25:			; GFX11-LABEL: v_fdiv_f16_ulp25:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v1			; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v0
	; GFX11-NEXT: v_rcp_f32_e32 v2, v2			; GFX11-NEXT: v_rcp_f32_e32 v2, v2
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v2, v3, v2			; GFX11-NEXT: v_fma_mixlo_f16 v2, v0, v2, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX11-NEXT: v_div_fixup_f16 v0, v2, v1, v0			; GFX11-NEXT: v_div_fixup_f16 v0, v2, v1, v0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv half %a, %b, !fpmath !0			%fdiv = fdiv half %a, %b, !fpmath !0
	ret half %fdiv			ret half %fdiv
	}			}

	define half @v_neg_rcp_f16(half %x) {			define half @v_neg_rcp_f16(half %x) {
	; GFX6-IEEE-LABEL: v_neg_rcp_f16:			; GFX6-IEEE-LABEL: v_neg_rcp_f16:
	▲ Show 20 Lines • Show All 440 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_mul_f32_e32 v5, v7, v5			; GFX8-NEXT: v_mul_f32_e32 v5, v7, v5
	; GFX8-NEXT: v_cvt_f16_f32_e32 v5, v5			; GFX8-NEXT: v_cvt_f16_f32_e32 v5, v5
	; GFX8-NEXT: v_div_fixup_f16 v0, v3, v1, v0			; GFX8-NEXT: v_div_fixup_f16 v0, v3, v1, v0
	; GFX8-NEXT: v_div_fixup_f16 v1, v5, v4, v2			; GFX8-NEXT: v_div_fixup_f16 v1, v5, v4, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_fdiv_v2f16:			; GFX9-IEEE-LABEL: v_fdiv_v2f16:
	; GFX9: ; %bb.0:			; GFX9-IEEE: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 16, v1			; GFX9-IEEE-NEXT: v_lshrrev_b32_e32 v4, 16, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v5, v4			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v5, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX9-IEEE-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v6, v0			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v6, v0
	; GFX9-NEXT: v_rcp_f32_e32 v3, v3			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v3, v3
	; GFX9-NEXT: v_cvt_f32_f16_e32 v7, v2			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v7, v2
	; GFX9-NEXT: v_rcp_f32_e32 v5, v5			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v5, v5
	; GFX9-NEXT: v_mul_f32_e32 v3, v6, v3			; GFX9-IEEE-NEXT: v_mul_f32_e32 v3, v6, v3
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_mul_f32_e32 v5, v7, v5			; GFX9-IEEE-NEXT: v_mul_f32_e32 v5, v7, v5
	; GFX9-NEXT: v_cvt_f16_f32_e32 v5, v5			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v5, v5
	; GFX9-NEXT: v_div_fixup_f16 v0, v3, v1, v0			; GFX9-IEEE-NEXT: v_div_fixup_f16 v0, v3, v1, v0
	; GFX9-NEXT: v_div_fixup_f16 v1, v5, v4, v2			; GFX9-IEEE-NEXT: v_div_fixup_f16 v1, v5, v4, v2
	; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX9-IEEE-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-IEEE-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-FLUSH-LABEL: v_fdiv_v2f16:
				; GFX9-FLUSH: ; %bb.0:
				; GFX9-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, v1
				; GFX9-FLUSH-NEXT: v_lshrrev_b32_e32 v3, 16, v1
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v4, v3
				; GFX9-FLUSH-NEXT: v_lshrrev_b32_e32 v5, 16, v0
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v2, v2
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v4, v4
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v2, v0, v2, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v1, v2, v1, v0
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v0, v0, v4, 0 op_sel:[1,0,0] op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v0, v0, v3, v5
				; GFX9-FLUSH-NEXT: v_pack_b32_f16 v0, v1, v0
				; GFX9-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_fdiv_v2f16:			; GFX10-LABEL: v_fdiv_v2f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v5, 16, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v6, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, v2			; GFX10-NEXT: v_cvt_f32_f16_e32 v4, v2
	; GFX10-NEXT: v_rcp_f32_e32 v3, v3			; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_cvt_f32_f16_e32 v7, v5
	; GFX10-NEXT: v_rcp_f32_e32 v4, v4			; GFX10-NEXT: v_rcp_f32_e32 v4, v4
	; GFX10-NEXT: v_mul_f32_e32 v3, v6, v3			; GFX10-NEXT: v_fma_mixlo_f16 v3, v0, v3, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_mul_f32_e32 v4, v7, v4			; GFX10-NEXT: v_fma_mixlo_f16 v4, v0, v4, 0 op_sel:[1,0,0] op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_cvt_f16_f32_e32 v4, v4
	; GFX10-NEXT: v_div_fixup_f16 v0, v3, v1, v0			; GFX10-NEXT: v_div_fixup_f16 v0, v3, v1, v0
	; GFX10-NEXT: v_div_fixup_f16 v1, v4, v2, v5			; GFX10-NEXT: v_div_fixup_f16 v1, v4, v2, v5
	; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_fdiv_v2f16:			; GFX11-LABEL: v_fdiv_v2f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX11-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v5, 16, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v6, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, v2			; GFX11-NEXT: v_cvt_f32_f16_e32 v4, v2
	; GFX11-NEXT: v_rcp_f32_e32 v3, v3			; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: v_cvt_f32_f16_e32 v7, v5
	; GFX11-NEXT: v_rcp_f32_e32 v4, v4			; GFX11-NEXT: v_rcp_f32_e32 v4, v4
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_dual_mul_f32 v3, v6, v3 :: v_dual_mul_f32 v4, v7, v4			; GFX11-NEXT: v_fma_mixlo_f16 v3, v0, v3, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX11-NEXT: v_fma_mixlo_f16 v4, v0, v4, 0 op_sel:[1,0,0] op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v4, v4
	; GFX11-NEXT: v_div_fixup_f16 v0, v3, v1, v0			; GFX11-NEXT: v_div_fixup_f16 v0, v3, v1, v0
	; GFX11-NEXT: v_div_fixup_f16 v1, v4, v2, v5			; GFX11-NEXT: v_div_fixup_f16 v1, v4, v2, v5
	; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv <2 x half> %a, %b			%fdiv = fdiv <2 x half> %a, %b
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	▲ Show 20 Lines • Show All 147 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_mul_f32_e32 v5, v7, v5			; GFX8-NEXT: v_mul_f32_e32 v5, v7, v5
	; GFX8-NEXT: v_cvt_f16_f32_e32 v5, v5			; GFX8-NEXT: v_cvt_f16_f32_e32 v5, v5
	; GFX8-NEXT: v_div_fixup_f16 v0, v3, v1, v0			; GFX8-NEXT: v_div_fixup_f16 v0, v3, v1, v0
	; GFX8-NEXT: v_div_fixup_f16 v1, v5, v4, v2			; GFX8-NEXT: v_div_fixup_f16 v1, v5, v4, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_fdiv_v2f16_ulp25:			; GFX9-IEEE-LABEL: v_fdiv_v2f16_ulp25:
	; GFX9: ; %bb.0:			; GFX9-IEEE: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 16, v1			; GFX9-IEEE-NEXT: v_lshrrev_b32_e32 v4, 16, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v5, v4			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v5, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX9-IEEE-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v6, v0			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v6, v0
	; GFX9-NEXT: v_rcp_f32_e32 v3, v3			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v3, v3
	; GFX9-NEXT: v_cvt_f32_f16_e32 v7, v2			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v7, v2
	; GFX9-NEXT: v_rcp_f32_e32 v5, v5			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v5, v5
	; GFX9-NEXT: v_mul_f32_e32 v3, v6, v3			; GFX9-IEEE-NEXT: v_mul_f32_e32 v3, v6, v3
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_mul_f32_e32 v5, v7, v5			; GFX9-IEEE-NEXT: v_mul_f32_e32 v5, v7, v5
	; GFX9-NEXT: v_cvt_f16_f32_e32 v5, v5			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v5, v5
	; GFX9-NEXT: v_div_fixup_f16 v0, v3, v1, v0			; GFX9-IEEE-NEXT: v_div_fixup_f16 v0, v3, v1, v0
	; GFX9-NEXT: v_div_fixup_f16 v1, v5, v4, v2			; GFX9-IEEE-NEXT: v_div_fixup_f16 v1, v5, v4, v2
	; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX9-IEEE-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-IEEE-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-FLUSH-LABEL: v_fdiv_v2f16_ulp25:
				; GFX9-FLUSH: ; %bb.0:
				; GFX9-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, v1
				; GFX9-FLUSH-NEXT: v_lshrrev_b32_e32 v3, 16, v1
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v4, v3
				; GFX9-FLUSH-NEXT: v_lshrrev_b32_e32 v5, 16, v0
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v2, v2
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v4, v4
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v2, v0, v2, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v1, v2, v1, v0
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v0, v0, v4, 0 op_sel:[1,0,0] op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v0, v0, v3, v5
				; GFX9-FLUSH-NEXT: v_pack_b32_f16 v0, v1, v0
				; GFX9-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_fdiv_v2f16_ulp25:			; GFX10-LABEL: v_fdiv_v2f16_ulp25:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v5, 16, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v6, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, v2			; GFX10-NEXT: v_cvt_f32_f16_e32 v4, v2
	; GFX10-NEXT: v_rcp_f32_e32 v3, v3			; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_cvt_f32_f16_e32 v7, v5
	; GFX10-NEXT: v_rcp_f32_e32 v4, v4			; GFX10-NEXT: v_rcp_f32_e32 v4, v4
	; GFX10-NEXT: v_mul_f32_e32 v3, v6, v3			; GFX10-NEXT: v_fma_mixlo_f16 v3, v0, v3, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_mul_f32_e32 v4, v7, v4			; GFX10-NEXT: v_fma_mixlo_f16 v4, v0, v4, 0 op_sel:[1,0,0] op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_cvt_f16_f32_e32 v4, v4
	; GFX10-NEXT: v_div_fixup_f16 v0, v3, v1, v0			; GFX10-NEXT: v_div_fixup_f16 v0, v3, v1, v0
	; GFX10-NEXT: v_div_fixup_f16 v1, v4, v2, v5			; GFX10-NEXT: v_div_fixup_f16 v1, v4, v2, v5
	; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_fdiv_v2f16_ulp25:			; GFX11-LABEL: v_fdiv_v2f16_ulp25:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX11-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v5, 16, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v6, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, v2			; GFX11-NEXT: v_cvt_f32_f16_e32 v4, v2
	; GFX11-NEXT: v_rcp_f32_e32 v3, v3			; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: v_cvt_f32_f16_e32 v7, v5
	; GFX11-NEXT: v_rcp_f32_e32 v4, v4			; GFX11-NEXT: v_rcp_f32_e32 v4, v4
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_dual_mul_f32 v3, v6, v3 :: v_dual_mul_f32 v4, v7, v4			; GFX11-NEXT: v_fma_mixlo_f16 v3, v0, v3, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX11-NEXT: v_fma_mixlo_f16 v4, v0, v4, 0 op_sel:[1,0,0] op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v4, v4
	; GFX11-NEXT: v_div_fixup_f16 v0, v3, v1, v0			; GFX11-NEXT: v_div_fixup_f16 v0, v3, v1, v0
	; GFX11-NEXT: v_div_fixup_f16 v1, v4, v2, v5			; GFX11-NEXT: v_div_fixup_f16 v1, v4, v2, v5
	; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv <2 x half> %a, %b, !fpmath !0			%fdiv = fdiv <2 x half> %a, %b, !fpmath !0
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX8-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX8-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0			; GFX8-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX8-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0			; GFX8-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_rcp_v2f16:			; GFX9-IEEE-LABEL: v_rcp_v2f16:
	; GFX9: ; %bb.0:			; GFX9-IEEE: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX9-IEEE-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v1, v0			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v2			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX9-NEXT: v_cvt_f32_f16_e32 v4, 1.0			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX9-NEXT: v_rcp_f32_e32 v1, v1			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v1, v1
	; GFX9-NEXT: v_rcp_f32_e32 v3, v3			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v3, v3
	; GFX9-NEXT: v_mul_f32_e32 v1, v4, v1			; GFX9-IEEE-NEXT: v_mul_f32_e32 v1, v4, v1
	; GFX9-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX9-IEEE-NEXT: v_mul_f32_e32 v3, v4, v3
	; GFX9-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0			; GFX9-IEEE-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX9-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0			; GFX9-IEEE-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0
	; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX9-IEEE-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-IEEE-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-FLUSH-LABEL: v_rcp_v2f16:
				; GFX9-FLUSH: ; %bb.0:
				; GFX9-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, v0
				; GFX9-FLUSH-NEXT: v_lshrrev_b32_e32 v2, 16, v0
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v3, v2
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v1, v1
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v3, v3
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v1, 1.0, v1, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v1, 1.0, v3, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v1, v1, v2, 1.0
				; GFX9-FLUSH-NEXT: v_pack_b32_f16 v0, v0, v1
				; GFX9-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_rcp_v2f16:			; GFX10-LABEL: v_rcp_v2f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v0			; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX10-NEXT: v_rcp_f32_e32 v2, v2			; GFX10-NEXT: v_rcp_f32_e32 v2, v2
	; GFX10-NEXT: v_rcp_f32_e32 v3, v3			; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX10-NEXT: v_fma_mixlo_f16 v2, 1.0, v2, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX10-NEXT: v_fma_mixlo_f16 v3, 1.0, v3, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0			; GFX10-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0
	; GFX10-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0			; GFX10-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0
	; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_rcp_v2f16:			; GFX11-LABEL: v_rcp_v2f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0			; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX11-NEXT: v_rcp_f32_e32 v2, v2			; GFX11-NEXT: v_rcp_f32_e32 v2, v2
	; GFX11-NEXT: v_rcp_f32_e32 v3, v3			; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX11-NEXT: v_fma_mixlo_f16 v2, 1.0, v2, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX11-NEXT: v_fma_mixlo_f16 v3, 1.0, v3, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0			; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0
	; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0			; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0
	; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv <2 x half> <half 1.0, half 1.0>, %x			%fdiv = fdiv <2 x half> <half 1.0, half 1.0>, %x
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX8-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX8-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0			; GFX8-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0
	; GFX8-NEXT: v_div_fixup_f16 v1, v3, v2, -1.0			; GFX8-NEXT: v_div_fixup_f16 v1, v3, v2, -1.0
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_neg_rcp_v2f16:			; GFX9-IEEE-LABEL: v_neg_rcp_v2f16:
	; GFX9: ; %bb.0:			; GFX9-IEEE: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX9-IEEE-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v1, v0			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v2			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX9-NEXT: v_cvt_f32_f16_e32 v4, -1.0			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v4, -1.0
	; GFX9-NEXT: v_rcp_f32_e32 v1, v1			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v1, v1
	; GFX9-NEXT: v_rcp_f32_e32 v3, v3			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v3, v3
	; GFX9-NEXT: v_mul_f32_e32 v1, v4, v1			; GFX9-IEEE-NEXT: v_mul_f32_e32 v1, v4, v1
	; GFX9-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX9-IEEE-NEXT: v_mul_f32_e32 v3, v4, v3
	; GFX9-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0			; GFX9-IEEE-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0
	; GFX9-NEXT: v_div_fixup_f16 v1, v3, v2, -1.0			; GFX9-IEEE-NEXT: v_div_fixup_f16 v1, v3, v2, -1.0
	; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX9-IEEE-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-IEEE-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-FLUSH-LABEL: v_neg_rcp_v2f16:
				; GFX9-FLUSH: ; %bb.0:
				; GFX9-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, v0
				; GFX9-FLUSH-NEXT: v_lshrrev_b32_e32 v2, 16, v0
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v3, v2
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v1, v1
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v3, v3
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v1, -1.0, v1, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v1, -1.0, v3, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v1, v1, v2, -1.0
				; GFX9-FLUSH-NEXT: v_pack_b32_f16 v0, v0, v1
				; GFX9-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_neg_rcp_v2f16:			; GFX10-LABEL: v_neg_rcp_v2f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v0			; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, -1.0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX10-NEXT: v_rcp_f32_e32 v2, v2			; GFX10-NEXT: v_rcp_f32_e32 v2, v2
	; GFX10-NEXT: v_rcp_f32_e32 v3, v3			; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX10-NEXT: v_fma_mixlo_f16 v2, -1.0, v2, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX10-NEXT: v_fma_mixlo_f16 v3, -1.0, v3, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_div_fixup_f16 v0, v2, v0, -1.0			; GFX10-NEXT: v_div_fixup_f16 v0, v2, v0, -1.0
	; GFX10-NEXT: v_div_fixup_f16 v1, v3, v1, -1.0			; GFX10-NEXT: v_div_fixup_f16 v1, v3, v1, -1.0
	; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_neg_rcp_v2f16:			; GFX11-LABEL: v_neg_rcp_v2f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0			; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, -1.0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX11-NEXT: v_rcp_f32_e32 v2, v2			; GFX11-NEXT: v_rcp_f32_e32 v2, v2
	; GFX11-NEXT: v_rcp_f32_e32 v3, v3			; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX11-NEXT: v_fma_mixlo_f16 v2, -1.0, v2, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX11-NEXT: v_fma_mixlo_f16 v3, -1.0, v3, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, -1.0			; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, -1.0
	; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, -1.0			; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, -1.0
	; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv <2 x half> <half -1.0, half -1.0>, %x			%fdiv = fdiv <2 x half> <half -1.0, half -1.0>, %x
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	▲ Show 20 Lines • Show All 93 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX8-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX8-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0			; GFX8-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX8-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0			; GFX8-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_rcp_v2f16_fabs:			; GFX9-IEEE-LABEL: v_rcp_v2f16_fabs:
	; GFX9: ; %bb.0:			; GFX9-IEEE: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_and_b32_e32 v0, 0x7fff7fff, v0			; GFX9-IEEE-NEXT: v_and_b32_e32 v0, 0x7fff7fff, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX9-IEEE-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v1, v0			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v2			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX9-NEXT: v_cvt_f32_f16_e32 v4, 1.0			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX9-NEXT: v_rcp_f32_e32 v1, v1			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v1, v1
	; GFX9-NEXT: v_rcp_f32_e32 v3, v3			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v3, v3
	; GFX9-NEXT: v_mul_f32_e32 v1, v4, v1			; GFX9-IEEE-NEXT: v_mul_f32_e32 v1, v4, v1
	; GFX9-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX9-IEEE-NEXT: v_mul_f32_e32 v3, v4, v3
	; GFX9-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0			; GFX9-IEEE-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX9-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0			; GFX9-IEEE-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0
	; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX9-IEEE-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-IEEE-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-FLUSH-LABEL: v_rcp_v2f16_fabs:
				; GFX9-FLUSH: ; %bb.0:
				; GFX9-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-FLUSH-NEXT: v_and_b32_e32 v0, 0x7fff7fff, v0
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, v0
				; GFX9-FLUSH-NEXT: v_lshrrev_b32_e32 v2, 16, v0
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v3, v2
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v1, v1
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v3, v3
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v1, 1.0, v1, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v1, 1.0, v3, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v1, v1, v2, 1.0
				; GFX9-FLUSH-NEXT: v_pack_b32_f16 v0, v0, v1
				; GFX9-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_rcp_v2f16_fabs:			; GFX10-LABEL: v_rcp_v2f16_fabs:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_and_b32_e32 v0, 0x7fff7fff, v0			; GFX10-NEXT: v_and_b32_e32 v0, 0x7fff7fff, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v0			; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX10-NEXT: v_rcp_f32_e32 v2, v2			; GFX10-NEXT: v_rcp_f32_e32 v2, v2
	; GFX10-NEXT: v_rcp_f32_e32 v3, v3			; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX10-NEXT: v_fma_mixlo_f16 v2, 1.0, v2, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX10-NEXT: v_fma_mixlo_f16 v3, 1.0, v3, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0			; GFX10-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0
	; GFX10-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0			; GFX10-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0
	; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_rcp_v2f16_fabs:			; GFX11-LABEL: v_rcp_v2f16_fabs:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX11-NEXT: v_and_b32_e32 v0, 0x7fff7fff, v0			; GFX11-NEXT: v_and_b32_e32 v0, 0x7fff7fff, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v3, v4, v3
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0			; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX11-NEXT: v_rcp_f32_e32 v2, v2			; GFX11-NEXT: v_rcp_f32_e32 v2, v2
	; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0			; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX11-NEXT: v_fma_mixlo_f16 v2, 1.0, v2, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX11-NEXT: v_fma_mixlo_f16 v3, 1.0, v3, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0			; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0
				; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0
	; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%x.fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %x)			%x.fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %x)
	%fdiv = fdiv <2 x half> <half 1.0, half 1.0>, %x.fabs			%fdiv = fdiv <2 x half> <half 1.0, half 1.0>, %x.fabs
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	define <2 x half> @v_neg_rcp_v2f16_fabs(<2 x half> %x) {			define <2 x half> @v_neg_rcp_v2f16_fabs(<2 x half> %x) {
	▲ Show 20 Lines • Show All 92 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX8-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX8-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0			; GFX8-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0
	; GFX8-NEXT: v_div_fixup_f16 v1, v3, v2, -1.0			; GFX8-NEXT: v_div_fixup_f16 v1, v3, v2, -1.0
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_neg_rcp_v2f16_fabs:			; GFX9-IEEE-LABEL: v_neg_rcp_v2f16_fabs:
	; GFX9: ; %bb.0:			; GFX9-IEEE: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_and_b32_e32 v0, 0x7fff7fff, v0			; GFX9-IEEE-NEXT: v_and_b32_e32 v0, 0x7fff7fff, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX9-IEEE-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v1, v0			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v2			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX9-NEXT: v_cvt_f32_f16_e32 v4, -1.0			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v4, -1.0
	; GFX9-NEXT: v_rcp_f32_e32 v1, v1			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v1, v1
	; GFX9-NEXT: v_rcp_f32_e32 v3, v3			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v3, v3
	; GFX9-NEXT: v_mul_f32_e32 v1, v4, v1			; GFX9-IEEE-NEXT: v_mul_f32_e32 v1, v4, v1
	; GFX9-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX9-IEEE-NEXT: v_mul_f32_e32 v3, v4, v3
	; GFX9-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0			; GFX9-IEEE-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0
	; GFX9-NEXT: v_div_fixup_f16 v1, v3, v2, -1.0			; GFX9-IEEE-NEXT: v_div_fixup_f16 v1, v3, v2, -1.0
	; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX9-IEEE-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-IEEE-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-FLUSH-LABEL: v_neg_rcp_v2f16_fabs:
				; GFX9-FLUSH: ; %bb.0:
				; GFX9-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-FLUSH-NEXT: v_and_b32_e32 v0, 0x7fff7fff, v0
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, v0
				; GFX9-FLUSH-NEXT: v_lshrrev_b32_e32 v2, 16, v0
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v3, v2
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v1, v1
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v3, v3
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v1, -1.0, v1, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v1, -1.0, v3, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v1, v1, v2, -1.0
				; GFX9-FLUSH-NEXT: v_pack_b32_f16 v0, v0, v1
				; GFX9-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_neg_rcp_v2f16_fabs:			; GFX10-LABEL: v_neg_rcp_v2f16_fabs:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_and_b32_e32 v0, 0x7fff7fff, v0			; GFX10-NEXT: v_and_b32_e32 v0, 0x7fff7fff, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, -1.0
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v0			; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX10-NEXT: v_rcp_f32_e32 v2, v2			; GFX10-NEXT: v_rcp_f32_e32 v2, v2
	; GFX10-NEXT: v_rcp_f32_e32 v3, v3			; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX10-NEXT: v_fma_mixlo_f16 v2, -1.0, v2, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX10-NEXT: v_fma_mixlo_f16 v3, -1.0, v3, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_div_fixup_f16 v0, v2, v0, -1.0			; GFX10-NEXT: v_div_fixup_f16 v0, v2, v0, -1.0
	; GFX10-NEXT: v_div_fixup_f16 v1, v3, v1, -1.0			; GFX10-NEXT: v_div_fixup_f16 v1, v3, v1, -1.0
	; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_neg_rcp_v2f16_fabs:			; GFX11-LABEL: v_neg_rcp_v2f16_fabs:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, -1.0
	; GFX11-NEXT: v_and_b32_e32 v0, 0x7fff7fff, v0			; GFX11-NEXT: v_and_b32_e32 v0, 0x7fff7fff, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v3, v4, v3
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0			; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX11-NEXT: v_rcp_f32_e32 v2, v2			; GFX11-NEXT: v_rcp_f32_e32 v2, v2
	; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, -1.0			; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX11-NEXT: v_fma_mixlo_f16 v2, -1.0, v2, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX11-NEXT: v_fma_mixlo_f16 v3, -1.0, v3, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, -1.0			; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, -1.0
				; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, -1.0
	; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%x.fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %x)			%x.fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %x)
	%fdiv = fdiv <2 x half> <half -1.0, half -1.0>, %x.fabs			%fdiv = fdiv <2 x half> <half -1.0, half -1.0>, %x.fabs
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	define <2 x half> @v_rcp_v2f16_arcp(<2 x half> %x) {			define <2 x half> @v_rcp_v2f16_arcp(<2 x half> %x) {
	▲ Show 20 Lines • Show All 259 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX8-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX8-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0			; GFX8-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX8-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0			; GFX8-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_rcp_v2f16_ulp25:			; GFX9-IEEE-LABEL: v_rcp_v2f16_ulp25:
	; GFX9: ; %bb.0:			; GFX9-IEEE: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX9-IEEE-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v1, v0			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v2			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX9-NEXT: v_cvt_f32_f16_e32 v4, 1.0			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX9-NEXT: v_rcp_f32_e32 v1, v1			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v1, v1
	; GFX9-NEXT: v_rcp_f32_e32 v3, v3			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v3, v3
	; GFX9-NEXT: v_mul_f32_e32 v1, v4, v1			; GFX9-IEEE-NEXT: v_mul_f32_e32 v1, v4, v1
	; GFX9-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX9-IEEE-NEXT: v_mul_f32_e32 v3, v4, v3
	; GFX9-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0			; GFX9-IEEE-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX9-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0			; GFX9-IEEE-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0
	; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX9-IEEE-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-IEEE-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-FLUSH-LABEL: v_rcp_v2f16_ulp25:
				; GFX9-FLUSH: ; %bb.0:
				; GFX9-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, v0
				; GFX9-FLUSH-NEXT: v_lshrrev_b32_e32 v2, 16, v0
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v3, v2
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v1, v1
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v3, v3
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v1, 1.0, v1, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v1, 1.0, v3, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v1, v1, v2, 1.0
				; GFX9-FLUSH-NEXT: v_pack_b32_f16 v0, v0, v1
				; GFX9-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_rcp_v2f16_ulp25:			; GFX10-LABEL: v_rcp_v2f16_ulp25:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v0			; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX10-NEXT: v_rcp_f32_e32 v2, v2			; GFX10-NEXT: v_rcp_f32_e32 v2, v2
	; GFX10-NEXT: v_rcp_f32_e32 v3, v3			; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX10-NEXT: v_fma_mixlo_f16 v2, 1.0, v2, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX10-NEXT: v_fma_mixlo_f16 v3, 1.0, v3, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0			; GFX10-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0
	; GFX10-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0			; GFX10-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0
	; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_rcp_v2f16_ulp25:			; GFX11-LABEL: v_rcp_v2f16_ulp25:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0			; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX11-NEXT: v_rcp_f32_e32 v2, v2			; GFX11-NEXT: v_rcp_f32_e32 v2, v2
	; GFX11-NEXT: v_rcp_f32_e32 v3, v3			; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX11-NEXT: v_fma_mixlo_f16 v2, 1.0, v2, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX11-NEXT: v_fma_mixlo_f16 v3, 1.0, v3, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0			; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0
	; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0			; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0
	; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv <2 x half> <half 1.0, half 1.0>, %x, !fpmath !0			%fdiv = fdiv <2 x half> <half 1.0, half 1.0>, %x, !fpmath !0
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	▲ Show 20 Lines • Show All 276 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 4, 2), 0
	; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v5			; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v5
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v1, v0			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v1, v0
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-FLUSH-NEXT: v_readfirstlane_b32 s0, v0			; GFX6-FLUSH-NEXT: v_readfirstlane_b32 s0, v0
	; GFX6-FLUSH-NEXT: ; return to shader part epilog			; GFX6-FLUSH-NEXT: ; return to shader part epilog
	;			;
	; GFX89-LABEL: s_fdiv_f16:			; GFX8-LABEL: s_fdiv_f16:
	; GFX89: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX89-NEXT: v_cvt_f32_f16_e32 v0, s1			; GFX8-NEXT: v_cvt_f32_f16_e32 v0, s1
	; GFX89-NEXT: v_cvt_f32_f16_e32 v1, s0			; GFX8-NEXT: v_cvt_f32_f16_e32 v1, s0
	; GFX89-NEXT: v_rcp_f32_e32 v0, v0			; GFX8-NEXT: v_rcp_f32_e32 v0, v0
	; GFX89-NEXT: v_mul_f32_e32 v0, v1, v0			; GFX8-NEXT: v_mul_f32_e32 v0, v1, v0
	; GFX89-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX8-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX89-NEXT: v_mov_b32_e32 v1, s1			; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX89-NEXT: v_div_fixup_f16 v0, v0, v1, s0			; GFX8-NEXT: v_div_fixup_f16 v0, v0, v1, s0
	; GFX89-NEXT: v_readfirstlane_b32 s0, v0			; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	; GFX89-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
				;
				; GFX9-IEEE-LABEL: s_fdiv_f16:
				; GFX9-IEEE: ; %bb.0:
				; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v0, s1
				; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v1, s0
				; GFX9-IEEE-NEXT: v_rcp_f32_e32 v0, v0
				; GFX9-IEEE-NEXT: v_mul_f32_e32 v0, v1, v0
				; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v0, v0
				; GFX9-IEEE-NEXT: v_mov_b32_e32 v1, s1
				; GFX9-IEEE-NEXT: v_div_fixup_f16 v0, v0, v1, s0
				; GFX9-IEEE-NEXT: v_readfirstlane_b32 s0, v0
				; GFX9-IEEE-NEXT: ; return to shader part epilog
				;
				; GFX9-FLUSH-LABEL: s_fdiv_f16:
				; GFX9-FLUSH: ; %bb.0:
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v0, s1
				; GFX9-FLUSH-NEXT: v_mov_b32_e32 v1, s1
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v0, v0
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v0, s0, v0, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v0, v0, v1, s0
				; GFX9-FLUSH-NEXT: v_readfirstlane_b32 s0, v0
				; GFX9-FLUSH-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: s_fdiv_f16:			; GFX10-LABEL: s_fdiv_f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_cvt_f32_f16_e32 v0, s1			; GFX10-NEXT: v_cvt_f32_f16_e32 v0, s1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v1, s0
	; GFX10-NEXT: v_rcp_f32_e32 v0, v0			; GFX10-NEXT: v_rcp_f32_e32 v0, v0
	; GFX10-NEXT: v_mul_f32_e32 v0, v1, v0			; GFX10-NEXT: v_fma_mixlo_f16 v0, s0, v0, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX10-NEXT: v_div_fixup_f16 v0, v0, s1, s0			; GFX10-NEXT: v_div_fixup_f16 v0, v0, s1, s0
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX11-LABEL: s_fdiv_f16:			; GFX11-LABEL: s_fdiv_f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: v_cvt_f32_f16_e32 v0, s1			; GFX11-NEXT: v_cvt_f32_f16_e32 v0, s1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v1, s0
	; GFX11-NEXT: v_rcp_f32_e32 v0, v0			; GFX11-NEXT: v_rcp_f32_e32 v0, v0
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v0, v1, v0			; GFX11-NEXT: v_fma_mixlo_f16 v0, s0, v0, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX11-NEXT: v_div_fixup_f16 v0, v0, s1, s0			; GFX11-NEXT: v_div_fixup_f16 v0, v0, s1, s0
	; GFX11-NEXT: v_readfirstlane_b32 s0, v0			; GFX11-NEXT: v_readfirstlane_b32 s0, v0
	; GFX11-NEXT: ; return to shader part epilog			; GFX11-NEXT: ; return to shader part epilog
	%a = bitcast i16 %a.arg to half			%a = bitcast i16 %a.arg to half
	%b = bitcast i16 %b.arg to half			%b = bitcast i16 %b.arg to half
	%fdiv = fdiv half %a, %b			%fdiv = fdiv half %a, %b
	%result = bitcast half %fdiv to i16			%result = bitcast half %fdiv to i16
	ret i16 %result			ret i16 %result
	▲ Show 20 Lines • Show All 206 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_div_fixup_f16 v0, v0, v2, s0			; GFX8-NEXT: v_div_fixup_f16 v0, v0, v2, s0
	; GFX8-NEXT: v_mov_b32_e32 v2, s3			; GFX8-NEXT: v_mov_b32_e32 v2, s3
	; GFX8-NEXT: v_div_fixup_f16 v1, v1, v2, s2			; GFX8-NEXT: v_div_fixup_f16 v1, v1, v2, s2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_readfirstlane_b32 s0, v0			; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX9-LABEL: s_fdiv_v2f16:			; GFX9-IEEE-LABEL: s_fdiv_v2f16:
	; GFX9: ; %bb.0:			; GFX9-IEEE: ; %bb.0:
	; GFX9-NEXT: v_cvt_f32_f16_e32 v0, s1			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v0, s1
	; GFX9-NEXT: s_lshr_b32 s3, s1, 16			; GFX9-IEEE-NEXT: s_lshr_b32 s3, s1, 16
	; GFX9-NEXT: v_cvt_f32_f16_e32 v1, s3			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v1, s3
	; GFX9-NEXT: s_lshr_b32 s2, s0, 16			; GFX9-IEEE-NEXT: s_lshr_b32 s2, s0, 16
	; GFX9-NEXT: v_cvt_f32_f16_e32 v2, s0			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v2, s0
	; GFX9-NEXT: v_rcp_f32_e32 v0, v0			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v0, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, s2			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v3, s2
	; GFX9-NEXT: v_rcp_f32_e32 v1, v1			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v1, v1
	; GFX9-NEXT: v_mul_f32_e32 v0, v2, v0			; GFX9-IEEE-NEXT: v_mul_f32_e32 v0, v2, v0
	; GFX9-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, v3, v1			; GFX9-IEEE-NEXT: v_mul_f32_e32 v1, v3, v1
	; GFX9-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX9-NEXT: v_mov_b32_e32 v2, s1			; GFX9-IEEE-NEXT: v_mov_b32_e32 v2, s1
	; GFX9-NEXT: v_div_fixup_f16 v0, v0, v2, s0			; GFX9-IEEE-NEXT: v_div_fixup_f16 v0, v0, v2, s0
	; GFX9-NEXT: v_mov_b32_e32 v2, s3			; GFX9-IEEE-NEXT: v_mov_b32_e32 v2, s3
	; GFX9-NEXT: v_div_fixup_f16 v1, v1, v2, s2			; GFX9-IEEE-NEXT: v_div_fixup_f16 v1, v1, v2, s2
	; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX9-IEEE-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX9-NEXT: v_readfirstlane_b32 s0, v0			; GFX9-IEEE-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-IEEE-NEXT: ; return to shader part epilog
				;
				; GFX9-FLUSH-LABEL: s_fdiv_v2f16:
				; GFX9-FLUSH: ; %bb.0:
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v0, s1
				; GFX9-FLUSH-NEXT: s_lshr_b32 s2, s1, 16
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v1, s2
				; GFX9-FLUSH-NEXT: s_lshr_b32 s3, s0, 16
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v0, v0
				; GFX9-FLUSH-NEXT: v_mov_b32_e32 v2, s1
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v1, v1
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v0, s0, v0, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v0, v0, v2, s0
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v1, s0, v1, 0 op_sel:[1,0,0] op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_mov_b32_e32 v2, s3
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v1, v1, s2, v2
				; GFX9-FLUSH-NEXT: v_pack_b32_f16 v0, v0, v1
				; GFX9-FLUSH-NEXT: v_readfirstlane_b32 s0, v0
				; GFX9-FLUSH-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: s_fdiv_v2f16:			; GFX10-LABEL: s_fdiv_v2f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_lshr_b32 s2, s1, 16			; GFX10-NEXT: s_lshr_b32 s2, s1, 16
	; GFX10-NEXT: v_cvt_f32_f16_e32 v0, s1			; GFX10-NEXT: v_cvt_f32_f16_e32 v0, s1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v1, s2			; GFX10-NEXT: v_cvt_f32_f16_e32 v1, s2
	; GFX10-NEXT: s_lshr_b32 s3, s0, 16			; GFX10-NEXT: s_lshr_b32 s3, s0, 16
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, s0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, s3
	; GFX10-NEXT: v_rcp_f32_e32 v0, v0			; GFX10-NEXT: v_rcp_f32_e32 v0, v0
	; GFX10-NEXT: v_rcp_f32_e32 v1, v1			; GFX10-NEXT: v_rcp_f32_e32 v1, v1
	; GFX10-NEXT: v_mul_f32_e32 v0, v2, v0			; GFX10-NEXT: v_fma_mixlo_f16 v0, s0, v0, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_mul_f32_e32 v1, v3, v1			; GFX10-NEXT: v_fma_mixlo_f16 v1, s0, v1, 0 op_sel:[1,0,0] op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX10-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX10-NEXT: v_div_fixup_f16 v0, v0, s1, s0			; GFX10-NEXT: v_div_fixup_f16 v0, v0, s1, s0
	; GFX10-NEXT: v_div_fixup_f16 v1, v1, s2, s3			; GFX10-NEXT: v_div_fixup_f16 v1, v1, s2, s3
	; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX11-LABEL: s_fdiv_v2f16:			; GFX11-LABEL: s_fdiv_v2f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_lshr_b32 s2, s1, 16			; GFX11-NEXT: s_lshr_b32 s2, s1, 16
	; GFX11-NEXT: v_cvt_f32_f16_e32 v0, s1			; GFX11-NEXT: v_cvt_f32_f16_e32 v0, s1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v1, s2			; GFX11-NEXT: v_cvt_f32_f16_e32 v1, s2
	; GFX11-NEXT: s_lshr_b32 s3, s0, 16			; GFX11-NEXT: s_lshr_b32 s3, s0, 16
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, s0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, s3
	; GFX11-NEXT: v_rcp_f32_e32 v0, v0			; GFX11-NEXT: v_rcp_f32_e32 v0, v0
	; GFX11-NEXT: v_rcp_f32_e32 v1, v1			; GFX11-NEXT: v_rcp_f32_e32 v1, v1
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_dual_mul_f32 v0, v2, v0 :: v_dual_mul_f32 v1, v3, v1			; GFX11-NEXT: v_fma_mixlo_f16 v0, s0, v0, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX11-NEXT: v_fma_mixlo_f16 v1, s0, v1, 0 op_sel:[1,0,0] op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX11-NEXT: v_div_fixup_f16 v0, v0, s1, s0			; GFX11-NEXT: v_div_fixup_f16 v0, v0, s1, s0
	; GFX11-NEXT: v_div_fixup_f16 v1, v1, s2, s3			; GFX11-NEXT: v_div_fixup_f16 v1, v1, s2, s3
	; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: v_readfirstlane_b32 s0, v0			; GFX11-NEXT: v_readfirstlane_b32 s0, v0
	; GFX11-NEXT: ; return to shader part epilog			; GFX11-NEXT: ; return to shader part epilog
	%a = bitcast i32 %a.arg to <2 x half>			%a = bitcast i32 %a.arg to <2 x half>
	%b = bitcast i32 %b.arg to <2 x half>			%b = bitcast i32 %b.arg to <2 x half>
	%fdiv = fdiv <2 x half> %a, %b			%fdiv = fdiv <2 x half> %a, %b
	▲ Show 20 Lines • Show All 312 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX8-NEXT: v_div_fixup_f16 v0, v2, v0, -1.0			; GFX8-NEXT: v_div_fixup_f16 v0, v2, v0, -1.0
	; GFX8-NEXT: v_div_fixup_f16 v1, v3, v1, -1.0			; GFX8-NEXT: v_div_fixup_f16 v1, v3, v1, -1.0
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_readfirstlane_b32 s0, v0			; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX9-LABEL: s_rsq_v2f16:			; GFX9-IEEE-LABEL: s_rsq_v2f16:
	; GFX9: ; %bb.0:			; GFX9-IEEE: ; %bb.0:
	; GFX9-NEXT: v_sqrt_f16_e32 v0, s0			; GFX9-IEEE-NEXT: v_sqrt_f16_e32 v0, s0
	; GFX9-NEXT: s_lshr_b32 s0, s0, 16			; GFX9-IEEE-NEXT: s_lshr_b32 s0, s0, 16
	; GFX9-NEXT: v_sqrt_f16_e32 v1, s0			; GFX9-IEEE-NEXT: v_sqrt_f16_e32 v1, s0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v4, -1.0			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v4, -1.0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v0			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX9-NEXT: v_rcp_f32_e32 v2, v2			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v2, v2
	; GFX9-NEXT: v_rcp_f32_e32 v3, v3			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v3, v3
	; GFX9-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX9-IEEE-NEXT: v_mul_f32_e32 v2, v4, v2
	; GFX9-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX9-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX9-IEEE-NEXT: v_mul_f32_e32 v3, v4, v3
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v0, v2, v0, -1.0			; GFX9-IEEE-NEXT: v_div_fixup_f16 v0, v2, v0, -1.0
	; GFX9-NEXT: v_div_fixup_f16 v1, v3, v1, -1.0			; GFX9-IEEE-NEXT: v_div_fixup_f16 v1, v3, v1, -1.0
	; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX9-IEEE-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX9-NEXT: v_readfirstlane_b32 s0, v0			; GFX9-IEEE-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-IEEE-NEXT: ; return to shader part epilog
				;
				; GFX9-FLUSH-LABEL: s_rsq_v2f16:
				; GFX9-FLUSH: ; %bb.0:
				; GFX9-FLUSH-NEXT: v_sqrt_f16_e32 v0, s0
				; GFX9-FLUSH-NEXT: s_lshr_b32 s0, s0, 16
				; GFX9-FLUSH-NEXT: v_sqrt_f16_e32 v1, s0
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, v0
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v3, v1
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v2, v2
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v3, v3
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v2, -1.0, v2, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v0, v2, v0, -1.0
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v2, -1.0, v3, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v1, v2, v1, -1.0
				; GFX9-FLUSH-NEXT: v_pack_b32_f16 v0, v0, v1
				; GFX9-FLUSH-NEXT: v_readfirstlane_b32 s0, v0
				; GFX9-FLUSH-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: s_rsq_v2f16:			; GFX10-LABEL: s_rsq_v2f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_lshr_b32 s1, s0, 16			; GFX10-NEXT: s_lshr_b32 s1, s0, 16
	; GFX10-NEXT: v_sqrt_f16_e32 v0, s0			; GFX10-NEXT: v_sqrt_f16_e32 v0, s0
	; GFX10-NEXT: v_sqrt_f16_e32 v1, s1			; GFX10-NEXT: v_sqrt_f16_e32 v1, s1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, -1.0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v0			; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX10-NEXT: v_rcp_f32_e32 v2, v2			; GFX10-NEXT: v_rcp_f32_e32 v2, v2
	; GFX10-NEXT: v_rcp_f32_e32 v3, v3			; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX10-NEXT: v_fma_mixlo_f16 v2, -1.0, v2, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX10-NEXT: v_fma_mixlo_f16 v3, -1.0, v3, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_div_fixup_f16 v0, v2, v0, -1.0			; GFX10-NEXT: v_div_fixup_f16 v0, v2, v0, -1.0
	; GFX10-NEXT: v_div_fixup_f16 v1, v3, v1, -1.0			; GFX10-NEXT: v_div_fixup_f16 v1, v3, v1, -1.0
	; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX11-LABEL: s_rsq_v2f16:			; GFX11-LABEL: s_rsq_v2f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_lshr_b32 s1, s0, 16			; GFX11-NEXT: s_lshr_b32 s1, s0, 16
	; GFX11-NEXT: v_sqrt_f16_e32 v0, s0			; GFX11-NEXT: v_sqrt_f16_e32 v0, s0
	; GFX11-NEXT: v_sqrt_f16_e32 v1, s1			; GFX11-NEXT: v_sqrt_f16_e32 v1, s1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, -1.0
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0			; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX11-NEXT: v_rcp_f32_e32 v2, v2			; GFX11-NEXT: v_rcp_f32_e32 v2, v2
	; GFX11-NEXT: v_rcp_f32_e32 v3, v3			; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX11-NEXT: v_fma_mixlo_f16 v2, -1.0, v2, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX11-NEXT: v_fma_mixlo_f16 v3, -1.0, v3, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, -1.0			; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, -1.0
	; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, -1.0			; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, -1.0
	; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: v_readfirstlane_b32 s0, v0			; GFX11-NEXT: v_readfirstlane_b32 s0, v0
	; GFX11-NEXT: ; return to shader part epilog			; GFX11-NEXT: ; return to shader part epilog
	%a = bitcast i32 %a.arg to <2 x half>			%a = bitcast i32 %a.arg to <2 x half>
	%sqrt = call <2 x half> @llvm.sqrt.v2f16(<2 x half> %a)			%sqrt = call <2 x half> @llvm.sqrt.v2f16(<2 x half> %a)
	%fdiv = fdiv <2 x half> <half -1.0, half -1.0>, %sqrt			%fdiv = fdiv <2 x half> <half -1.0, half -1.0>, %sqrt
	▲ Show 20 Lines • Show All 481 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX8-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX8-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX8-NEXT: v_div_fixup_f16 v0, v3, v0, 1.0			; GFX8-NEXT: v_div_fixup_f16 v0, v3, v0, 1.0
	; GFX8-NEXT: v_div_fixup_f16 v1, v2, v1, 1.0			; GFX8-NEXT: v_div_fixup_f16 v1, v2, v1, 1.0
	; GFX8-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX8-NEXT: v_or_b32_e32 v0, v1, v0			; GFX8-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_rsq_v2f16:			; GFX9-IEEE-LABEL: v_rsq_v2f16:
	; GFX9: ; %bb.0:			; GFX9-IEEE: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_sqrt_f16_e32 v1, v0			; GFX9-IEEE-NEXT: v_sqrt_f16_e32 v1, v0
	; GFX9-NEXT: v_sqrt_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-IEEE-NEXT: v_sqrt_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v4, 1.0			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v1			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v2, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v0			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v3, v0
	; GFX9-NEXT: v_rcp_f32_e32 v2, v2			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v2, v2
	; GFX9-NEXT: v_rcp_f32_e32 v3, v3			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v3, v3
	; GFX9-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX9-IEEE-NEXT: v_mul_f32_e32 v2, v4, v2
	; GFX9-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX9-IEEE-NEXT: v_mul_f32_e32 v3, v4, v3
	; GFX9-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v1, v2, v1, 1.0			; GFX9-IEEE-NEXT: v_div_fixup_f16 v1, v2, v1, 1.0
	; GFX9-NEXT: v_div_fixup_f16 v0, v3, v0, 1.0			; GFX9-IEEE-NEXT: v_div_fixup_f16 v0, v3, v0, 1.0
	; GFX9-NEXT: v_pack_b32_f16 v0, v1, v0			; GFX9-IEEE-NEXT: v_pack_b32_f16 v0, v1, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-IEEE-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-FLUSH-LABEL: v_rsq_v2f16:
				; GFX9-FLUSH: ; %bb.0:
				; GFX9-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-FLUSH-NEXT: v_sqrt_f16_e32 v1, v0
				; GFX9-FLUSH-NEXT: v_sqrt_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, v1
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v3, v0
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v2, v2
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v3, v3
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v2, 1.0, v2, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v3, 1.0, v3, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v1, v2, v1, 1.0
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v0, v3, v0, 1.0
				; GFX9-FLUSH-NEXT: v_pack_b32_f16 v0, v1, v0
				; GFX9-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_rsq_v2f16:			; GFX10-LABEL: v_rsq_v2f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_sqrt_f16_e32 v1, v0			; GFX10-NEXT: v_sqrt_f16_e32 v1, v0
	; GFX10-NEXT: v_sqrt_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_sqrt_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v0			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v0
	; GFX10-NEXT: v_rcp_f32_e32 v2, v2			; GFX10-NEXT: v_rcp_f32_e32 v2, v2
	; GFX10-NEXT: v_rcp_f32_e32 v3, v3			; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX10-NEXT: v_fma_mixlo_f16 v2, 1.0, v2, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX10-NEXT: v_fma_mixlo_f16 v3, 1.0, v3, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_div_fixup_f16 v1, v2, v1, 1.0			; GFX10-NEXT: v_div_fixup_f16 v1, v2, v1, 1.0
	; GFX10-NEXT: v_div_fixup_f16 v0, v3, v0, 1.0			; GFX10-NEXT: v_div_fixup_f16 v0, v3, v0, 1.0
	; GFX10-NEXT: v_pack_b32_f16 v0, v1, v0			; GFX10-NEXT: v_pack_b32_f16 v0, v1, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_rsq_v2f16:			; GFX11-LABEL: v_rsq_v2f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX11-NEXT: v_sqrt_f16_e32 v0, v0			; GFX11-NEXT: v_sqrt_f16_e32 v0, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX11-NEXT: v_sqrt_f16_e32 v1, v1			; GFX11-NEXT: v_sqrt_f16_e32 v1, v1
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0			; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX11-NEXT: v_rcp_f32_e32 v2, v2			; GFX11-NEXT: v_rcp_f32_e32 v2, v2
	; GFX11-NEXT: v_rcp_f32_e32 v3, v3			; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX11-NEXT: v_fma_mixlo_f16 v2, 1.0, v2, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX11-NEXT: v_fma_mixlo_f16 v3, 1.0, v3, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0			; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0
	; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0			; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0
	; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%sqrt = call <2 x half> @llvm.sqrt.v2f16(<2 x half> %a)			%sqrt = call <2 x half> @llvm.sqrt.v2f16(<2 x half> %a)
	%fdiv = fdiv <2 x half> <half 1.0, half 1.0>, %sqrt			%fdiv = fdiv <2 x half> <half 1.0, half 1.0>, %sqrt
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}
	▲ Show 20 Lines • Show All 97 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX8-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX8-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX8-NEXT: v_div_fixup_f16 v0, v3, v0, -1.0			; GFX8-NEXT: v_div_fixup_f16 v0, v3, v0, -1.0
	; GFX8-NEXT: v_div_fixup_f16 v1, v2, v1, -1.0			; GFX8-NEXT: v_div_fixup_f16 v1, v2, v1, -1.0
	; GFX8-NEXT: v_lshlrev_b32_e32 v0, 16, v0			; GFX8-NEXT: v_lshlrev_b32_e32 v0, 16, v0
	; GFX8-NEXT: v_or_b32_e32 v0, v1, v0			; GFX8-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_neg_rsq_v2f16:			; GFX9-IEEE-LABEL: v_neg_rsq_v2f16:
	; GFX9: ; %bb.0:			; GFX9-IEEE: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_sqrt_f16_e32 v1, v0			; GFX9-IEEE-NEXT: v_sqrt_f16_e32 v1, v0
	; GFX9-NEXT: v_sqrt_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-IEEE-NEXT: v_sqrt_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v4, -1.0			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v4, -1.0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v1			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v2, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v0			; GFX9-IEEE-NEXT: v_cvt_f32_f16_e32 v3, v0
	; GFX9-NEXT: v_rcp_f32_e32 v2, v2			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v2, v2
	; GFX9-NEXT: v_rcp_f32_e32 v3, v3			; GFX9-IEEE-NEXT: v_rcp_f32_e32 v3, v3
	; GFX9-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX9-IEEE-NEXT: v_mul_f32_e32 v2, v4, v2
	; GFX9-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX9-IEEE-NEXT: v_mul_f32_e32 v3, v4, v3
	; GFX9-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX9-IEEE-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v1, v2, v1, -1.0			; GFX9-IEEE-NEXT: v_div_fixup_f16 v1, v2, v1, -1.0
	; GFX9-NEXT: v_div_fixup_f16 v0, v3, v0, -1.0			; GFX9-IEEE-NEXT: v_div_fixup_f16 v0, v3, v0, -1.0
	; GFX9-NEXT: v_pack_b32_f16 v0, v1, v0			; GFX9-IEEE-NEXT: v_pack_b32_f16 v0, v1, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-IEEE-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-FLUSH-LABEL: v_neg_rsq_v2f16:
				; GFX9-FLUSH: ; %bb.0:
				; GFX9-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-FLUSH-NEXT: v_sqrt_f16_e32 v1, v0
				; GFX9-FLUSH-NEXT: v_sqrt_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v2, v1
				; GFX9-FLUSH-NEXT: v_cvt_f32_f16_e32 v3, v0
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v2, v2
				; GFX9-FLUSH-NEXT: v_rcp_f32_e32 v3, v3
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v2, -1.0, v2, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_mad_mixlo_f16 v3, -1.0, v3, 0 op_sel_hi:[1,0,0]
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v1, v2, v1, -1.0
				; GFX9-FLUSH-NEXT: v_div_fixup_f16 v0, v3, v0, -1.0
				; GFX9-FLUSH-NEXT: v_pack_b32_f16 v0, v1, v0
				; GFX9-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_neg_rsq_v2f16:			; GFX10-LABEL: v_neg_rsq_v2f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_sqrt_f16_e32 v1, v0			; GFX10-NEXT: v_sqrt_f16_e32 v1, v0
	; GFX10-NEXT: v_sqrt_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_sqrt_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, -1.0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v0			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v0
	; GFX10-NEXT: v_rcp_f32_e32 v2, v2			; GFX10-NEXT: v_rcp_f32_e32 v2, v2
	; GFX10-NEXT: v_rcp_f32_e32 v3, v3			; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX10-NEXT: v_fma_mixlo_f16 v2, -1.0, v2, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX10-NEXT: v_fma_mixlo_f16 v3, -1.0, v3, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_div_fixup_f16 v1, v2, v1, -1.0			; GFX10-NEXT: v_div_fixup_f16 v1, v2, v1, -1.0
	; GFX10-NEXT: v_div_fixup_f16 v0, v3, v0, -1.0			; GFX10-NEXT: v_div_fixup_f16 v0, v3, v0, -1.0
	; GFX10-NEXT: v_pack_b32_f16 v0, v1, v0			; GFX10-NEXT: v_pack_b32_f16 v0, v1, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_neg_rsq_v2f16:			; GFX11-LABEL: v_neg_rsq_v2f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX11-NEXT: v_sqrt_f16_e32 v0, v0			; GFX11-NEXT: v_sqrt_f16_e32 v0, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, -1.0
	; GFX11-NEXT: v_sqrt_f16_e32 v1, v1			; GFX11-NEXT: v_sqrt_f16_e32 v1, v1
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0			; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX11-NEXT: v_rcp_f32_e32 v2, v2			; GFX11-NEXT: v_rcp_f32_e32 v2, v2
	; GFX11-NEXT: v_rcp_f32_e32 v3, v3			; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX11-NEXT: v_fma_mixlo_f16 v2, -1.0, v2, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX11-NEXT: v_fma_mixlo_f16 v3, -1.0, v3, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, -1.0			; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, -1.0
	; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, -1.0			; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, -1.0
	; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%sqrt = call <2 x half> @llvm.sqrt.v2f16(<2 x half> %a)			%sqrt = call <2 x half> @llvm.sqrt.v2f16(<2 x half> %a)
	%fdiv = fdiv <2 x half> <half -1.0, half -1.0>, %sqrt			%fdiv = fdiv <2 x half> <half -1.0, half -1.0>, %sqrt
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	declare half @llvm.fabs.f16(half)			declare half @llvm.fabs.f16(half)
	declare half @llvm.sqrt.f16(half)			declare half @llvm.sqrt.f16(half)
	declare <2 x half> @llvm.fabs.v2f16(<2 x half>)			declare <2 x half> @llvm.fabs.v2f16(<2 x half>)
	declare <2 x half> @llvm.sqrt.v2f16(<2 x half>)			declare <2 x half> @llvm.sqrt.v2f16(<2 x half>)

	!0 = !{float 2.500000e+00}			!0 = !{float 2.500000e+00}
				;; NOTE: These prefixes are unused and the list is autogenerated. Do not add tests below this line:
				; GFX10-FLUSH: {{.*}}
				; GFX10-IEEE: {{.*}}
				; GFX11-FLUSH: {{.*}}
				; GFX11-IEEE: {{.*}}
				; GFX8-FLUSH: {{.*}}
				; GFX8-IEEE: {{.*}}

llvm/test/CodeGen/AMDGPU/fdiv.f16.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 3			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 3
	matejamAuthorUnsubmitted Done Reply Inline Actions I guess this was an accident. matejam: I guess this was an accident.
	arsenmUnsubmitted Not Done Reply Inline Actions Conversion of tests to generated checks should be done separate from a functional change arsenm: Conversion of tests to generated checks should be done separate from a functional change
	; RUN: llc -march=amdgcn -mcpu=tahiti -denormal-fp-math-f32=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=SI %s			; RUN: llc -march=amdgcn -mcpu=tahiti -denormal-fp-math-f32=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=SI %s
	; RUN: llc -march=amdgcn -mcpu=fiji -denormal-fp-math-f32=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX8 %s			; RUN: llc -march=amdgcn -mcpu=fiji -denormal-fp-math-f32=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX8 %s
	; RUN: llc -march=amdgcn -mcpu=gfx900 -denormal-fp-math-f32=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX9 %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -denormal-fp-math-f32=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX9 %s
	; RUN: llc -march=amdgcn -mcpu=gfx1010 -denormal-fp-math-f32=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10 %s			; RUN: llc -march=amdgcn -mcpu=gfx1010 -denormal-fp-math-f32=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10 %s
	; RUN: llc -march=amdgcn -mcpu=gfx1100 -denormal-fp-math-f32=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX11 %s			; RUN: llc -march=amdgcn -mcpu=gfx1100 -denormal-fp-math-f32=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX11 %s

	; Make sure fdiv is promoted to f32.			; Make sure fdiv is promoted to f32.

	▲ Show 20 Lines • Show All 67 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 1, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 1, v0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_ushort v1, v0, s[6:7] glc			; GFX9-NEXT: global_load_ushort v1, v0, s[6:7] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_load_ushort v2, v0, s[2:3] glc			; GFX9-NEXT: global_load_ushort v2, v0, s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_cvt_f32_f16_e32 v4, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v2			; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX9-NEXT: v_rcp_f32_e32 v3, v3			; GFX9-NEXT: v_rcp_f32_e32 v3, v3
	; GFX9-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX9-NEXT: v_mad_mixlo_f16 v3, v1, v3, 0 op_sel_hi:[1,0,0]
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v1, v3, v2, v1			; GFX9-NEXT: v_div_fixup_f16 v1, v3, v2, v1
	; GFX9-NEXT: global_store_short v0, v1, s[4:5]			; GFX9-NEXT: global_store_short v0, v1, s[4:5]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: v_fdiv_f16:			; GFX10-LABEL: v_fdiv_f16:
	; GFX10: ; %bb.0: ; %entry			; GFX10: ; %bb.0: ; %entry
	; GFX10-NEXT: s_clause 0x1			; GFX10-NEXT: s_clause 0x1
	; GFX10-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX10-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 1, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 1, v0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: global_load_ushort v1, v0, s[6:7] glc dlc			; GFX10-NEXT: global_load_ushort v1, v0, s[6:7] glc dlc
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: global_load_ushort v2, v0, s[2:3] glc dlc			; GFX10-NEXT: global_load_ushort v2, v0, s[2:3] glc dlc
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, v1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v2			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX10-NEXT: v_rcp_f32_e32 v3, v3			; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX10-NEXT: v_fma_mixlo_f16 v3, v1, v3, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_div_fixup_f16 v1, v3, v2, v1			; GFX10-NEXT: v_div_fixup_f16 v1, v3, v2, v1
	; GFX10-NEXT: global_store_short v0, v1, s[4:5]			; GFX10-NEXT: global_store_short v0, v1, s[4:5]
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: v_fdiv_f16:			; GFX11-LABEL: v_fdiv_f16:
	; GFX11: ; %bb.0: ; %entry			; GFX11: ; %bb.0: ; %entry
	; GFX11-NEXT: s_clause 0x1			; GFX11-NEXT: s_clause 0x1
	; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x24			; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x34			; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
	; GFX11-NEXT: v_lshlrev_b32_e32 v0, 1, v0			; GFX11-NEXT: v_lshlrev_b32_e32 v0, 1, v0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)			; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: global_load_u16 v1, v0, s[6:7] glc dlc			; GFX11-NEXT: global_load_u16 v1, v0, s[6:7] glc dlc
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: global_load_u16 v2, v0, s[0:1] glc dlc			; GFX11-NEXT: global_load_u16 v2, v0, s[0:1] glc dlc
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, v1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v2			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_2) \| instid1(VALU_DEP_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_2) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_rcp_f32_e32 v3, v3			; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX11-NEXT: v_fma_mixlo_f16 v3, v1, v3, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
	; GFX11-NEXT: v_div_fixup_f16 v1, v3, v2, v1			; GFX11-NEXT: v_div_fixup_f16 v1, v3, v2, v1
	; GFX11-NEXT: global_store_b16 v0, v1, s[4:5]			; GFX11-NEXT: global_store_b16 v0, v1, s[4:5]
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	ptr addrspace(1) %r,			ptr addrspace(1) %r,
	ptr addrspace(1) %a,			ptr addrspace(1) %a,
	ptr addrspace(1) %b) #0 {			ptr addrspace(1) %b) #0 {
	entry:			entry:
	▲ Show 20 Lines • Show All 1,189 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/frem.ll

	Show First 20 Lines • Show All 119 Lines • ▼ Show 20 Lines
	; GFX9-LABEL: frem_f16:			; GFX9-LABEL: frem_f16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_ushort v1, v0, s[6:7]			; GFX9-NEXT: global_load_ushort v1, v0, s[6:7]
	; GFX9-NEXT: global_load_ushort v2, v0, s[2:3] offset:8			; GFX9-NEXT: global_load_ushort v2, v0, s[2:3] offset:8
	; GFX9-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_cvt_f32_f16_e32 v4, v2			; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX9-NEXT: v_rcp_f32_e32 v4, v4			; GFX9-NEXT: v_rcp_f32_e32 v3, v3
	; GFX9-NEXT: v_mul_f32_e32 v3, v3, v4			; GFX9-NEXT: v_mad_mixlo_f16 v3, v1, v3, 0 op_sel_hi:[1,0,0]
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v3, v3, v2, v1			; GFX9-NEXT: v_div_fixup_f16 v3, v3, v2, v1
	; GFX9-NEXT: v_trunc_f16_e32 v3, v3			; GFX9-NEXT: v_trunc_f16_e32 v3, v3
	; GFX9-NEXT: v_fma_f16 v1, -v3, v2, v1			; GFX9-NEXT: v_fma_f16 v1, -v3, v2, v1
	; GFX9-NEXT: global_store_short v0, v1, s[4:5]			; GFX9-NEXT: global_store_short v0, v1, s[4:5]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: frem_f16:			; GFX10-LABEL: frem_f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_clause 0x1			; GFX10-NEXT: s_clause 0x1
	; GFX10-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX10-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX10-NEXT: v_mov_b32_e32 v0, 0			; GFX10-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_clause 0x1			; GFX10-NEXT: s_clause 0x1
	; GFX10-NEXT: global_load_ushort v1, v0, s[6:7]			; GFX10-NEXT: global_load_ushort v1, v0, s[6:7]
	; GFX10-NEXT: global_load_ushort v2, v0, s[2:3] offset:8			; GFX10-NEXT: global_load_ushort v2, v0, s[2:3] offset:8
	; GFX10-NEXT: s_waitcnt vmcnt(1)
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, v2			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX10-NEXT: v_rcp_f32_e32 v4, v4			; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_mul_f32_e32 v3, v3, v4			; GFX10-NEXT: v_fma_mixlo_f16 v3, v1, v3, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_div_fixup_f16 v3, v3, v2, v1			; GFX10-NEXT: v_div_fixup_f16 v3, v3, v2, v1
	; GFX10-NEXT: v_trunc_f16_e32 v3, v3			; GFX10-NEXT: v_trunc_f16_e32 v3, v3
	; GFX10-NEXT: v_fma_f16 v1, -v3, v2, v1			; GFX10-NEXT: v_fma_f16 v1, -v3, v2, v1
	; GFX10-NEXT: global_store_short v0, v1, s[4:5]			; GFX10-NEXT: global_store_short v0, v1, s[4:5]
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: frem_f16:			; GFX11-LABEL: frem_f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_clause 0x1			; GFX11-NEXT: s_clause 0x1
	; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x24			; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x34			; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
	; GFX11-NEXT: v_mov_b32_e32 v0, 0			; GFX11-NEXT: v_mov_b32_e32 v0, 0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)			; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_clause 0x1			; GFX11-NEXT: s_clause 0x1
	; GFX11-NEXT: global_load_u16 v1, v0, s[6:7]			; GFX11-NEXT: global_load_u16 v1, v0, s[6:7]
	; GFX11-NEXT: global_load_u16 v2, v0, s[0:1] offset:8			; GFX11-NEXT: global_load_u16 v2, v0, s[0:1] offset:8
	; GFX11-NEXT: s_waitcnt vmcnt(1)
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, v2			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_2) \| instid1(VALU_DEP_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_2) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_rcp_f32_e32 v4, v4			; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v3, v3, v4			; GFX11-NEXT: v_fma_mixlo_f16 v3, v1, v3, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_div_fixup_f16 v3, v3, v2, v1			; GFX11-NEXT: v_div_fixup_f16 v3, v3, v2, v1
				; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_trunc_f16_e32 v3, v3			; GFX11-NEXT: v_trunc_f16_e32 v3, v3
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
	; GFX11-NEXT: v_fma_f16 v1, -v3, v2, v1			; GFX11-NEXT: v_fma_f16 v1, -v3, v2, v1
	; GFX11-NEXT: global_store_b16 v0, v1, s[4:5]			; GFX11-NEXT: global_store_b16 v0, v1, s[4:5]
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	ptr addrspace(1) %in2) #0 {			ptr addrspace(1) %in2) #0 {
	%gep2 = getelementptr half, ptr addrspace(1) %in2, i32 4			%gep2 = getelementptr half, ptr addrspace(1) %in2, i32 4
	%r0 = load half, ptr addrspace(1) %in1, align 4			%r0 = load half, ptr addrspace(1) %in1, align 4
	%r1 = load half, ptr addrspace(1) %gep2, align 4			%r1 = load half, ptr addrspace(1) %gep2, align 4
	▲ Show 20 Lines • Show All 1,548 Lines • ▼ Show 20 Lines
	; GFX9-LABEL: frem_v2f16:			; GFX9-LABEL: frem_v2f16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-NEXT: v_mov_b32_e32 v0, 0			; GFX9-NEXT: v_mov_b32_e32 v0, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v1, v0, s[6:7]			; GFX9-NEXT: global_load_dword v1, v0, s[6:7]
	; GFX9-NEXT: global_load_dword v2, v0, s[2:3] offset:16			; GFX9-NEXT: global_load_dword v2, v0, s[2:3] offset:16
	; GFX9-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_cvt_f32_f16_e32 v4, v2			; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX9-NEXT: v_rcp_f32_e32 v4, v4			; GFX9-NEXT: v_rcp_f32_e32 v3, v3
	; GFX9-NEXT: v_mul_f32_e32 v3, v3, v4			; GFX9-NEXT: v_mad_mixlo_f16 v3, v1, v3, 0 op_sel_hi:[1,0,0]
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v3, v3, v2, v1			; GFX9-NEXT: v_div_fixup_f16 v3, v3, v2, v1
	; GFX9-NEXT: v_trunc_f16_e32 v3, v3			; GFX9-NEXT: v_trunc_f16_e32 v3, v3
	; GFX9-NEXT: v_fma_f16 v3, -v3, v2, v1			; GFX9-NEXT: v_fma_f16 v3, -v3, v2, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_cvt_f32_f16_e32 v5, v2			; GFX9-NEXT: v_cvt_f32_f16_e32 v4, v2
				; GFX9-NEXT: v_rcp_f32_e32 v4, v4
				; GFX9-NEXT: v_mad_mixlo_f16 v4, v1, v4, 0 op_sel:[1,0,0] op_sel_hi:[1,0,0]
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v4, v1
	; GFX9-NEXT: v_rcp_f32_e32 v5, v5
	; GFX9-NEXT: v_mul_f32_e32 v4, v4, v5
	; GFX9-NEXT: v_cvt_f16_f32_e32 v4, v4
	; GFX9-NEXT: v_div_fixup_f16 v4, v4, v2, v1			; GFX9-NEXT: v_div_fixup_f16 v4, v4, v2, v1
	; GFX9-NEXT: v_trunc_f16_e32 v4, v4			; GFX9-NEXT: v_trunc_f16_e32 v4, v4
	; GFX9-NEXT: v_fma_f16 v1, -v4, v2, v1			; GFX9-NEXT: v_fma_f16 v1, -v4, v2, v1
	; GFX9-NEXT: v_pack_b32_f16 v1, v3, v1			; GFX9-NEXT: v_pack_b32_f16 v1, v3, v1
	; GFX9-NEXT: global_store_dword v0, v1, s[4:5]			; GFX9-NEXT: global_store_dword v0, v1, s[4:5]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: frem_v2f16:			; GFX10-LABEL: frem_v2f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_clause 0x1			; GFX10-NEXT: s_clause 0x1
	; GFX10-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX10-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX10-NEXT: v_mov_b32_e32 v0, 0			; GFX10-NEXT: v_mov_b32_e32 v0, 0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_clause 0x1			; GFX10-NEXT: s_clause 0x1
	; GFX10-NEXT: global_load_dword v1, v0, s[6:7]			; GFX10-NEXT: global_load_dword v1, v0, s[6:7]
	; GFX10-NEXT: global_load_dword v2, v0, s[2:3] offset:16			; GFX10-NEXT: global_load_dword v2, v0, s[2:3] offset:16
	; GFX10-NEXT: s_waitcnt vmcnt(1)
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, v2			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX10-NEXT: v_rcp_f32_e32 v4, v4			; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_mul_f32_e32 v3, v3, v4			; GFX10-NEXT: v_fma_mixlo_f16 v3, v1, v3, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_div_fixup_f16 v3, v3, v2, v1			; GFX10-NEXT: v_div_fixup_f16 v3, v3, v2, v1
	; GFX10-NEXT: v_trunc_f16_e32 v3, v3			; GFX10-NEXT: v_trunc_f16_e32 v3, v3
	; GFX10-NEXT: v_fma_f16 v3, -v3, v2, v1			; GFX10-NEXT: v_fma_f16 v3, -v3, v2, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v2
				; GFX10-NEXT: v_cvt_f32_f16_e32 v4, v2
				; GFX10-NEXT: v_rcp_f32_e32 v4, v4
				; GFX10-NEXT: v_fma_mixlo_f16 v4, v1, v4, 0 op_sel:[1,0,0] op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v5, v2
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, v1
	; GFX10-NEXT: v_rcp_f32_e32 v5, v5
	; GFX10-NEXT: v_mul_f32_e32 v4, v4, v5
	; GFX10-NEXT: v_cvt_f16_f32_e32 v4, v4
	; GFX10-NEXT: v_div_fixup_f16 v4, v4, v2, v1			; GFX10-NEXT: v_div_fixup_f16 v4, v4, v2, v1
	; GFX10-NEXT: v_trunc_f16_e32 v4, v4			; GFX10-NEXT: v_trunc_f16_e32 v4, v4
	; GFX10-NEXT: v_fma_f16 v1, -v4, v2, v1			; GFX10-NEXT: v_fma_f16 v1, -v4, v2, v1
	; GFX10-NEXT: v_pack_b32_f16 v1, v3, v1			; GFX10-NEXT: v_pack_b32_f16 v1, v3, v1
	; GFX10-NEXT: global_store_dword v0, v1, s[4:5]			; GFX10-NEXT: global_store_dword v0, v1, s[4:5]
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: frem_v2f16:			; GFX11-LABEL: frem_v2f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_clause 0x1			; GFX11-NEXT: s_clause 0x1
	; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x24			; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x34			; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
	; GFX11-NEXT: v_mov_b32_e32 v0, 0			; GFX11-NEXT: v_mov_b32_e32 v0, 0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)			; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_clause 0x1			; GFX11-NEXT: s_clause 0x1
	; GFX11-NEXT: global_load_b32 v1, v0, s[6:7]			; GFX11-NEXT: global_load_b32 v1, v0, s[6:7]
	; GFX11-NEXT: global_load_b32 v2, v0, s[0:1] offset:16			; GFX11-NEXT: global_load_b32 v2, v0, s[0:1] offset:16
	; GFX11-NEXT: s_waitcnt vmcnt(1)
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, v2			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_2) \| instid1(VALU_DEP_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_2) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_rcp_f32_e32 v4, v4			; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v3, v3, v4			; GFX11-NEXT: v_fma_mixlo_f16 v3, v1, v3, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_div_fixup_f16 v3, v3, v2, v1			; GFX11-NEXT: v_div_fixup_f16 v3, v3, v2, v1
				; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_trunc_f16_e32 v3, v3			; GFX11-NEXT: v_trunc_f16_e32 v3, v3
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_2) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: v_fma_f16 v3, -v3, v2, v1			; GFX11-NEXT: v_fma_f16 v3, -v3, v2, v1
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_cvt_f32_f16_e32 v5, v2			; GFX11-NEXT: v_cvt_f32_f16_e32 v4, v2
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)			; GFX11-NEXT: v_rcp_f32_e32 v4, v4
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, v1
	; GFX11-NEXT: v_rcp_f32_e32 v5, v5
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v4, v4, v5			; GFX11-NEXT: v_fma_mixlo_f16 v4, v1, v4, 0 op_sel:[1,0,0] op_sel_hi:[1,0,0]
				; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_cvt_f16_f32_e32 v4, v4
	; GFX11-NEXT: v_div_fixup_f16 v4, v4, v2, v1			; GFX11-NEXT: v_div_fixup_f16 v4, v4, v2, v1
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_trunc_f16_e32 v4, v4			; GFX11-NEXT: v_trunc_f16_e32 v4, v4
				; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_fma_f16 v1, -v4, v2, v1			; GFX11-NEXT: v_fma_f16 v1, -v4, v2, v1
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1)
	; GFX11-NEXT: v_pack_b32_f16 v1, v3, v1			; GFX11-NEXT: v_pack_b32_f16 v1, v3, v1
	; GFX11-NEXT: global_store_b32 v0, v1, s[4:5]			; GFX11-NEXT: global_store_b32 v0, v1, s[4:5]
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	; GFX11-NEXT: s_endpgm			; GFX11-NEXT: s_endpgm
	ptr addrspace(1) %in2) #0 {			ptr addrspace(1) %in2) #0 {
	%gep2 = getelementptr <2 x half>, ptr addrspace(1) %in2, i32 4			%gep2 = getelementptr <2 x half>, ptr addrspace(1) %in2, i32 4
	%r0 = load <2 x half>, ptr addrspace(1) %in1, align 8			%r0 = load <2 x half>, ptr addrspace(1) %in1, align 8
	%r1 = load <2 x half>, ptr addrspace(1) %gep2, align 8			%r1 = load <2 x half>, ptr addrspace(1) %gep2, align 8
	▲ Show 20 Lines • Show All 272 Lines • ▼ Show 20 Lines
	; GFX9-LABEL: frem_v4f16:			; GFX9-LABEL: frem_v4f16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX9-NEXT: v_mov_b32_e32 v4, 0			; GFX9-NEXT: v_mov_b32_e32 v4, 0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_dwordx2 v[0:1], v4, s[6:7]			; GFX9-NEXT: global_load_dwordx2 v[0:1], v4, s[6:7]
	; GFX9-NEXT: global_load_dwordx2 v[2:3], v4, s[2:3] offset:32			; GFX9-NEXT: global_load_dwordx2 v[2:3], v4, s[2:3] offset:32
	; GFX9-NEXT: s_waitcnt vmcnt(1)
	; GFX9-NEXT: v_cvt_f32_f16_e32 v5, v1
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_cvt_f32_f16_e32 v6, v3			; GFX9-NEXT: v_cvt_f32_f16_e32 v5, v3
	; GFX9-NEXT: v_rcp_f32_e32 v6, v6			; GFX9-NEXT: v_rcp_f32_e32 v5, v5
	; GFX9-NEXT: v_mul_f32_e32 v5, v5, v6			; GFX9-NEXT: v_mad_mixlo_f16 v5, v1, v5, 0 op_sel_hi:[1,0,0]
	; GFX9-NEXT: v_cvt_f16_f32_e32 v5, v5
	; GFX9-NEXT: v_div_fixup_f16 v5, v5, v3, v1			; GFX9-NEXT: v_div_fixup_f16 v5, v5, v3, v1
	; GFX9-NEXT: v_trunc_f16_e32 v5, v5			; GFX9-NEXT: v_trunc_f16_e32 v5, v5
	; GFX9-NEXT: v_fma_f16 v5, -v5, v3, v1			; GFX9-NEXT: v_fma_f16 v5, -v5, v3, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v3, 16, v3			; GFX9-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; GFX9-NEXT: v_cvt_f32_f16_e32 v7, v3			; GFX9-NEXT: v_cvt_f32_f16_e32 v6, v3
				; GFX9-NEXT: v_rcp_f32_e32 v6, v6
				; GFX9-NEXT: v_mad_mixlo_f16 v6, v1, v6, 0 op_sel:[1,0,0] op_sel_hi:[1,0,0]
	; GFX9-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v6, v1
	; GFX9-NEXT: v_rcp_f32_e32 v7, v7
	; GFX9-NEXT: v_mul_f32_e32 v6, v6, v7
	; GFX9-NEXT: v_cvt_f16_f32_e32 v6, v6
	; GFX9-NEXT: v_div_fixup_f16 v6, v6, v3, v1			; GFX9-NEXT: v_div_fixup_f16 v6, v6, v3, v1
	; GFX9-NEXT: v_trunc_f16_e32 v6, v6			; GFX9-NEXT: v_trunc_f16_e32 v6, v6
	; GFX9-NEXT: v_fma_f16 v1, -v6, v3, v1			; GFX9-NEXT: v_fma_f16 v1, -v6, v3, v1
				; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX9-NEXT: v_pack_b32_f16 v1, v5, v1			; GFX9-NEXT: v_pack_b32_f16 v1, v5, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v5, v2			; GFX9-NEXT: v_rcp_f32_e32 v3, v3
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v0			; GFX9-NEXT: v_mad_mixlo_f16 v3, v0, v3, 0 op_sel_hi:[1,0,0]
	; GFX9-NEXT: v_rcp_f32_e32 v5, v5
	; GFX9-NEXT: v_mul_f32_e32 v3, v3, v5
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v3, v3, v2, v0			; GFX9-NEXT: v_div_fixup_f16 v3, v3, v2, v0
	; GFX9-NEXT: v_trunc_f16_e32 v3, v3			; GFX9-NEXT: v_trunc_f16_e32 v3, v3
	; GFX9-NEXT: v_fma_f16 v3, -v3, v2, v0			; GFX9-NEXT: v_fma_f16 v3, -v3, v2, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: v_cvt_f32_f16_e32 v6, v2			; GFX9-NEXT: v_cvt_f32_f16_e32 v5, v2
				; GFX9-NEXT: v_rcp_f32_e32 v5, v5
				; GFX9-NEXT: v_mad_mixlo_f16 v5, v0, v5, 0 op_sel:[1,0,0] op_sel_hi:[1,0,0]
	; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v5, v0
	; GFX9-NEXT: v_rcp_f32_e32 v6, v6
	; GFX9-NEXT: v_mul_f32_e32 v5, v5, v6
	; GFX9-NEXT: v_cvt_f16_f32_e32 v5, v5
	; GFX9-NEXT: v_div_fixup_f16 v5, v5, v2, v0			; GFX9-NEXT: v_div_fixup_f16 v5, v5, v2, v0
	; GFX9-NEXT: v_trunc_f16_e32 v5, v5			; GFX9-NEXT: v_trunc_f16_e32 v5, v5
	; GFX9-NEXT: v_fma_f16 v0, -v5, v2, v0			; GFX9-NEXT: v_fma_f16 v0, -v5, v2, v0
	; GFX9-NEXT: v_pack_b32_f16 v0, v3, v0			; GFX9-NEXT: v_pack_b32_f16 v0, v3, v0
	; GFX9-NEXT: global_store_dwordx2 v4, v[0:1], s[4:5]			; GFX9-NEXT: global_store_dwordx2 v4, v[0:1], s[4:5]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: frem_v4f16:			; GFX10-LABEL: frem_v4f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_clause 0x1			; GFX10-NEXT: s_clause 0x1
	; GFX10-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x24
	; GFX10-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34			; GFX10-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
	; GFX10-NEXT: v_mov_b32_e32 v4, 0			; GFX10-NEXT: v_mov_b32_e32 v4, 0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: s_clause 0x1			; GFX10-NEXT: s_clause 0x1
	; GFX10-NEXT: global_load_dwordx2 v[0:1], v4, s[6:7]			; GFX10-NEXT: global_load_dwordx2 v[0:1], v4, s[6:7]
	; GFX10-NEXT: global_load_dwordx2 v[2:3], v4, s[2:3] offset:32			; GFX10-NEXT: global_load_dwordx2 v[2:3], v4, s[2:3] offset:32
	; GFX10-NEXT: s_waitcnt vmcnt(1)
	; GFX10-NEXT: v_cvt_f32_f16_e32 v5, v1
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_cvt_f32_f16_e32 v6, v3			; GFX10-NEXT: v_cvt_f32_f16_e32 v5, v3
	; GFX10-NEXT: v_rcp_f32_e32 v6, v6			; GFX10-NEXT: v_rcp_f32_e32 v5, v5
	; GFX10-NEXT: v_mul_f32_e32 v5, v5, v6			; GFX10-NEXT: v_fma_mixlo_f16 v5, v1, v5, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_cvt_f16_f32_e32 v5, v5
	; GFX10-NEXT: v_div_fixup_f16 v5, v5, v3, v1			; GFX10-NEXT: v_div_fixup_f16 v5, v5, v3, v1
	; GFX10-NEXT: v_trunc_f16_e32 v5, v5			; GFX10-NEXT: v_trunc_f16_e32 v5, v5
	; GFX10-NEXT: v_fma_f16 v5, -v5, v3, v1			; GFX10-NEXT: v_fma_f16 v5, -v5, v3, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 16, v3			; GFX10-NEXT: v_lshrrev_b32_e32 v3, 16, v3
				; GFX10-NEXT: v_cvt_f32_f16_e32 v6, v3
				; GFX10-NEXT: v_rcp_f32_e32 v6, v6
				; GFX10-NEXT: v_fma_mixlo_f16 v6, v1, v6, 0 op_sel:[1,0,0] op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v7, v3
	; GFX10-NEXT: v_cvt_f32_f16_e32 v6, v1
	; GFX10-NEXT: v_rcp_f32_e32 v7, v7
	; GFX10-NEXT: v_mul_f32_e32 v6, v6, v7
	; GFX10-NEXT: v_cvt_f16_f32_e32 v6, v6
	; GFX10-NEXT: v_div_fixup_f16 v6, v6, v3, v1			; GFX10-NEXT: v_div_fixup_f16 v6, v6, v3, v1
	; GFX10-NEXT: v_trunc_f16_e32 v6, v6			; GFX10-NEXT: v_trunc_f16_e32 v6, v6
	; GFX10-NEXT: v_fma_f16 v1, -v6, v3, v1			; GFX10-NEXT: v_fma_f16 v1, -v6, v3, v1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v0			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX10-NEXT: v_pack_b32_f16 v1, v5, v1			; GFX10-NEXT: v_pack_b32_f16 v1, v5, v1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v5, v2			; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_rcp_f32_e32 v5, v5			; GFX10-NEXT: v_fma_mixlo_f16 v3, v0, v3, 0 op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_mul_f32_e32 v3, v3, v5
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_div_fixup_f16 v3, v3, v2, v0			; GFX10-NEXT: v_div_fixup_f16 v3, v3, v2, v0
	; GFX10-NEXT: v_trunc_f16_e32 v3, v3			; GFX10-NEXT: v_trunc_f16_e32 v3, v3
	; GFX10-NEXT: v_fma_f16 v3, -v3, v2, v0			; GFX10-NEXT: v_fma_f16 v3, -v3, v2, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v2
				; GFX10-NEXT: v_cvt_f32_f16_e32 v5, v2
				; GFX10-NEXT: v_rcp_f32_e32 v5, v5
				; GFX10-NEXT: v_fma_mixlo_f16 v5, v0, v5, 0 op_sel:[1,0,0] op_sel_hi:[1,0,0]
	; GFX10-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v6, v2
	; GFX10-NEXT: v_cvt_f32_f16_e32 v5, v0
	; GFX10-NEXT: v_rcp_f32_e32 v6, v6
	; GFX10-NEXT: v_mul_f32_e32 v5, v5, v6
	; GFX10-NEXT: v_cvt_f16_f32_e32 v5, v5
	; GFX10-NEXT: v_div_fixup_f16 v5, v5, v2, v0			; GFX10-NEXT: v_div_fixup_f16 v5, v5, v2, v0
	; GFX10-NEXT: v_trunc_f16_e32 v5, v5			; GFX10-NEXT: v_trunc_f16_e32 v5, v5
	; GFX10-NEXT: v_fma_f16 v0, -v5, v2, v0			; GFX10-NEXT: v_fma_f16 v0, -v5, v2, v0
	; GFX10-NEXT: v_pack_b32_f16 v0, v3, v0			; GFX10-NEXT: v_pack_b32_f16 v0, v3, v0
	; GFX10-NEXT: global_store_dwordx2 v4, v[0:1], s[4:5]			; GFX10-NEXT: global_store_dwordx2 v4, v[0:1], s[4:5]
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	;			;
	; GFX11-LABEL: frem_v4f16:			; GFX11-LABEL: frem_v4f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_clause 0x1			; GFX11-NEXT: s_clause 0x1
	; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x24			; GFX11-NEXT: s_load_b128 s[4:7], s[0:1], 0x24
	; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x34			; GFX11-NEXT: s_load_b64 s[0:1], s[0:1], 0x34
	; GFX11-NEXT: v_mov_b32_e32 v4, 0			; GFX11-NEXT: v_mov_b32_e32 v4, 0
	; GFX11-NEXT: s_waitcnt lgkmcnt(0)			; GFX11-NEXT: s_waitcnt lgkmcnt(0)
	; GFX11-NEXT: s_clause 0x1			; GFX11-NEXT: s_clause 0x1
	; GFX11-NEXT: global_load_b64 v[0:1], v4, s[6:7]			; GFX11-NEXT: global_load_b64 v[0:1], v4, s[6:7]
	; GFX11-NEXT: global_load_b64 v[2:3], v4, s[0:1] offset:32			; GFX11-NEXT: global_load_b64 v[2:3], v4, s[0:1] offset:32
	; GFX11-NEXT: s_waitcnt vmcnt(1)
	; GFX11-NEXT: v_cvt_f32_f16_e32 v5, v1
	; GFX11-NEXT: s_waitcnt vmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0)
	; GFX11-NEXT: v_cvt_f32_f16_e32 v6, v3			; GFX11-NEXT: v_cvt_f32_f16_e32 v5, v3
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_2) \| instid1(VALU_DEP_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_2) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_rcp_f32_e32 v6, v6			; GFX11-NEXT: v_rcp_f32_e32 v5, v5
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v5, v5, v6			; GFX11-NEXT: v_fma_mixlo_f16 v5, v1, v5, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v5, v5
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_div_fixup_f16 v5, v5, v3, v1			; GFX11-NEXT: v_div_fixup_f16 v5, v5, v3, v1
				; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_trunc_f16_e32 v5, v5			; GFX11-NEXT: v_trunc_f16_e32 v5, v5
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_2) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: v_fma_f16 v5, -v5, v3, v1			; GFX11-NEXT: v_fma_f16 v5, -v5, v3, v1
	; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v3			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v3
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v1			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_cvt_f32_f16_e32 v7, v3			; GFX11-NEXT: v_cvt_f32_f16_e32 v6, v3
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)			; GFX11-NEXT: v_rcp_f32_e32 v6, v6
	; GFX11-NEXT: v_cvt_f32_f16_e32 v6, v1
	; GFX11-NEXT: v_rcp_f32_e32 v7, v7
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v6, v6, v7			; GFX11-NEXT: v_fma_mixlo_f16 v6, v1, v6, 0 op_sel:[1,0,0] op_sel_hi:[1,0,0]
				; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v1
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_cvt_f16_f32_e32 v6, v6
	; GFX11-NEXT: v_div_fixup_f16 v6, v6, v3, v1			; GFX11-NEXT: v_div_fixup_f16 v6, v6, v3, v1
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_trunc_f16_e32 v6, v6			; GFX11-NEXT: v_trunc_f16_e32 v6, v6
				; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
	; GFX11-NEXT: v_fma_f16 v1, -v6, v3, v1			; GFX11-NEXT: v_fma_f16 v1, -v6, v3, v1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v0			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_1) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_pack_b32_f16 v1, v5, v1			; GFX11-NEXT: v_pack_b32_f16 v1, v5, v1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v5, v2			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_2) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_rcp_f32_e32 v5, v5			; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v3, v3, v5			; GFX11-NEXT: v_fma_mixlo_f16 v3, v0, v3, 0 op_sel_hi:[1,0,0]
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX11-NEXT: v_div_fixup_f16 v3, v3, v2, v0			; GFX11-NEXT: v_div_fixup_f16 v3, v3, v2, v0
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_trunc_f16_e32 v3, v3			; GFX11-NEXT: v_trunc_f16_e32 v3, v3
	; GFX11-NEXT: v_fma_f16 v3, -v3, v2, v0			; GFX11-NEXT: v_fma_f16 v3, -v3, v2, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v2			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v2
	; GFX11-NEXT: v_lshrrev_b32_e32 v0, 16, v0			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_2)			; GFX11-NEXT: v_cvt_f32_f16_e32 v5, v2
	; GFX11-NEXT: v_cvt_f32_f16_e32 v6, v2			; GFX11-NEXT: v_rcp_f32_e32 v5, v5
	; GFX11-NEXT: v_cvt_f32_f16_e32 v5, v0
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(SKIP_2) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_rcp_f32_e32 v6, v6
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v5, v5, v6			; GFX11-NEXT: v_fma_mixlo_f16 v5, v0, v5, 0 op_sel:[1,0,0] op_sel_hi:[1,0,0]
	; GFX11-NEXT: v_cvt_f16_f32_e32 v5, v5			; GFX11-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_div_fixup_f16 v5, v5, v2, v0			; GFX11-NEXT: v_div_fixup_f16 v5, v5, v2, v0
	; GFX11-NEXT: v_trunc_f16_e32 v5, v5			; GFX11-NEXT: v_trunc_f16_e32 v5, v5
	; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)			; GFX11-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NEXT: v_fma_f16 v0, -v5, v2, v0			; GFX11-NEXT: v_fma_f16 v0, -v5, v2, v0
	; GFX11-NEXT: v_pack_b32_f16 v0, v3, v0			; GFX11-NEXT: v_pack_b32_f16 v0, v3, v0
	; GFX11-NEXT: global_store_b64 v4, v[0:1], s[4:5]			; GFX11-NEXT: global_store_b64 v4, v[0:1], s[4:5]
	; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)			; GFX11-NEXT: s_sendmsg sendmsg(MSG_DEALLOC_VGPRS)
	▲ Show 20 Lines • Show All 1,140 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/mad-mix-lo.ll

Show First 20 Lines • Show All 2,196 Lines • ▼ Show 20 Lines	; GISEL-CI-NEXT: s_setpc_b64 s[30:31]
%src2.ext = fpext <4 x half> %src2 to <4 x float>		%src2.ext = fpext <4 x half> %src2 to <4 x float>
%result = tail call <4 x float> @llvm.fmuladd.v4f32(<4 x float> %src0.ext, <4 x float> %src1.ext, <4 x float> %src2.ext)		%result = tail call <4 x float> @llvm.fmuladd.v4f32(<4 x float> %src0.ext, <4 x float> %src1.ext, <4 x float> %src2.ext)
%max = call <4 x float> @llvm.maxnum.v4f32(<4 x float> %result, <4 x float> zeroinitializer)		%max = call <4 x float> @llvm.maxnum.v4f32(<4 x float> %result, <4 x float> zeroinitializer)
%clamp = call <4 x float> @llvm.minnum.v4f32(<4 x float> %max, <4 x float> <float 1.0, float 1.0, float 1.0, float 1.0>)		%clamp = call <4 x float> @llvm.minnum.v4f32(<4 x float> %max, <4 x float> <float 1.0, float 1.0, float 1.0, float 1.0>)
%cvt.result = fptrunc <4 x float> %clamp to <4 x half>		%cvt.result = fptrunc <4 x float> %clamp to <4 x half>
ret <4 x half> %cvt.result		ret <4 x half> %cvt.result
}		}

		define half @mixlo_fptrunc(float %a, float %b) #0 {
		arsenmUnsubmitted Not Done Reply Inline Actions Why the struct return? Should pre-commit the baseline tests for any new cases arsenm: Why the struct return? Should pre-commit the baseline tests for any new cases
		; GFX1100-LABEL: mixlo_fptrunc:
		; GFX1100: ; %bb.0: ; %.entry
		; GFX1100-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX1100-NEXT: v_fma_mixlo_f16 v0, v0, v1, 0
		; GFX1100-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX900-LABEL: mixlo_fptrunc:
		; GFX900: ; %bb.0: ; %.entry
		; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX900-NEXT: v_mad_mixlo_f16 v0, v0, v1, 0
		; GFX900-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX906-LABEL: mixlo_fptrunc:
		; GFX906: ; %bb.0: ; %.entry
		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX906-NEXT: v_fma_mixlo_f16 v0, v0, v1, 0
		; GFX906-NEXT: s_setpc_b64 s[30:31]
		;
		; VI-LABEL: mixlo_fptrunc:
		; VI: ; %bb.0: ; %.entry
		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; VI-NEXT: v_mul_f32_e32 v0, v0, v1
		; VI-NEXT: v_cvt_f16_f32_e32 v0, v0
		; VI-NEXT: s_setpc_b64 s[30:31]
		;
		; SDAG-CI-LABEL: mixlo_fptrunc:
		; SDAG-CI: ; %bb.0: ; %.entry
		; SDAG-CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; SDAG-CI-NEXT: v_mul_f32_e32 v0, v0, v1
		; SDAG-CI-NEXT: v_cvt_f16_f32_e32 v0, v0
		; SDAG-CI-NEXT: v_cvt_f32_f16_e32 v0, v0
		; SDAG-CI-NEXT: s_setpc_b64 s[30:31]
		;
		; GISEL-CI-LABEL: mixlo_fptrunc:
		; GISEL-CI: ; %bb.0: ; %.entry
		; GISEL-CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GISEL-CI-NEXT: v_mul_f32_e32 v0, v0, v1
		; GISEL-CI-NEXT: v_cvt_f16_f32_e32 v0, v0
		; GISEL-CI-NEXT: s_setpc_b64 s[30:31]
		.entry:
		%mul = fmul float %a, %b
		arsenmUnsubmitted Not Done Reply Inline Actions Drop unnecessary flags arsenm: Drop unnecessary flags
		%trunc = fptrunc float %mul to half
		ret half %trunc
		}

		define half @mixlo_fptrunc_no_flush(float %a, float %b) {
		; GFX1100-LABEL: mixlo_fptrunc_no_flush:
		; GFX1100: ; %bb.0: ; %.entry
		; GFX1100-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX1100-NEXT: v_fma_mixlo_f16 v0, v0, v1, 0
		; GFX1100-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX900-LABEL: mixlo_fptrunc_no_flush:
		; GFX900: ; %bb.0: ; %.entry
		; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX900-NEXT: v_mul_f32_e32 v0, v0, v1
		arsenmUnsubmitted Done Reply Inline Actions Use named values and drop the flags arsenm: Use named values and drop the flags
		; GFX900-NEXT: v_cvt_f16_f32_e32 v0, v0
		; GFX900-NEXT: s_setpc_b64 s[30:31]
		arsenmUnsubmitted Done Reply Inline Actions The base pattern doesn't include the add. I think tests including the add could be useful, but the base pattern tests should end at the fmul arsenm: The base pattern doesn't include the add. I think tests including the add could be useful, but…
		;
		; GFX906-LABEL: mixlo_fptrunc_no_flush:
		; GFX906: ; %bb.0: ; %.entry
		arsenmUnsubmitted Done Reply Inline Actions Don't need all this casting noise to return a result arsenm: Don't need all this casting noise to return a result
		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		arsenmUnsubmitted Done Reply Inline Actions don't bother with the struct wrapper? arsenm: don't bother with the struct wrapper?
		; GFX906-NEXT: v_fma_mixlo_f16 v0, v0, v1, 0
		; GFX906-NEXT: s_setpc_b64 s[30:31]
		;
		arsenmUnsubmitted Not Done Reply Inline Actions Need tests with source modifiers and multiple uses, plus the permutations with the lo and hi cases. Also denormal flushing on and off Also need all the tests for the other pattern arsenm: Need tests with source modifiers and multiple uses, plus the permutations with the lo and hi…
		matejamAuthorUnsubmitted Done Reply Inline Actions Multiple uses meaning that I should have more instructions which use %mul? Denormal flushing is covered in test/CodeGen/AMDGPU/GlobalISel/fdiv.f16.ll. I will work on v_fma/mad_mixhi combing now. matejam: Multiple uses meaning that I should have more instructions which use %mul? Denormal flushing is…
		; VI-LABEL: mixlo_fptrunc_no_flush:
		; VI: ; %bb.0: ; %.entry
		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; VI-NEXT: v_mul_f32_e32 v0, v0, v1
		; VI-NEXT: v_cvt_f16_f32_e32 v0, v0
		; VI-NEXT: s_setpc_b64 s[30:31]
		;
		; SDAG-CI-LABEL: mixlo_fptrunc_no_flush:
		; SDAG-CI: ; %bb.0: ; %.entry
		; SDAG-CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; SDAG-CI-NEXT: v_mul_f32_e32 v0, v0, v1
		; SDAG-CI-NEXT: v_cvt_f16_f32_e32 v0, v0
		; SDAG-CI-NEXT: v_cvt_f32_f16_e32 v0, v0
		; SDAG-CI-NEXT: s_setpc_b64 s[30:31]
		;
		; GISEL-CI-LABEL: mixlo_fptrunc_no_flush:
		; GISEL-CI: ; %bb.0: ; %.entry
		; GISEL-CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GISEL-CI-NEXT: v_mul_f32_e32 v0, v0, v1
		; GISEL-CI-NEXT: v_cvt_f16_f32_e32 v0, v0
		; GISEL-CI-NEXT: s_setpc_b64 s[30:31]
		.entry:
		%mul = fmul float %a, %b
		arsenmUnsubmitted Not Done Reply Inline Actions Drop unnecessary flags arsenm: Drop unnecessary flags
		%trunc = fptrunc float %mul to half
		arsenmUnsubmitted Not Done Reply Inline Actions Use named values. Also add some multiple use tests arsenm: Use named values. Also add some multiple use tests
		ret half %trunc
		}

		arsenmUnsubmitted Not Done Reply Inline Actions Add tests with source modifier usage arsenm: Add tests with source modifier usage
		define half @mixlo_fptrunc_abs_src_mod(float %a, float %b) #0 {
		; GFX1100-LABEL: mixlo_fptrunc_abs_src_mod:
		; GFX1100: ; %bb.0: ; %.entry
		; GFX1100-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX1100-NEXT: v_fma_mixlo_f16 v0, \|v0\|, v1, 0
		; GFX1100-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX900-LABEL: mixlo_fptrunc_abs_src_mod:
		; GFX900: ; %bb.0: ; %.entry
		; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX900-NEXT: v_mad_mixlo_f16 v0, \|v0\|, v1, 0
		; GFX900-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX906-LABEL: mixlo_fptrunc_abs_src_mod:
		; GFX906: ; %bb.0: ; %.entry
		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX906-NEXT: v_fma_mixlo_f16 v0, \|v0\|, v1, 0
		; GFX906-NEXT: s_setpc_b64 s[30:31]
		;
		; VI-LABEL: mixlo_fptrunc_abs_src_mod:
		; VI: ; %bb.0: ; %.entry
		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; VI-NEXT: v_mul_f32_e64 v0, \|v0\|, v1
		; VI-NEXT: v_cvt_f16_f32_e32 v0, v0
		; VI-NEXT: s_setpc_b64 s[30:31]
		;
		; SDAG-CI-LABEL: mixlo_fptrunc_abs_src_mod:
		; SDAG-CI: ; %bb.0: ; %.entry
		; SDAG-CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; SDAG-CI-NEXT: v_mul_f32_e64 v0, \|v0\|, v1
		; SDAG-CI-NEXT: v_cvt_f16_f32_e32 v0, v0
		; SDAG-CI-NEXT: v_cvt_f32_f16_e32 v0, v0
		; SDAG-CI-NEXT: s_setpc_b64 s[30:31]
		;
		; GISEL-CI-LABEL: mixlo_fptrunc_abs_src_mod:
		; GISEL-CI: ; %bb.0: ; %.entry
		; GISEL-CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GISEL-CI-NEXT: v_mul_f32_e64 v0, \|v0\|, v1
		; GISEL-CI-NEXT: v_cvt_f16_f32_e32 v0, v0
		; GISEL-CI-NEXT: s_setpc_b64 s[30:31]
		.entry:
		%a.fabs = call float @llvm.fabs.f32(float %a)
		arsenmUnsubmitted Not Done Reply Inline Actions fneg one would be good too arsenm: fneg one would be good too
		%mul = fmul float %a.fabs, %b
		%trunc = fptrunc float %mul to half
		ret half %trunc
		}

		define half @mixlo_fptrunc_neg_src_mod(float %a, float %b) #0 {
		; GFX1100-LABEL: mixlo_fptrunc_neg_src_mod:
		; GFX1100: ; %bb.0: ; %.entry
		; GFX1100-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX1100-NEXT: v_fma_mixlo_f16 v0, -v0, v1, 0
		; GFX1100-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX900-LABEL: mixlo_fptrunc_neg_src_mod:
		; GFX900: ; %bb.0: ; %.entry
		; GFX900-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX900-NEXT: v_mad_mixlo_f16 v0, -v0, v1, 0
		; GFX900-NEXT: s_setpc_b64 s[30:31]
		;
		; GFX906-LABEL: mixlo_fptrunc_neg_src_mod:
		; GFX906: ; %bb.0: ; %.entry
		; GFX906-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GFX906-NEXT: v_fma_mixlo_f16 v0, -v0, v1, 0
		; GFX906-NEXT: s_setpc_b64 s[30:31]
		;
		; VI-LABEL: mixlo_fptrunc_neg_src_mod:
		; VI: ; %bb.0: ; %.entry
		; VI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; VI-NEXT: v_mul_f32_e64 v0, -v0, v1
		; VI-NEXT: v_cvt_f16_f32_e32 v0, v0
		; VI-NEXT: s_setpc_b64 s[30:31]
		;
		; SDAG-CI-LABEL: mixlo_fptrunc_neg_src_mod:
		; SDAG-CI: ; %bb.0: ; %.entry
		; SDAG-CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; SDAG-CI-NEXT: v_mul_f32_e64 v0, -v0, v1
		; SDAG-CI-NEXT: v_cvt_f16_f32_e32 v0, v0
		; SDAG-CI-NEXT: v_cvt_f32_f16_e32 v0, v0
		; SDAG-CI-NEXT: s_setpc_b64 s[30:31]
		;
		; GISEL-CI-LABEL: mixlo_fptrunc_neg_src_mod:
		; GISEL-CI: ; %bb.0: ; %.entry
		; GISEL-CI-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
		; GISEL-CI-NEXT: v_mul_f32_e64 v0, -v0, v1
		; GISEL-CI-NEXT: v_cvt_f16_f32_e32 v0, v0
		; GISEL-CI-NEXT: s_setpc_b64 s[30:31]
		.entry:
		%a.fneg = fneg float %a
		%mul = fmul float %a.fneg, %b
		%trunc = fptrunc float %mul to half
		ret half %trunc
		}

		declare float @llvm.fabs.f32(float) #1

declare half @llvm.minnum.f16(half, half) #1		declare half @llvm.minnum.f16(half, half) #1
declare <2 x half> @llvm.minnum.v2f16(<2 x half>, <2 x half>) #1		declare <2 x half> @llvm.minnum.v2f16(<2 x half>, <2 x half>) #1
declare <3 x half> @llvm.minnum.v3f16(<3 x half>, <3 x half>) #1		declare <3 x half> @llvm.minnum.v3f16(<3 x half>, <3 x half>) #1
declare <4 x half> @llvm.minnum.v4f16(<4 x half>, <4 x half>) #1		declare <4 x half> @llvm.minnum.v4f16(<4 x half>, <4 x half>) #1

declare half @llvm.maxnum.f16(half, half) #1		declare half @llvm.maxnum.f16(half, half) #1
declare <2 x half> @llvm.maxnum.v2f16(<2 x half>, <2 x half>) #1		declare <2 x half> @llvm.maxnum.v2f16(<2 x half>, <2 x half>) #1
declare <3 x half> @llvm.maxnum.v3f16(<3 x half>, <3 x half>) #1		declare <3 x half> @llvm.maxnum.v3f16(<3 x half>, <3 x half>) #1
Show All 19 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Use V_FMA_MIX* more often
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 540043

llvm/lib/Target/AMDGPU/VOP3PInstructions.td

llvm/test/CodeGen/AMDGPU/GlobalISel/fdiv.f16.ll

llvm/test/CodeGen/AMDGPU/fdiv.f16.ll

llvm/test/CodeGen/AMDGPU/frem.ll

llvm/test/CodeGen/AMDGPU/mad-mix-lo.ll

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Use V_FMA_MIX* more oftenClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 540043

llvm/lib/Target/AMDGPU/VOP3PInstructions.td

llvm/test/CodeGen/AMDGPU/GlobalISel/fdiv.f16.ll

llvm/test/CodeGen/AMDGPU/fdiv.f16.ll

llvm/test/CodeGen/AMDGPU/frem.ll

llvm/test/CodeGen/AMDGPU/mad-mix-lo.ll

[AMDGPU] Use V_FMA_MIX* more often
ClosedPublic