Diff 464270

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 10,182 Lines • ▼ Show 20 Lines	if (mi_match(Reg, MRI, MIPatternMatch::m_GFCstOrSplat(FCR))) {
return !FCR->Value.isDenormal() \|\|		return !FCR->Value.isDenormal() \|\|
denormalsEnabledForType(MRI.getType(FCR->VReg), MF);		denormalsEnabledForType(MRI.getType(FCR->VReg), MF);
}		}

if (MaxDepth == 0)		if (MaxDepth == 0)
return false;		return false;

switch (Opcode) {		switch (Opcode) {
		case AMDGPU::G_FADD:
		case AMDGPU::G_FSUB:
		case AMDGPU::G_FMUL:
		case AMDGPU::G_FCEIL:
		case AMDGPU::G_FFLOOR:
		arsenmUnsubmitted Done Reply Inline Actions G_FRINT, G_NEARBYINT, G_INTRINSIC_FPTRUNC_ROUND, G_INTRINSIC_TRUNC, G_INTRINSIC_ROUNDEVEN, arsenm: G_FRINT, G_NEARBYINT, G_INTRINSIC_FPTRUNC_ROUND, G_INTRINSIC_TRUNC, G_INTRINSIC_ROUNDEVEN,
		case AMDGPU::G_FRINT:
		case AMDGPU::G_FNEARBYINT:
		case AMDGPU::G_INTRINSIC_FPTRUNC_ROUND:
		case AMDGPU::G_INTRINSIC_TRUNC:
		case AMDGPU::G_INTRINSIC_ROUNDEVEN:
		case AMDGPU::G_FMA:
		case AMDGPU::G_FMAD:
		foadUnsubmitted Done Reply Inline Actions It seems wrong for FNEG to fall into the "supportsMinMaxDenormModes" check below. foad: It seems wrong for FNEG to fall into the "supportsMinMaxDenormModes" check below.
		Pierre-vhAuthorUnsubmitted Done Reply Inline Actions Indeed it was. Fixed it and also added the remaining unary operations while I was at it. Pierre-vh: Indeed it was. Fixed it and also added the remaining unary operations while I was at it.
		case AMDGPU::G_FSQRT:
		case AMDGPU::G_FDIV:
		case AMDGPU::G_FREM:
		case AMDGPU::G_FPOW:
		case AMDGPU::G_FPEXT:
		case AMDGPU::G_FLOG:
		case AMDGPU::G_FLOG2:
		case AMDGPU::G_FLOG10:
		case AMDGPU::G_FPTRUNC:
		case AMDGPU::G_AMDGPU_RCP_IFLAG:
		case AMDGPU::G_AMDGPU_CVT_F32_UBYTE0:
		case AMDGPU::G_AMDGPU_CVT_F32_UBYTE1:
		case AMDGPU::G_AMDGPU_CVT_F32_UBYTE2:
		case AMDGPU::G_AMDGPU_CVT_F32_UBYTE3:
		return true;
		case AMDGPU::G_FNEG:
		case AMDGPU::G_FABS:
		case AMDGPU::G_FCOPYSIGN:
		return isCanonicalized(MI->getOperand(1).getReg(), MF, MaxDepth - 1);
		case AMDGPU::G_FMINNUM:
		case AMDGPU::G_FMAXNUM:
case AMDGPU::G_FMINNUM_IEEE:		case AMDGPU::G_FMINNUM_IEEE:
case AMDGPU::G_FMAXNUM_IEEE: {		case AMDGPU::G_FMAXNUM_IEEE: {
		arsenmUnsubmitted Done Reply Inline Actions Also should handle G_FMINNUM/G_FMAXNUM. Also, we should really stop ascribing target instruction behavior to the generic opcodes. This is a separate patch though since this is a big mess arsenm: Also should handle G_FMINNUM/G_FMAXNUM. Also, we should really stop ascribing target…
if (Subtarget->supportsMinMaxDenormModes() \|\|		if (Subtarget->supportsMinMaxDenormModes() \|\|
denormalsEnabledForType(MRI.getType(Reg), MF))		denormalsEnabledForType(MRI.getType(Reg), MF))
return true;		return true;

		[[fallthrough]];
		}
		case AMDGPU::G_BUILD_VECTOR:
for (const MachineOperand &MO : llvm::drop_begin(MI->operands()))		for (const MachineOperand &MO : llvm::drop_begin(MI->operands()))
if (!isCanonicalized(MO.getReg(), MF, MaxDepth - 1))		if (!isCanonicalized(MO.getReg(), MF, MaxDepth - 1))
return false;		return false;
return true;		return true;
		case AMDGPU::G_INTRINSIC:
		switch (MI->getIntrinsicID()) {
		case Intrinsic::amdgcn_fmul_legacy:
		case Intrinsic::amdgcn_fmad_ftz:
		case Intrinsic::amdgcn_sqrt:
		case Intrinsic::amdgcn_fmed3:
		case Intrinsic::amdgcn_sin:
		case Intrinsic::amdgcn_cos:
		case Intrinsic::amdgcn_log_clamp:
		arsenmUnsubmitted Done Reply Inline Actions amdgcn_sqrt, fmed3, fmad_ftz, sin, cos, log, log_clamp arsenm: amdgcn_sqrt, fmed3, fmad_ftz, sin, cos, log, log_clamp
		Pierre-vhAuthorUnsubmitted Done Reply Inline Actions fmad_ftz was already there, log doesn't seem to exit as an intrinsic but it's an instruction so I it + the variants: case AMDGPU::G_FLOG: case AMDGPU::G_FLOG2: case AMDGPU::G_FLOG10: Pierre-vh: fmad_ftz was already there, log doesn't seem to exit as an intrinsic but it's an instruction so…
		case Intrinsic::amdgcn_rcp:
		case Intrinsic::amdgcn_rcp_legacy:
		case Intrinsic::amdgcn_rsq:
		case Intrinsic::amdgcn_rsq_clamp:
		case Intrinsic::amdgcn_rsq_legacy:
		case Intrinsic::amdgcn_div_scale:
		case Intrinsic::amdgcn_div_fmas:
		case Intrinsic::amdgcn_div_fixup:
		arsenmUnsubmitted Done Reply Inline Actions cubema, cubesc, cubetc? arsenm: cubema, cubesc, cubetc?
		case Intrinsic::amdgcn_fract:
		case Intrinsic::amdgcn_ldexp:
		case Intrinsic::amdgcn_cvt_pkrtz:
		case Intrinsic::amdgcn_cubeid:
		case Intrinsic::amdgcn_cubema:
		case Intrinsic::amdgcn_cubesc:
		case Intrinsic::amdgcn_cubetc:
		arsenmUnsubmitted Done Reply Inline Actions Should do separately and also introduce for the DAG path, but we're missing some of the newer operations like _amdgcn_cvt_f32_bf8 arsenm: Should do separately and also introduce for the DAG path, but we're missing some of the newer…
		case Intrinsic::amdgcn_frexp_mant:
		case Intrinsic::amdgcn_fdot2:
		case Intrinsic::amdgcn_trig_preop:
		return true;
		default:
		break;
}		}

		[[fallthrough]];
default:		default:
return denormalsEnabledForType(MRI.getType(Reg), MF) &&		return false;
		arsenmUnsubmitted Not Done Reply Inline Actions I just realized this is broken since it was copied from the DAG with FP value types. In another patch can you explicitly handle the custom intrinsics? Plus this isn't handling some of the less common generic opcodes, like all the different rounding functions arsenm: I just realized this is broken since it was copied from the DAG with FP value types. In another…
		arsenmUnsubmitted Done Reply Inline Actions Should default to return false arsenm: Should default to return false
isKnownNeverSNaN(Reg, MRI);
}		}

llvm_unreachable("invalid operation");		llvm_unreachable("invalid operation");
}		}

// Constant fold canonicalize.		// Constant fold canonicalize.
SDValue SITargetLowering::getCanonicalConstantFP(		SDValue SITargetLowering::getCanonicalConstantFP(
SelectionDAG &DAG, const SDLoc &SL, EVT VT, const APFloat &C) const {		SelectionDAG &DAG, const SDLoc &SL, EVT VT, const APFloat &C) const {
▲ Show 20 Lines • Show All 2,787 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-sub-mul.ll

	Show First 20 Lines • Show All 467 Lines • ▼ Show 20 Lines
	; GFX9-DENORM: ; %bb.0: ; %.entry			; GFX9-DENORM: ; %bb.0: ; %.entry
	; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2			; GFX9-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2
	; GFX9-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3			; GFX9-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3
	; GFX9-DENORM-NEXT: v_sub_f16_e32 v2, v0, v4			; GFX9-DENORM-NEXT: v_sub_f16_e32 v2, v0, v4
	; GFX9-DENORM-NEXT: v_sub_f16_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX9-DENORM-NEXT: v_sub_f16_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX9-DENORM-NEXT: v_sub_f16_e32 v3, v1, v5			; GFX9-DENORM-NEXT: v_sub_f16_e32 v3, v1, v5
	; GFX9-DENORM-NEXT: v_sub_f16_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX9-DENORM-NEXT: v_sub_f16_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX9-DENORM-NEXT: v_lshl_or_b32 v0, v0, 16, v2			; GFX9-DENORM-NEXT: v_pack_b32_f16 v0, v2, v0
	; GFX9-DENORM-NEXT: v_lshl_or_b32 v1, v1, 16, v3			; GFX9-DENORM-NEXT: v_pack_b32_f16 v1, v3, v1
	; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]			; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: test_v4f16_sub_mul:			; GFX10-LABEL: test_v4f16_sub_mul:
	; GFX10: ; %bb.0: ; %.entry			; GFX10: ; %bb.0: ; %.entry
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_pk_mul_f16 v0, v0, v2			; GFX10-NEXT: v_pk_mul_f16 v0, v0, v2
	; GFX10-NEXT: v_pk_mul_f16 v1, v1, v3			; GFX10-NEXT: v_pk_mul_f16 v1, v1, v3
	Show All 15 Lines
	;			;
	; GFX10-DENORM-LABEL: test_v4f16_sub_mul:			; GFX10-DENORM-LABEL: test_v4f16_sub_mul:
	; GFX10-DENORM: ; %bb.0: ; %.entry			; GFX10-DENORM: ; %bb.0: ; %.entry
	; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2			; GFX10-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2
	; GFX10-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3			; GFX10-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3
	; GFX10-DENORM-NEXT: v_sub_f16_e32 v2, v0, v4			; GFX10-DENORM-NEXT: v_sub_f16_e32 v2, v0, v4
	; GFX10-DENORM-NEXT: v_sub_f16_e32 v3, v1, v5
	; GFX10-DENORM-NEXT: v_sub_f16_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX10-DENORM-NEXT: v_sub_f16_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX10-DENORM-NEXT: v_sub_f16_e32 v3, v1, v5
	; GFX10-DENORM-NEXT: v_sub_f16_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX10-DENORM-NEXT: v_sub_f16_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX10-DENORM-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX10-DENORM-NEXT: v_pack_b32_f16 v0, v2, v0
	; GFX10-DENORM-NEXT: v_and_b32_e32 v3, 0xffff, v3			; GFX10-DENORM-NEXT: v_pack_b32_f16 v1, v3, v1
	; GFX10-DENORM-NEXT: v_lshl_or_b32 v0, v0, 16, v2
	; GFX10-DENORM-NEXT: v_lshl_or_b32 v1, v1, 16, v3
	; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]			; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]
	.entry:			.entry:
	%a = fmul <4 x half> %x, %y			%a = fmul <4 x half> %x, %y
	%b = fsub <4 x half> %a, %z			%b = fsub <4 x half> %a, %z
	ret <4 x half> %b			ret <4 x half> %b
	}			}

	define <4 x half> @test_v4f16_sub_mul_rhs(<4 x half> %x, <4 x half> %y, <4 x half> %z) {			define <4 x half> @test_v4f16_sub_mul_rhs(<4 x half> %x, <4 x half> %y, <4 x half> %z) {
	Show All 21 Lines
	; GFX9-DENORM: ; %bb.0: ; %.entry			; GFX9-DENORM: ; %bb.0: ; %.entry
	; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2			; GFX9-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2
	; GFX9-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3			; GFX9-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3
	; GFX9-DENORM-NEXT: v_sub_f16_e32 v2, v4, v0			; GFX9-DENORM-NEXT: v_sub_f16_e32 v2, v4, v0
	; GFX9-DENORM-NEXT: v_sub_f16_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX9-DENORM-NEXT: v_sub_f16_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX9-DENORM-NEXT: v_sub_f16_e32 v3, v5, v1			; GFX9-DENORM-NEXT: v_sub_f16_e32 v3, v5, v1
	; GFX9-DENORM-NEXT: v_sub_f16_sdwa v1, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX9-DENORM-NEXT: v_sub_f16_sdwa v1, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX9-DENORM-NEXT: v_lshl_or_b32 v0, v0, 16, v2			; GFX9-DENORM-NEXT: v_pack_b32_f16 v0, v2, v0
	; GFX9-DENORM-NEXT: v_lshl_or_b32 v1, v1, 16, v3			; GFX9-DENORM-NEXT: v_pack_b32_f16 v1, v3, v1
	; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]			; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: test_v4f16_sub_mul_rhs:			; GFX10-LABEL: test_v4f16_sub_mul_rhs:
	; GFX10: ; %bb.0: ; %.entry			; GFX10: ; %bb.0: ; %.entry
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_pk_mul_f16 v0, v0, v2			; GFX10-NEXT: v_pk_mul_f16 v0, v0, v2
	; GFX10-NEXT: v_pk_mul_f16 v1, v1, v3			; GFX10-NEXT: v_pk_mul_f16 v1, v1, v3
	Show All 15 Lines
	;			;
	; GFX10-DENORM-LABEL: test_v4f16_sub_mul_rhs:			; GFX10-DENORM-LABEL: test_v4f16_sub_mul_rhs:
	; GFX10-DENORM: ; %bb.0: ; %.entry			; GFX10-DENORM: ; %bb.0: ; %.entry
	; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2			; GFX10-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2
	; GFX10-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3			; GFX10-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3
	; GFX10-DENORM-NEXT: v_sub_f16_e32 v2, v4, v0			; GFX10-DENORM-NEXT: v_sub_f16_e32 v2, v4, v0
	; GFX10-DENORM-NEXT: v_sub_f16_e32 v3, v5, v1
	; GFX10-DENORM-NEXT: v_sub_f16_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX10-DENORM-NEXT: v_sub_f16_sdwa v0, v4, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX10-DENORM-NEXT: v_sub_f16_e32 v3, v5, v1
	; GFX10-DENORM-NEXT: v_sub_f16_sdwa v1, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX10-DENORM-NEXT: v_sub_f16_sdwa v1, v5, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX10-DENORM-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX10-DENORM-NEXT: v_pack_b32_f16 v0, v2, v0
	; GFX10-DENORM-NEXT: v_and_b32_e32 v3, 0xffff, v3			; GFX10-DENORM-NEXT: v_pack_b32_f16 v1, v3, v1
	; GFX10-DENORM-NEXT: v_lshl_or_b32 v0, v0, 16, v2
	; GFX10-DENORM-NEXT: v_lshl_or_b32 v1, v1, 16, v3
	; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]			; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]
	.entry:			.entry:
	%a = fmul <4 x half> %x, %y			%a = fmul <4 x half> %x, %y
	%b = fsub <4 x half> %z, %a			%b = fsub <4 x half> %z, %a
	ret <4 x half> %b			ret <4 x half> %b
	}			}

	define <4 x double> @test_v4f64_sub_mul(<4 x double> %x, <4 x double> %y, <4 x double> %z) {			define <4 x double> @test_v4f64_sub_mul(<4 x double> %x, <4 x double> %y, <4 x double> %z) {
	▲ Show 20 Lines • Show All 156 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-sub-neg-mul.ll

	Show First 20 Lines • Show All 255 Lines • ▼ Show 20 Lines
	; GFX9-DENORM: ; %bb.0: ; %entry			; GFX9-DENORM: ; %bb.0: ; %entry
	; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2 neg_lo:[0,1] neg_hi:[0,1]			; GFX9-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2 neg_lo:[0,1] neg_hi:[0,1]
	; GFX9-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3 neg_lo:[0,1] neg_hi:[0,1]			; GFX9-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3 neg_lo:[0,1] neg_hi:[0,1]
	; GFX9-DENORM-NEXT: v_sub_f16_e32 v2, v0, v4			; GFX9-DENORM-NEXT: v_sub_f16_e32 v2, v0, v4
	; GFX9-DENORM-NEXT: v_sub_f16_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX9-DENORM-NEXT: v_sub_f16_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX9-DENORM-NEXT: v_sub_f16_e32 v3, v1, v5			; GFX9-DENORM-NEXT: v_sub_f16_e32 v3, v1, v5
	; GFX9-DENORM-NEXT: v_sub_f16_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX9-DENORM-NEXT: v_sub_f16_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX9-DENORM-NEXT: v_lshl_or_b32 v0, v0, 16, v2			; GFX9-DENORM-NEXT: v_pack_b32_f16 v0, v2, v0
	; GFX9-DENORM-NEXT: v_lshl_or_b32 v1, v1, 16, v3			; GFX9-DENORM-NEXT: v_pack_b32_f16 v1, v3, v1
	; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]			; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: test_v4f16_sub_ext_neg_mul:			; GFX10-LABEL: test_v4f16_sub_ext_neg_mul:
	; GFX10: ; %bb.0: ; %entry			; GFX10: ; %bb.0: ; %entry
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_pk_mul_f16 v0, v0, v2 neg_lo:[0,1] neg_hi:[0,1]			; GFX10-NEXT: v_pk_mul_f16 v0, v0, v2 neg_lo:[0,1] neg_hi:[0,1]
	; GFX10-NEXT: v_pk_mul_f16 v1, v1, v3 neg_lo:[0,1] neg_hi:[0,1]			; GFX10-NEXT: v_pk_mul_f16 v1, v1, v3 neg_lo:[0,1] neg_hi:[0,1]
	Show All 15 Lines
	;			;
	; GFX10-DENORM-LABEL: test_v4f16_sub_ext_neg_mul:			; GFX10-DENORM-LABEL: test_v4f16_sub_ext_neg_mul:
	; GFX10-DENORM: ; %bb.0: ; %entry			; GFX10-DENORM: ; %bb.0: ; %entry
	; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2 neg_lo:[0,1] neg_hi:[0,1]			; GFX10-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2 neg_lo:[0,1] neg_hi:[0,1]
	; GFX10-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3 neg_lo:[0,1] neg_hi:[0,1]			; GFX10-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3 neg_lo:[0,1] neg_hi:[0,1]
	; GFX10-DENORM-NEXT: v_sub_f16_e32 v2, v0, v4			; GFX10-DENORM-NEXT: v_sub_f16_e32 v2, v0, v4
	; GFX10-DENORM-NEXT: v_sub_f16_e32 v3, v1, v5
	; GFX10-DENORM-NEXT: v_sub_f16_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX10-DENORM-NEXT: v_sub_f16_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX10-DENORM-NEXT: v_sub_f16_e32 v3, v1, v5
	; GFX10-DENORM-NEXT: v_sub_f16_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; GFX10-DENORM-NEXT: v_sub_f16_sdwa v1, v1, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; GFX10-DENORM-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX10-DENORM-NEXT: v_pack_b32_f16 v0, v2, v0
	; GFX10-DENORM-NEXT: v_and_b32_e32 v3, 0xffff, v3			; GFX10-DENORM-NEXT: v_pack_b32_f16 v1, v3, v1
	; GFX10-DENORM-NEXT: v_lshl_or_b32 v0, v0, 16, v2
	; GFX10-DENORM-NEXT: v_lshl_or_b32 v1, v1, 16, v3
	; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]			; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]
	entry:			entry:
	%a = fmul <4 x half> %x, %y			%a = fmul <4 x half> %x, %y
	%b = fneg <4 x half> %a			%b = fneg <4 x half> %a
	%c = fsub <4 x half> %b, %z			%c = fsub <4 x half> %b, %z
	ret <4 x half> %c			ret <4 x half> %c
	}			}

	▲ Show 20 Lines • Show All 79 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-foldable-fneg.mir

	# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py			# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
	# RUN: llc -march=amdgcn -mcpu=fiji -run-pass=amdgpu-prelegalizer-combiner -verify-machineinstrs %s -o - \| FileCheck %s			# RUN: llc -march=amdgcn -mcpu=fiji -run-pass=amdgpu-prelegalizer-combiner -verify-machineinstrs %s -o - \| FileCheck %s --check-prefixes=CHECK
	# RUN: llc -march=amdgcn -mcpu=fiji -run-pass=amdgpu-postlegalizer-combiner -verify-machineinstrs %s -o - \| FileCheck %s			# RUN: llc -march=amdgcn -mcpu=fiji -run-pass=amdgpu-postlegalizer-combiner -verify-machineinstrs %s -o - \| FileCheck %s --check-prefixes=CHECK

	---			---
	name: test_fminnum			name: test_fminnum
	body: \|			body: \|
	bb.0:			bb.0:
	liveins: $vgpr0, $vgpr1			liveins: $vgpr0, $vgpr1

	; CHECK-LABEL: name: test_fminnum			; CHECK-LABEL: name: test_fminnum
	▲ Show 20 Lines • Show All 876 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/fdiv.f16.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; Denormal mode shouldn't matter for f16, check with and without flushing.			; Denormal mode shouldn't matter for f16, check with and without flushing.
	; RUN: llc -global-isel -march=amdgcn -mcpu=tahiti -denormal-fp-math=ieee -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX6,GFX6-IEEE %s			; RUN: llc -global-isel -march=amdgcn -mcpu=tahiti -denormal-fp-math=ieee -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX6,GFX6-IEEE %s
	; RUN: llc -global-isel -march=amdgcn -mcpu=tahiti -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX6,GFX6-FLUSH %s			; RUN: llc -global-isel -march=amdgcn -mcpu=tahiti -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX6,GFX6-FLUSH %s

	; RUN: llc -global-isel -march=amdgcn -mcpu=fiji -denormal-fp-math=ieee -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX89,GFX8 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=fiji -denormal-fp-math=ieee -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX89,GFX8 %s
	; RUN: llc -global-isel -march=amdgcn -mcpu=fiji -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX89,GFX8 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=fiji -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX89,GFX8 %s

	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx900 -denormal-fp-math=ieee -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX89,GFX9,GFX9-IEEE %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx900 -denormal-fp-math=ieee -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX89,GFX9 %s
	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx900 -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX89,GFX9,GFX9-FLUSH %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx900 -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX89,GFX9 %s

	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 -denormal-fp-math=ieee -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX10,GFX10-IEEE %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 -denormal-fp-math=ieee -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX10 %s
	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX10,GFX10-FLUSH %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX10 %s

	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1100 -amdgpu-enable-delay-alu=0 -denormal-fp-math=ieee -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX11,GFX11-IEEE %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1100 -amdgpu-enable-delay-alu=0 -denormal-fp-math=ieee -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX11 %s
	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1100 -amdgpu-enable-delay-alu=0 -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX11,GFX11-FLUSH %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1100 -amdgpu-enable-delay-alu=0 -denormal-fp-math=preserve-sign -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10PLUS,GFX11 %s

	define half @v_fdiv_f16(half %a, half %b) {			define half @v_fdiv_f16(half %a, half %b) {
	; GFX6-IEEE-LABEL: v_fdiv_f16:			; GFX6-IEEE-LABEL: v_fdiv_f16:
	; GFX6-IEEE: ; %bb.0:			; GFX6-IEEE: ; %bb.0:
	; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v0, v0			; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v0, v0
	; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v1, v1			; GFX6-IEEE-NEXT: v_cvt_f32_f16_e32 v1, v1
	; GFX6-IEEE-NEXT: v_div_scale_f32 v2, s[4:5], v1, v1, v0			; GFX6-IEEE-NEXT: v_div_scale_f32 v2, s[4:5], v1, v1, v0
	▲ Show 20 Lines • Show All 648 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_div_fixup_f16 v1, v3, v4, v6			; GFX8-NEXT: v_div_fixup_f16 v1, v3, v4, v6
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_fdiv_v2f16:			; GFX9-LABEL: v_fdiv_v2f16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 16, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 16, v1
				; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v5, v4			; GFX9-NEXT: v_cvt_f32_f16_e32 v5, v4
				; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v0			; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v0
	; GFX9-NEXT: v_rcp_f32_e32 v2, v2			; GFX9-NEXT: v_rcp_f32_e32 v2, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v7, v6			; GFX9-NEXT: v_cvt_f32_f16_e32 v7, v6
	; GFX9-NEXT: v_rcp_f32_e32 v5, v5			; GFX9-NEXT: v_rcp_f32_e32 v5, v5
	; GFX9-NEXT: v_mul_f32_e32 v2, v3, v2			; GFX9-NEXT: v_mul_f32_e32 v2, v3, v2
	; GFX9-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX9-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX9-NEXT: v_mul_f32_e32 v3, v7, v5			; GFX9-NEXT: v_mul_f32_e32 v3, v7, v5
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v0, v2, v1, v0			; GFX9-NEXT: v_div_fixup_f16 v0, v2, v1, v0
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: v_div_fixup_f16 v1, v3, v4, v6			; GFX9-NEXT: v_div_fixup_f16 v1, v3, v4, v6
	; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_fdiv_v2f16:			; GFX10-LABEL: v_fdiv_v2f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v5, 16, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v6, v0			; GFX10-NEXT: v_cvt_f32_f16_e32 v6, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, v2			; GFX10-NEXT: v_cvt_f32_f16_e32 v4, v2
	; GFX10-NEXT: v_rcp_f32_e32 v3, v3			; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_cvt_f32_f16_e32 v7, v5			; GFX10-NEXT: v_cvt_f32_f16_e32 v7, v5
	; GFX10-NEXT: v_rcp_f32_e32 v4, v4			; GFX10-NEXT: v_rcp_f32_e32 v4, v4
	; GFX10-NEXT: v_mul_f32_e32 v3, v6, v3			; GFX10-NEXT: v_mul_f32_e32 v3, v6, v3
	; GFX10-NEXT: v_mul_f32_e32 v4, v7, v4			; GFX10-NEXT: v_mul_f32_e32 v4, v7, v4
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_cvt_f16_f32_e32 v4, v4			; GFX10-NEXT: v_cvt_f16_f32_e32 v4, v4
	; GFX10-NEXT: v_div_fixup_f16 v0, v3, v1, v0			; GFX10-NEXT: v_div_fixup_f16 v0, v3, v1, v0
	; GFX10-NEXT: v_div_fixup_f16 v1, v4, v2, v5			; GFX10-NEXT: v_div_fixup_f16 v1, v4, v2, v5
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_fdiv_v2f16:			; GFX11-LABEL: v_fdiv_v2f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX11-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v5, 16, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v6, v0			; GFX11-NEXT: v_cvt_f32_f16_e32 v6, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, v2			; GFX11-NEXT: v_cvt_f32_f16_e32 v4, v2
	; GFX11-NEXT: v_rcp_f32_e32 v3, v3			; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: v_cvt_f32_f16_e32 v7, v5			; GFX11-NEXT: v_cvt_f32_f16_e32 v7, v5
	; GFX11-NEXT: v_rcp_f32_e32 v4, v4			; GFX11-NEXT: v_rcp_f32_e32 v4, v4
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_dual_mul_f32 v3, v6, v3 :: v_dual_mul_f32 v4, v7, v4			; GFX11-NEXT: v_dual_mul_f32 v3, v6, v3 :: v_dual_mul_f32 v4, v7, v4
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX11-NEXT: v_cvt_f16_f32_e32 v4, v4			; GFX11-NEXT: v_cvt_f16_f32_e32 v4, v4
	; GFX11-NEXT: v_div_fixup_f16 v0, v3, v1, v0			; GFX11-NEXT: v_div_fixup_f16 v0, v3, v1, v0
	; GFX11-NEXT: v_div_fixup_f16 v1, v4, v2, v5			; GFX11-NEXT: v_div_fixup_f16 v1, v4, v2, v5
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv <2 x half> %a, %b			%fdiv = fdiv <2 x half> %a, %b
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	define <2 x half> @v_fdiv_v2f16_afn(<2 x half> %a, <2 x half> %b) {			define <2 x half> @v_fdiv_v2f16_afn(<2 x half> %a, <2 x half> %b) {
	; GFX6-LABEL: v_fdiv_v2f16_afn:			; GFX6-LABEL: v_fdiv_v2f16_afn:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	Show All 17 Lines
	; GFX8-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX8-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX8-NEXT: v_mul_f16_e32 v2, v0, v2			; GFX8-NEXT: v_mul_f16_e32 v2, v0, v2
	; GFX8-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_mov_b32_e32 v1, 16			; GFX8-NEXT: v_mov_b32_e32 v1, 16
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-IEEE-LABEL: v_fdiv_v2f16_afn:			; GFX9-LABEL: v_fdiv_v2f16_afn:
	; GFX9-IEEE: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-IEEE-NEXT: v_rcp_f16_e32 v2, v1			; GFX9-NEXT: v_rcp_f16_e32 v2, v1
	; GFX9-IEEE-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-IEEE-NEXT: v_mul_f16_e32 v2, v0, v2			; GFX9-NEXT: v_mul_f16_e32 v2, v0, v2
	; GFX9-IEEE-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-IEEE-NEXT: v_pack_b32_f16 v0, v2, v0			; GFX9-NEXT: v_pack_b32_f16 v0, v2, v0
	; GFX9-IEEE-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-FLUSH-LABEL: v_fdiv_v2f16_afn:			; GFX10-LABEL: v_fdiv_v2f16_afn:
	; GFX9-FLUSH: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX9-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-FLUSH-NEXT: v_rcp_f16_e32 v2, v1			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX9-FLUSH-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_rcp_f16_e32 v2, v1
	; GFX9-FLUSH-NEXT: v_mul_f16_e32 v2, v0, v2			; GFX10-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-FLUSH-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_mul_f16_e32 v2, v0, v2
	; GFX9-FLUSH-NEXT: v_lshl_or_b32 v0, v0, 16, v2			; GFX10-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: v_pack_b32_f16 v0, v2, v0
	;			; GFX10-NEXT: s_setpc_b64 s[30:31]
	; GFX10-IEEE-LABEL: v_fdiv_v2f16_afn:			;
	; GFX10-IEEE: ; %bb.0:			; GFX11-LABEL: v_fdiv_v2f16_afn:
	; GFX10-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11: ; %bb.0:
	; GFX10-IEEE-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-IEEE-NEXT: v_rcp_f16_e32 v2, v1			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-IEEE-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX10-IEEE-NEXT: v_mul_f16_e32 v2, v0, v2			; GFX11-NEXT: v_rcp_f16_e32 v1, v1
	; GFX10-IEEE-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX10-IEEE-NEXT: v_pack_b32_f16 v0, v2, v0			; GFX11-NEXT: v_rcp_f16_e32 v2, v2
	; GFX10-IEEE-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	;			; GFX11-NEXT: v_mul_f16_e32 v0, v0, v1
	; GFX10-FLUSH-LABEL: v_fdiv_v2f16_afn:			; GFX11-NEXT: v_mul_f16_e32 v1, v3, v2
	; GFX10-FLUSH: ; %bb.0:			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX10-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_setpc_b64 s[30:31]
	; GFX10-FLUSH-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-FLUSH-NEXT: v_rcp_f16_e32 v2, v1
	; GFX10-FLUSH-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX10-FLUSH-NEXT: v_mul_f16_e32 v2, v0, v2
	; GFX10-FLUSH-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-FLUSH-NEXT: v_and_b32_e32 v1, 0xffff, v2
	; GFX10-FLUSH-NEXT: v_lshl_or_b32 v0, v0, 16, v1
	; GFX10-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;
	; GFX11-IEEE-LABEL: v_fdiv_v2f16_afn:
	; GFX11-IEEE: ; %bb.0:
	; GFX11-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-IEEE-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-IEEE-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX11-IEEE-NEXT: v_rcp_f16_e32 v1, v1
	; GFX11-IEEE-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX11-IEEE-NEXT: v_rcp_f16_e32 v2, v2
	; GFX11-IEEE-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-IEEE-NEXT: v_mul_f16_e32 v0, v0, v1
	; GFX11-IEEE-NEXT: v_mul_f16_e32 v1, v3, v2
	; GFX11-IEEE-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-IEEE-NEXT: s_setpc_b64 s[30:31]
	;
	; GFX11-FLUSH-LABEL: v_fdiv_v2f16_afn:
	; GFX11-FLUSH: ; %bb.0:
	; GFX11-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-FLUSH-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-FLUSH-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX11-FLUSH-NEXT: v_rcp_f16_e32 v1, v1
	; GFX11-FLUSH-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX11-FLUSH-NEXT: v_rcp_f16_e32 v2, v2
	; GFX11-FLUSH-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-FLUSH-NEXT: v_mul_f16_e32 v0, v0, v1
	; GFX11-FLUSH-NEXT: v_mul_f16_e32 v1, v3, v2
	; GFX11-FLUSH-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX11-FLUSH-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX11-FLUSH-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv afn <2 x half> %a, %b			%fdiv = fdiv afn <2 x half> %a, %b
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	define <2 x half> @v_fdiv_v2f16_ulp25(<2 x half> %a, <2 x half> %b) {			define <2 x half> @v_fdiv_v2f16_ulp25(<2 x half> %a, <2 x half> %b) {
	; GFX6-IEEE-LABEL: v_fdiv_v2f16_ulp25:			; GFX6-IEEE-LABEL: v_fdiv_v2f16_ulp25:
	; GFX6-IEEE: ; %bb.0:			; GFX6-IEEE: ; %bb.0:
	; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_div_fixup_f16 v1, v3, v4, v6			; GFX8-NEXT: v_div_fixup_f16 v1, v3, v4, v6
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_fdiv_v2f16_ulp25:			; GFX9-LABEL: v_fdiv_v2f16_ulp25:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 16, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 16, v1
				; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v5, v4			; GFX9-NEXT: v_cvt_f32_f16_e32 v5, v4
				; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v0			; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v0
	; GFX9-NEXT: v_rcp_f32_e32 v2, v2			; GFX9-NEXT: v_rcp_f32_e32 v2, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v7, v6			; GFX9-NEXT: v_cvt_f32_f16_e32 v7, v6
	; GFX9-NEXT: v_rcp_f32_e32 v5, v5			; GFX9-NEXT: v_rcp_f32_e32 v5, v5
	; GFX9-NEXT: v_mul_f32_e32 v2, v3, v2			; GFX9-NEXT: v_mul_f32_e32 v2, v3, v2
	; GFX9-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX9-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX9-NEXT: v_mul_f32_e32 v3, v7, v5			; GFX9-NEXT: v_mul_f32_e32 v3, v7, v5
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v0, v2, v1, v0			; GFX9-NEXT: v_div_fixup_f16 v0, v2, v1, v0
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: v_div_fixup_f16 v1, v3, v4, v6			; GFX9-NEXT: v_div_fixup_f16 v1, v3, v4, v6
	; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_fdiv_v2f16_ulp25:			; GFX10-LABEL: v_fdiv_v2f16_ulp25:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v5, 16, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v6, v0			; GFX10-NEXT: v_cvt_f32_f16_e32 v6, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, v2			; GFX10-NEXT: v_cvt_f32_f16_e32 v4, v2
	; GFX10-NEXT: v_rcp_f32_e32 v3, v3			; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_cvt_f32_f16_e32 v7, v5			; GFX10-NEXT: v_cvt_f32_f16_e32 v7, v5
	; GFX10-NEXT: v_rcp_f32_e32 v4, v4			; GFX10-NEXT: v_rcp_f32_e32 v4, v4
	; GFX10-NEXT: v_mul_f32_e32 v3, v6, v3			; GFX10-NEXT: v_mul_f32_e32 v3, v6, v3
	; GFX10-NEXT: v_mul_f32_e32 v4, v7, v4			; GFX10-NEXT: v_mul_f32_e32 v4, v7, v4
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_cvt_f16_f32_e32 v4, v4			; GFX10-NEXT: v_cvt_f16_f32_e32 v4, v4
	; GFX10-NEXT: v_div_fixup_f16 v0, v3, v1, v0			; GFX10-NEXT: v_div_fixup_f16 v0, v3, v1, v0
	; GFX10-NEXT: v_div_fixup_f16 v1, v4, v2, v5			; GFX10-NEXT: v_div_fixup_f16 v1, v4, v2, v5
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_fdiv_v2f16_ulp25:			; GFX11-LABEL: v_fdiv_v2f16_ulp25:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX11-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v5, 16, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v6, v0			; GFX11-NEXT: v_cvt_f32_f16_e32 v6, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, v2			; GFX11-NEXT: v_cvt_f32_f16_e32 v4, v2
	; GFX11-NEXT: v_rcp_f32_e32 v3, v3			; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: v_cvt_f32_f16_e32 v7, v5			; GFX11-NEXT: v_cvt_f32_f16_e32 v7, v5
	; GFX11-NEXT: v_rcp_f32_e32 v4, v4			; GFX11-NEXT: v_rcp_f32_e32 v4, v4
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_dual_mul_f32 v3, v6, v3 :: v_dual_mul_f32 v4, v7, v4			; GFX11-NEXT: v_dual_mul_f32 v3, v6, v3 :: v_dual_mul_f32 v4, v7, v4
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX11-NEXT: v_cvt_f16_f32_e32 v4, v4			; GFX11-NEXT: v_cvt_f16_f32_e32 v4, v4
	; GFX11-NEXT: v_div_fixup_f16 v0, v3, v1, v0			; GFX11-NEXT: v_div_fixup_f16 v0, v3, v1, v0
	; GFX11-NEXT: v_div_fixup_f16 v1, v4, v2, v5			; GFX11-NEXT: v_div_fixup_f16 v1, v4, v2, v5
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv <2 x half> %a, %b, !fpmath !0			%fdiv = fdiv <2 x half> %a, %b, !fpmath !0
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	define <2 x half> @v_rcp_v2f16(<2 x half> %x) {			define <2 x half> @v_rcp_v2f16(<2 x half> %x) {
	; GFX6-IEEE-LABEL: v_rcp_v2f16:			; GFX6-IEEE-LABEL: v_rcp_v2f16:
	; GFX6-IEEE: ; %bb.0:			; GFX6-IEEE: ; %bb.0:
	▲ Show 20 Lines • Show All 83 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_mov_b32_e32 v2, 16			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_rcp_v2f16:			; GFX9-LABEL: v_rcp_v2f16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0
				; GFX9-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v2			; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX9-NEXT: v_cvt_f32_f16_e32 v4, 1.0			; GFX9-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX9-NEXT: v_rcp_f32_e32 v1, v1			; GFX9-NEXT: v_rcp_f32_e32 v1, v1
	; GFX9-NEXT: v_rcp_f32_e32 v3, v3			; GFX9-NEXT: v_rcp_f32_e32 v3, v3
	; GFX9-NEXT: v_mul_f32_e32 v1, v4, v1			; GFX9-NEXT: v_mul_f32_e32 v1, v4, v1
	; GFX9-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX9-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX9-NEXT: v_mul_f32_e32 v3, v4, v3
				; GFX9-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0			; GFX9-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0			; GFX9-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0
	; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_rcp_v2f16:			; GFX10-LABEL: v_rcp_v2f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v0			; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, 1.0			; GFX10-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX10-NEXT: v_rcp_f32_e32 v2, v2			; GFX10-NEXT: v_rcp_f32_e32 v2, v2
	; GFX10-NEXT: v_rcp_f32_e32 v3, v3			; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX10-NEXT: v_mul_f32_e32 v2, v4, v2
	; GFX10-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX10-NEXT: v_mul_f32_e32 v3, v4, v3
	; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0			; GFX10-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0
	; GFX10-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0			; GFX10-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_rcp_v2f16:			; GFX11-LABEL: v_rcp_v2f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
				; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, 1.0			; GFX11-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX11-NEXT: v_rcp_f32_e32 v2, v2
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
				; GFX11-NEXT: v_rcp_f32_e32 v2, v2
	; GFX11-NEXT: v_rcp_f32_e32 v3, v3			; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX11-NEXT: v_mul_f32_e32 v2, v4, v2
				; GFX11-NEXT: v_mul_f32_e32 v3, v4, v3
	; GFX11-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX11-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0
	; GFX11-NEXT: v_dual_mul_f32 v3, v4, v3 :: v_dual_and_b32 v0, 0xffff, v0
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3
				; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0
	; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0			; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0
	; GFX11-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv <2 x half> <half 1.0, half 1.0>, %x			%fdiv = fdiv <2 x half> <half 1.0, half 1.0>, %x
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	define <2 x half> @v_rcp_v2f16_arcp(<2 x half> %x) {			define <2 x half> @v_rcp_v2f16_arcp(<2 x half> %x) {
	; GFX6-IEEE-LABEL: v_rcp_v2f16_arcp:			; GFX6-IEEE-LABEL: v_rcp_v2f16_arcp:
	; GFX6-IEEE: ; %bb.0:			; GFX6-IEEE: ; %bb.0:
	▲ Show 20 Lines • Show All 83 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_mov_b32_e32 v2, 16			; GFX8-NEXT: v_mov_b32_e32 v2, 16
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_rcp_v2f16_arcp:			; GFX9-LABEL: v_rcp_v2f16_arcp:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0
				; GFX9-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v2			; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX9-NEXT: v_cvt_f32_f16_e32 v4, 1.0			; GFX9-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX9-NEXT: v_rcp_f32_e32 v1, v1			; GFX9-NEXT: v_rcp_f32_e32 v1, v1
	; GFX9-NEXT: v_rcp_f32_e32 v3, v3			; GFX9-NEXT: v_rcp_f32_e32 v3, v3
	; GFX9-NEXT: v_mul_f32_e32 v1, v4, v1			; GFX9-NEXT: v_mul_f32_e32 v1, v4, v1
	; GFX9-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX9-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX9-NEXT: v_mul_f32_e32 v3, v4, v3
				; GFX9-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0			; GFX9-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0			; GFX9-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0
	; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_rcp_v2f16_arcp:			; GFX10-LABEL: v_rcp_v2f16_arcp:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v0			; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, 1.0			; GFX10-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX10-NEXT: v_rcp_f32_e32 v2, v2			; GFX10-NEXT: v_rcp_f32_e32 v2, v2
	; GFX10-NEXT: v_rcp_f32_e32 v3, v3			; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX10-NEXT: v_mul_f32_e32 v2, v4, v2
	; GFX10-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX10-NEXT: v_mul_f32_e32 v3, v4, v3
	; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0			; GFX10-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0
	; GFX10-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0			; GFX10-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_rcp_v2f16_arcp:			; GFX11-LABEL: v_rcp_v2f16_arcp:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
				; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, 1.0			; GFX11-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX11-NEXT: v_rcp_f32_e32 v2, v2
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
				; GFX11-NEXT: v_rcp_f32_e32 v2, v2
	; GFX11-NEXT: v_rcp_f32_e32 v3, v3			; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX11-NEXT: v_mul_f32_e32 v2, v4, v2
				; GFX11-NEXT: v_mul_f32_e32 v3, v4, v3
	; GFX11-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX11-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0
	; GFX11-NEXT: v_dual_mul_f32 v3, v4, v3 :: v_dual_and_b32 v0, 0xffff, v0
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3
				; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0
	; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0			; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0
	; GFX11-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv arcp <2 x half> <half 1.0, half 1.0>, %x			%fdiv = fdiv arcp <2 x half> <half 1.0, half 1.0>, %x
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	define <2 x half> @v_rcp_v2f16_arcp_afn(<2 x half> %x) {			define <2 x half> @v_rcp_v2f16_arcp_afn(<2 x half> %x) {
	; GFX6-LABEL: v_rcp_v2f16_arcp_afn:			; GFX6-LABEL: v_rcp_v2f16_arcp_afn:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	Show All 19 Lines
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_rcp_v2f16_arcp_afn:			; GFX9-LABEL: v_rcp_v2f16_arcp_afn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_rcp_f16_e32 v1, v0			; GFX9-NEXT: v_rcp_f16_e32 v1, v0
	; GFX9-NEXT: v_rcp_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_rcp_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-NEXT: v_lshl_or_b32 v0, v0, 16, v1			; GFX9-NEXT: v_pack_b32_f16 v0, v1, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_rcp_v2f16_arcp_afn:			; GFX10-LABEL: v_rcp_v2f16_arcp_afn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_rcp_f16_e32 v1, v0			; GFX10-NEXT: v_rcp_f16_e32 v1, v0
	; GFX10-NEXT: v_rcp_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_rcp_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-NEXT: v_pack_b32_f16 v0, v1, v0
	; GFX10-NEXT: v_lshl_or_b32 v0, v0, 16, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_rcp_v2f16_arcp_afn:			; GFX11-LABEL: v_rcp_v2f16_arcp_afn:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_rcp_f16_e32 v1, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX11-NEXT: v_rcp_f16_e32 v0, v0			; GFX11-NEXT: v_rcp_f16_e32 v0, v0
				; GFX11-NEXT: v_rcp_f16_e32 v1, v1
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: v_lshl_or_b32 v0, v0, 16, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv arcp afn <2 x half> <half 1.0, half 1.0>, %x			%fdiv = fdiv arcp afn <2 x half> <half 1.0, half 1.0>, %x
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	define <2 x half> @v_rcp_v2f16_ulp25(<2 x half> %x) {			define <2 x half> @v_rcp_v2f16_ulp25(<2 x half> %x) {
	; GFX6-IEEE-LABEL: v_rcp_v2f16_ulp25:			; GFX6-IEEE-LABEL: v_rcp_v2f16_ulp25:
	; GFX6-IEEE: ; %bb.0:			; GFX6-IEEE: ; %bb.0:
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_rcp_v2f16_ulp25:			; GFX9-LABEL: v_rcp_v2f16_ulp25:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_rcp_f16_e32 v1, v0			; GFX9-NEXT: v_rcp_f16_e32 v1, v0
	; GFX9-NEXT: v_rcp_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_rcp_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-NEXT: v_lshl_or_b32 v0, v0, 16, v1			; GFX9-NEXT: v_pack_b32_f16 v0, v1, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_rcp_v2f16_ulp25:			; GFX10-LABEL: v_rcp_v2f16_ulp25:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_rcp_f16_e32 v1, v0			; GFX10-NEXT: v_rcp_f16_e32 v1, v0
	; GFX10-NEXT: v_rcp_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_rcp_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-NEXT: v_pack_b32_f16 v0, v1, v0
	; GFX10-NEXT: v_lshl_or_b32 v0, v0, 16, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_rcp_v2f16_ulp25:			; GFX11-LABEL: v_rcp_v2f16_ulp25:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_rcp_f16_e32 v1, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v0, 16, v0
	; GFX11-NEXT: v_rcp_f16_e32 v0, v0			; GFX11-NEXT: v_rcp_f16_e32 v0, v0
				; GFX11-NEXT: v_rcp_f16_e32 v1, v1
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: v_lshl_or_b32 v0, v0, 16, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv <2 x half> <half 1.0, half 1.0>, %x, !fpmath !0			%fdiv = fdiv <2 x half> <half 1.0, half 1.0>, %x, !fpmath !0
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	define <2 x half> @v_fdiv_v2f16_afn_ulp25(<2 x half> %a, <2 x half> %b) {			define <2 x half> @v_fdiv_v2f16_afn_ulp25(<2 x half> %a, <2 x half> %b) {
	; GFX6-LABEL: v_fdiv_v2f16_afn_ulp25:			; GFX6-LABEL: v_fdiv_v2f16_afn_ulp25:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	Show All 17 Lines
	; GFX8-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX8-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX8-NEXT: v_mul_f16_e32 v2, v0, v2			; GFX8-NEXT: v_mul_f16_e32 v2, v0, v2
	; GFX8-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_mov_b32_e32 v1, 16			; GFX8-NEXT: v_mov_b32_e32 v1, 16
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-IEEE-LABEL: v_fdiv_v2f16_afn_ulp25:			; GFX9-LABEL: v_fdiv_v2f16_afn_ulp25:
	; GFX9-IEEE: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-IEEE-NEXT: v_rcp_f16_e32 v2, v1			; GFX9-NEXT: v_rcp_f16_e32 v2, v1
	; GFX9-IEEE-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-IEEE-NEXT: v_mul_f16_e32 v2, v0, v2			; GFX9-NEXT: v_mul_f16_e32 v2, v0, v2
	; GFX9-IEEE-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-IEEE-NEXT: v_pack_b32_f16 v0, v2, v0			; GFX9-NEXT: v_pack_b32_f16 v0, v2, v0
	; GFX9-IEEE-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-FLUSH-LABEL: v_fdiv_v2f16_afn_ulp25:			; GFX10-LABEL: v_fdiv_v2f16_afn_ulp25:
	; GFX9-FLUSH: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX9-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-FLUSH-NEXT: v_rcp_f16_e32 v2, v1			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX9-FLUSH-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_rcp_f16_e32 v2, v1
	; GFX9-FLUSH-NEXT: v_mul_f16_e32 v2, v0, v2			; GFX10-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-FLUSH-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_mul_f16_e32 v2, v0, v2
	; GFX9-FLUSH-NEXT: v_lshl_or_b32 v0, v0, 16, v2			; GFX10-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: v_pack_b32_f16 v0, v2, v0
	;			; GFX10-NEXT: s_setpc_b64 s[30:31]
	; GFX10-IEEE-LABEL: v_fdiv_v2f16_afn_ulp25:			;
	; GFX10-IEEE: ; %bb.0:			; GFX11-LABEL: v_fdiv_v2f16_afn_ulp25:
	; GFX10-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11: ; %bb.0:
	; GFX10-IEEE-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-IEEE-NEXT: v_rcp_f16_e32 v2, v1			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-IEEE-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX10-IEEE-NEXT: v_mul_f16_e32 v2, v0, v2			; GFX11-NEXT: v_rcp_f16_e32 v1, v1
	; GFX10-IEEE-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX10-IEEE-NEXT: v_pack_b32_f16 v0, v2, v0			; GFX11-NEXT: v_rcp_f16_e32 v2, v2
	; GFX10-IEEE-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	;			; GFX11-NEXT: v_mul_f16_e32 v0, v0, v1
	; GFX10-FLUSH-LABEL: v_fdiv_v2f16_afn_ulp25:			; GFX11-NEXT: v_mul_f16_e32 v1, v3, v2
	; GFX10-FLUSH: ; %bb.0:			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX10-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_setpc_b64 s[30:31]
	; GFX10-FLUSH-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-FLUSH-NEXT: v_rcp_f16_e32 v2, v1
	; GFX10-FLUSH-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX10-FLUSH-NEXT: v_mul_f16_e32 v2, v0, v2
	; GFX10-FLUSH-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-FLUSH-NEXT: v_and_b32_e32 v1, 0xffff, v2
	; GFX10-FLUSH-NEXT: v_lshl_or_b32 v0, v0, 16, v1
	; GFX10-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;
	; GFX11-IEEE-LABEL: v_fdiv_v2f16_afn_ulp25:
	; GFX11-IEEE: ; %bb.0:
	; GFX11-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-IEEE-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-IEEE-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX11-IEEE-NEXT: v_rcp_f16_e32 v1, v1
	; GFX11-IEEE-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX11-IEEE-NEXT: v_rcp_f16_e32 v2, v2
	; GFX11-IEEE-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-IEEE-NEXT: v_mul_f16_e32 v0, v0, v1
	; GFX11-IEEE-NEXT: v_mul_f16_e32 v1, v3, v2
	; GFX11-IEEE-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-IEEE-NEXT: s_setpc_b64 s[30:31]
	;
	; GFX11-FLUSH-LABEL: v_fdiv_v2f16_afn_ulp25:
	; GFX11-FLUSH: ; %bb.0:
	; GFX11-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-FLUSH-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-FLUSH-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX11-FLUSH-NEXT: v_rcp_f16_e32 v1, v1
	; GFX11-FLUSH-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX11-FLUSH-NEXT: v_rcp_f16_e32 v2, v2
	; GFX11-FLUSH-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-FLUSH-NEXT: v_mul_f16_e32 v0, v0, v1
	; GFX11-FLUSH-NEXT: v_mul_f16_e32 v1, v3, v2
	; GFX11-FLUSH-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX11-FLUSH-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX11-FLUSH-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv afn <2 x half> %a, %b, !fpmath !0			%fdiv = fdiv afn <2 x half> %a, %b, !fpmath !0
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	define <2 x half> @v_fdiv_v2f16_arcp_ulp25(<2 x half> %a, <2 x half> %b) {			define <2 x half> @v_fdiv_v2f16_arcp_ulp25(<2 x half> %a, <2 x half> %b) {
	; GFX6-IEEE-LABEL: v_fdiv_v2f16_arcp_ulp25:			; GFX6-IEEE-LABEL: v_fdiv_v2f16_arcp_ulp25:
	; GFX6-IEEE: ; %bb.0:			; GFX6-IEEE: ; %bb.0:
	; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_div_fixup_f16 v1, v3, v4, v6			; GFX8-NEXT: v_div_fixup_f16 v1, v3, v4, v6
	; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v1, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_fdiv_v2f16_arcp_ulp25:			; GFX9-LABEL: v_fdiv_v2f16_arcp_ulp25:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v1
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 16, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 16, v1
				; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v5, v4			; GFX9-NEXT: v_cvt_f32_f16_e32 v5, v4
				; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v0			; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v0
	; GFX9-NEXT: v_rcp_f32_e32 v2, v2			; GFX9-NEXT: v_rcp_f32_e32 v2, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v7, v6			; GFX9-NEXT: v_cvt_f32_f16_e32 v7, v6
	; GFX9-NEXT: v_rcp_f32_e32 v5, v5			; GFX9-NEXT: v_rcp_f32_e32 v5, v5
	; GFX9-NEXT: v_mul_f32_e32 v2, v3, v2			; GFX9-NEXT: v_mul_f32_e32 v2, v3, v2
	; GFX9-NEXT: v_cvt_f16_f32_e32 v2, v2			; GFX9-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX9-NEXT: v_mul_f32_e32 v3, v7, v5			; GFX9-NEXT: v_mul_f32_e32 v3, v7, v5
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v0, v2, v1, v0			; GFX9-NEXT: v_div_fixup_f16 v0, v2, v1, v0
	; GFX9-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX9-NEXT: v_div_fixup_f16 v1, v3, v4, v6			; GFX9-NEXT: v_div_fixup_f16 v1, v3, v4, v6
	; GFX9-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_fdiv_v2f16_arcp_ulp25:			; GFX10-LABEL: v_fdiv_v2f16_arcp_ulp25:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v5, 16, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v6, v0			; GFX10-NEXT: v_cvt_f32_f16_e32 v6, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, v2			; GFX10-NEXT: v_cvt_f32_f16_e32 v4, v2
	; GFX10-NEXT: v_rcp_f32_e32 v3, v3			; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_cvt_f32_f16_e32 v7, v5			; GFX10-NEXT: v_cvt_f32_f16_e32 v7, v5
	; GFX10-NEXT: v_rcp_f32_e32 v4, v4			; GFX10-NEXT: v_rcp_f32_e32 v4, v4
	; GFX10-NEXT: v_mul_f32_e32 v3, v6, v3			; GFX10-NEXT: v_mul_f32_e32 v3, v6, v3
	; GFX10-NEXT: v_mul_f32_e32 v4, v7, v4			; GFX10-NEXT: v_mul_f32_e32 v4, v7, v4
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_cvt_f16_f32_e32 v4, v4			; GFX10-NEXT: v_cvt_f16_f32_e32 v4, v4
	; GFX10-NEXT: v_div_fixup_f16 v0, v3, v1, v0			; GFX10-NEXT: v_div_fixup_f16 v0, v3, v1, v0
	; GFX10-NEXT: v_div_fixup_f16 v1, v4, v2, v5			; GFX10-NEXT: v_div_fixup_f16 v1, v4, v2, v5
	; GFX10-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_fdiv_v2f16_arcp_ulp25:			; GFX11-LABEL: v_fdiv_v2f16_arcp_ulp25:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX11-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v5, 16, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v6, v0			; GFX11-NEXT: v_cvt_f32_f16_e32 v6, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, v2			; GFX11-NEXT: v_cvt_f32_f16_e32 v4, v2
	; GFX11-NEXT: v_rcp_f32_e32 v3, v3			; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: v_cvt_f32_f16_e32 v7, v5			; GFX11-NEXT: v_cvt_f32_f16_e32 v7, v5
	; GFX11-NEXT: v_rcp_f32_e32 v4, v4			; GFX11-NEXT: v_rcp_f32_e32 v4, v4
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_dual_mul_f32 v3, v6, v3 :: v_dual_mul_f32 v4, v7, v4			; GFX11-NEXT: v_dual_mul_f32 v3, v6, v3 :: v_dual_mul_f32 v4, v7, v4
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX11-NEXT: v_cvt_f16_f32_e32 v4, v4			; GFX11-NEXT: v_cvt_f16_f32_e32 v4, v4
	; GFX11-NEXT: v_div_fixup_f16 v0, v3, v1, v0			; GFX11-NEXT: v_div_fixup_f16 v0, v3, v1, v0
	; GFX11-NEXT: v_div_fixup_f16 v1, v4, v2, v5			; GFX11-NEXT: v_div_fixup_f16 v1, v4, v2, v5
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv arcp <2 x half> %a, %b, !fpmath !0			%fdiv = fdiv arcp <2 x half> %a, %b, !fpmath !0
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	define <2 x half> @v_fdiv_v2f16_arcp_afn_ulp25(<2 x half> %a, <2 x half> %b) {			define <2 x half> @v_fdiv_v2f16_arcp_afn_ulp25(<2 x half> %a, <2 x half> %b) {
	; GFX6-LABEL: v_fdiv_v2f16_arcp_afn_ulp25:			; GFX6-LABEL: v_fdiv_v2f16_arcp_afn_ulp25:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	Show All 17 Lines
	; GFX8-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX8-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX8-NEXT: v_mul_f16_e32 v2, v0, v2			; GFX8-NEXT: v_mul_f16_e32 v2, v0, v2
	; GFX8-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX8-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_mov_b32_e32 v1, 16			; GFX8-NEXT: v_mov_b32_e32 v1, 16
	; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; GFX8-NEXT: v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-IEEE-LABEL: v_fdiv_v2f16_arcp_afn_ulp25:			; GFX9-LABEL: v_fdiv_v2f16_arcp_afn_ulp25:
	; GFX9-IEEE: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-IEEE-NEXT: v_rcp_f16_e32 v2, v1			; GFX9-NEXT: v_rcp_f16_e32 v2, v1
	; GFX9-IEEE-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-IEEE-NEXT: v_mul_f16_e32 v2, v0, v2			; GFX9-NEXT: v_mul_f16_e32 v2, v0, v2
	; GFX9-IEEE-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX9-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-IEEE-NEXT: v_pack_b32_f16 v0, v2, v0			; GFX9-NEXT: v_pack_b32_f16 v0, v2, v0
	; GFX9-IEEE-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-FLUSH-LABEL: v_fdiv_v2f16_arcp_afn_ulp25:			; GFX10-LABEL: v_fdiv_v2f16_arcp_afn_ulp25:
	; GFX9-FLUSH: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX9-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-FLUSH-NEXT: v_rcp_f16_e32 v2, v1			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX9-FLUSH-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_rcp_f16_e32 v2, v1
	; GFX9-FLUSH-NEXT: v_mul_f16_e32 v2, v0, v2			; GFX10-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-FLUSH-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX10-NEXT: v_mul_f16_e32 v2, v0, v2
	; GFX9-FLUSH-NEXT: v_lshl_or_b32 v0, v0, 16, v2			; GFX10-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: v_pack_b32_f16 v0, v2, v0
	;			; GFX10-NEXT: s_setpc_b64 s[30:31]
	; GFX10-IEEE-LABEL: v_fdiv_v2f16_arcp_afn_ulp25:			;
	; GFX10-IEEE: ; %bb.0:			; GFX11-LABEL: v_fdiv_v2f16_arcp_afn_ulp25:
	; GFX10-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11: ; %bb.0:
	; GFX10-IEEE-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-IEEE-NEXT: v_rcp_f16_e32 v2, v1			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-IEEE-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX10-IEEE-NEXT: v_mul_f16_e32 v2, v0, v2			; GFX11-NEXT: v_rcp_f16_e32 v1, v1
	; GFX10-IEEE-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX10-IEEE-NEXT: v_pack_b32_f16 v0, v2, v0			; GFX11-NEXT: v_rcp_f16_e32 v2, v2
	; GFX10-IEEE-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	;			; GFX11-NEXT: v_mul_f16_e32 v0, v0, v1
	; GFX10-FLUSH-LABEL: v_fdiv_v2f16_arcp_afn_ulp25:			; GFX11-NEXT: v_mul_f16_e32 v1, v3, v2
	; GFX10-FLUSH: ; %bb.0:			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX10-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_setpc_b64 s[30:31]
	; GFX10-FLUSH-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-FLUSH-NEXT: v_rcp_f16_e32 v2, v1
	; GFX10-FLUSH-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX10-FLUSH-NEXT: v_mul_f16_e32 v2, v0, v2
	; GFX10-FLUSH-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-FLUSH-NEXT: v_and_b32_e32 v1, 0xffff, v2
	; GFX10-FLUSH-NEXT: v_lshl_or_b32 v0, v0, 16, v1
	; GFX10-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;
	; GFX11-IEEE-LABEL: v_fdiv_v2f16_arcp_afn_ulp25:
	; GFX11-IEEE: ; %bb.0:
	; GFX11-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-IEEE-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-IEEE-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX11-IEEE-NEXT: v_rcp_f16_e32 v1, v1
	; GFX11-IEEE-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX11-IEEE-NEXT: v_rcp_f16_e32 v2, v2
	; GFX11-IEEE-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-IEEE-NEXT: v_mul_f16_e32 v0, v0, v1
	; GFX11-IEEE-NEXT: v_mul_f16_e32 v1, v3, v2
	; GFX11-IEEE-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-IEEE-NEXT: s_setpc_b64 s[30:31]
	;
	; GFX11-FLUSH-LABEL: v_fdiv_v2f16_arcp_afn_ulp25:
	; GFX11-FLUSH: ; %bb.0:
	; GFX11-FLUSH-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-FLUSH-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-FLUSH-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX11-FLUSH-NEXT: v_rcp_f16_e32 v1, v1
	; GFX11-FLUSH-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX11-FLUSH-NEXT: v_rcp_f16_e32 v2, v2
	; GFX11-FLUSH-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-FLUSH-NEXT: v_mul_f16_e32 v0, v0, v1
	; GFX11-FLUSH-NEXT: v_mul_f16_e32 v1, v3, v2
	; GFX11-FLUSH-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GFX11-FLUSH-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX11-FLUSH-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv afn arcp <2 x half> %a, %b, !fpmath !0			%fdiv = fdiv afn arcp <2 x half> %a, %b, !fpmath !0
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	!0 = !{float 2.500000e+00}			!0 = !{float 2.500000e+00}

llvm/test/CodeGen/AMDGPU/GlobalISel/roundeven.ll

	Show First 20 Lines • Show All 247 Lines • ▼ Show 20 Lines
	; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; GFX8-NEXT: v_or_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_roundeven_v2f16:			; GFX9-LABEL: v_roundeven_v2f16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_rndne_f16_e32 v1, v0			; GFX9-NEXT: v_rndne_f16_e32 v1, v0
	; GFX9-NEXT: v_rndne_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_rndne_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-NEXT: v_lshl_or_b32 v0, v0, 16, v1			; GFX9-NEXT: v_pack_b32_f16 v0, v1, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_roundeven_v2f16:			; GFX10-LABEL: v_roundeven_v2f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_rndne_f16_e32 v1, v0			; GFX10-NEXT: v_rndne_f16_e32 v1, v0
	; GFX10-NEXT: v_rndne_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_rndne_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-NEXT: v_pack_b32_f16 v0, v1, v0
	; GFX10-NEXT: v_lshl_or_b32 v0, v0, 16, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_roundeven_v2f16:			; GFX11-LABEL: v_roundeven_v2f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX11-NEXT: v_rndne_f16_e32 v0, v0			; GFX11-NEXT: v_rndne_f16_e32 v0, v0
	; GFX11-NEXT: v_rndne_f16_e32 v1, v1			; GFX11-NEXT: v_rndne_f16_e32 v1, v1
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%roundeven = call <2 x half> @llvm.roundeven.v2f16(<2 x half> %x)			%roundeven = call <2 x half> @llvm.roundeven.v2f16(<2 x half> %x)
	ret <2 x half> %roundeven			ret <2 x half> %roundeven
	}			}

	define <2 x half> @v_roundeven_v2f16_fneg(<2 x half> %x) {			define <2 x half> @v_roundeven_v2f16_fneg(<2 x half> %x) {
	; GFX6-LABEL: v_roundeven_v2f16_fneg:			; GFX6-LABEL: v_roundeven_v2f16_fneg:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	Show All 39 Lines
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_roundeven_v2f16_fneg:			; GFX9-LABEL: v_roundeven_v2f16_fneg:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_xor_b32_e32 v0, 0x80008000, v0			; GFX9-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
	; GFX9-NEXT: v_rndne_f16_e32 v1, v0			; GFX9-NEXT: v_rndne_f16_e32 v1, v0
	; GFX9-NEXT: v_rndne_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_rndne_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-NEXT: v_lshl_or_b32 v0, v0, 16, v1			; GFX9-NEXT: v_pack_b32_f16 v0, v1, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_roundeven_v2f16_fneg:			; GFX10-LABEL: v_roundeven_v2f16_fneg:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_xor_b32_e32 v0, 0x80008000, v0			; GFX10-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
	; GFX10-NEXT: v_rndne_f16_e32 v1, v0			; GFX10-NEXT: v_rndne_f16_e32 v1, v0
	; GFX10-NEXT: v_rndne_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_rndne_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX10-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX10-NEXT: v_pack_b32_f16 v0, v1, v0
	; GFX10-NEXT: v_lshl_or_b32 v0, v0, 16, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_roundeven_v2f16_fneg:			; GFX11-LABEL: v_roundeven_v2f16_fneg:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_xor_b32_e32 v0, 0x80008000, v0			; GFX11-NEXT: v_xor_b32_e32 v0, 0x80008000, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX11-NEXT: v_rndne_f16_e32 v0, v0			; GFX11-NEXT: v_rndne_f16_e32 v0, v0
	; GFX11-NEXT: v_rndne_f16_e32 v1, v1			; GFX11-NEXT: v_rndne_f16_e32 v1, v1
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%x.fneg = fneg <2 x half> %x			%x.fneg = fneg <2 x half> %x
	%roundeven = call <2 x half> @llvm.roundeven.v2f16(<2 x half> %x.fneg)			%roundeven = call <2 x half> @llvm.roundeven.v2f16(<2 x half> %x.fneg)
	ret <2 x half> %roundeven			ret <2 x half> %roundeven
	}			}

	define <4 x half> @v_roundeven_v4f16(<4 x half> %x) {			define <4 x half> @v_roundeven_v4f16(<4 x half> %x) {
	; GFX6-LABEL: v_roundeven_v4f16:			; GFX6-LABEL: v_roundeven_v4f16:
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	;			;
	; GFX9-LABEL: v_roundeven_v4f16:			; GFX9-LABEL: v_roundeven_v4f16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_rndne_f16_e32 v2, v0			; GFX9-NEXT: v_rndne_f16_e32 v2, v0
	; GFX9-NEXT: v_rndne_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_rndne_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-NEXT: v_rndne_f16_e32 v3, v1			; GFX9-NEXT: v_rndne_f16_e32 v3, v1
	; GFX9-NEXT: v_rndne_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_rndne_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-NEXT: v_lshl_or_b32 v0, v0, 16, v2			; GFX9-NEXT: v_pack_b32_f16 v0, v2, v0
	; GFX9-NEXT: v_lshl_or_b32 v1, v1, 16, v3			; GFX9-NEXT: v_pack_b32_f16 v1, v3, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_roundeven_v4f16:			; GFX10-LABEL: v_roundeven_v4f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_rndne_f16_e32 v2, v0			; GFX10-NEXT: v_rndne_f16_e32 v2, v0
	; GFX10-NEXT: v_rndne_f16_e32 v3, v1
	; GFX10-NEXT: v_rndne_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_rndne_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
				; GFX10-NEXT: v_rndne_f16_e32 v3, v1
	; GFX10-NEXT: v_rndne_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_rndne_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX10-NEXT: v_and_b32_e32 v2, 0xffff, v2			; GFX10-NEXT: v_pack_b32_f16 v0, v2, v0
	; GFX10-NEXT: v_and_b32_e32 v3, 0xffff, v3			; GFX10-NEXT: v_pack_b32_f16 v1, v3, v1
	; GFX10-NEXT: v_lshl_or_b32 v0, v0, 16, v2
	; GFX10-NEXT: v_lshl_or_b32 v1, v1, 16, v3
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_roundeven_v4f16:			; GFX11-LABEL: v_roundeven_v4f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: s_waitcnt_vscnt null, 0x0			; GFX11-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v1
	; GFX11-NEXT: v_rndne_f16_e32 v0, v0			; GFX11-NEXT: v_rndne_f16_e32 v0, v0
	; GFX11-NEXT: v_rndne_f16_e32 v1, v1			; GFX11-NEXT: v_rndne_f16_e32 v1, v1
	; GFX11-NEXT: v_rndne_f16_e32 v2, v2			; GFX11-NEXT: v_rndne_f16_e32 v2, v2
	; GFX11-NEXT: v_rndne_f16_e32 v3, v3			; GFX11-NEXT: v_rndne_f16_e32 v3, v3
	; GFX11-NEXT: v_and_b32_e32 v0, 0xffff, v0			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v2
	; GFX11-NEXT: v_and_b32_e32 v1, 0xffff, v1			; GFX11-NEXT: v_pack_b32_f16 v1, v1, v3
	; GFX11-NEXT: v_lshl_or_b32 v0, v2, 16, v0
	; GFX11-NEXT: v_lshl_or_b32 v1, v3, 16, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%roundeven = call <4 x half> @llvm.roundeven.v4f16(<4 x half> %x)			%roundeven = call <4 x half> @llvm.roundeven.v4f16(<4 x half> %x)
	ret <4 x half> %roundeven			ret <4 x half> %roundeven
	}			}


	define float @v_roundeven_f32_fabs(float %x) {			define float @v_roundeven_f32_fabs(float %x) {
	; GFX6-LABEL: v_roundeven_f32_fabs:			; GFX6-LABEL: v_roundeven_f32_fabs:
	▲ Show 20 Lines • Show All 260 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/v_pack.ll

	Show First 20 Lines • Show All 166 Lines • ▼ Show 20 Lines
	; GISEL-NEXT: v_lshlrev_b32_e32 v0, 1, v0			; GISEL-NEXT: v_lshlrev_b32_e32 v0, 1, v0
	; GISEL-NEXT: s_waitcnt lgkmcnt(0)			; GISEL-NEXT: s_waitcnt lgkmcnt(0)
	; GISEL-NEXT: global_load_ushort v1, v0, s[0:1] glc dlc			; GISEL-NEXT: global_load_ushort v1, v0, s[0:1] glc dlc
	; GISEL-NEXT: s_waitcnt vmcnt(0)			; GISEL-NEXT: s_waitcnt vmcnt(0)
	; GISEL-NEXT: global_load_ushort v2, v0, s[2:3] glc dlc			; GISEL-NEXT: global_load_ushort v2, v0, s[2:3] glc dlc
	; GISEL-NEXT: s_waitcnt vmcnt(0)			; GISEL-NEXT: s_waitcnt vmcnt(0)
	; GISEL-NEXT: v_add_f16_e32 v0, 2.0, v1			; GISEL-NEXT: v_add_f16_e32 v0, 2.0, v1
	; GISEL-NEXT: v_add_f16_e32 v1, 2.0, v2			; GISEL-NEXT: v_add_f16_e32 v1, 2.0, v2
	; GISEL-NEXT: v_and_b32_e32 v0, 0x7fff, v0			; GISEL-NEXT: v_pack_b32_f16 v0, \|v0\|, \|v1\|
	; GISEL-NEXT: v_and_b32_e32 v1, 0x7fff, v1
	; GISEL-NEXT: v_and_b32_e32 v0, 0xffff, v0
	; GISEL-NEXT: v_lshl_or_b32 v0, v1, 16, v0
	; GISEL-NEXT: ;;#ASMSTART			; GISEL-NEXT: ;;#ASMSTART
	; GISEL-NEXT: ; use v0			; GISEL-NEXT: ; use v0
	; GISEL-NEXT: ;;#ASMEND			; GISEL-NEXT: ;;#ASMEND
	; GISEL-NEXT: s_endpgm			; GISEL-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%tid.ext = sext i32 %tid to i64			%tid.ext = sext i32 %tid to i64
	%in0.gep = getelementptr inbounds half, half addrspace(1)* %in0, i64 %tid.ext			%in0.gep = getelementptr inbounds half, half addrspace(1)* %in0, i64 %tid.ext
	%in1.gep = getelementptr inbounds half, half addrspace(1)* %in1, i64 %tid.ext			%in1.gep = getelementptr inbounds half, half addrspace(1)* %in1, i64 %tid.ext
	▲ Show 20 Lines • Show All 71 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU][GISel] Update `isCanonicalized`
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 464270

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-sub-mul.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-sub-neg-mul.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-foldable-fneg.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/fdiv.f16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/roundeven.ll

llvm/test/CodeGen/AMDGPU/v_pack.ll

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU][GISel] Update `isCanonicalized`ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 464270

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-sub-mul.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-sub-neg-mul.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-foldable-fneg.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/fdiv.f16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/roundeven.ll

llvm/test/CodeGen/AMDGPU/v_pack.ll

[AMDGPU][GISel] Update `isCanonicalized`
ClosedPublic