This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU: Always use v_rcp_f16 and v_rsq_f16
ClosedPublic

Authored by arsenm on Jul 5 2023, 9:02 AM.

Download Raw Diff

Details

Reviewers

foad
rampitec
b-sumner
Pierre-vh
jhuber6

Group Reviewers

Restricted Project

Summary

These inherited the fast math checks from f32, but the manual suggests
these should be accurate enough for unconditional use. The definition
of correctly rounded is 0.5ulp, but the manual says "0.51ulp". I've
been a bit nervous about changing this as the OpenCL conformance test
does not cover half. Brute force produces identical values compared to
a reference host implementation for all values.

Diff Detail

Event Timeline

arsenm created this revision.Jul 5 2023, 9:02 AM

Herald added a project: Restricted Project. · View Herald TranscriptJul 5 2023, 9:02 AM

Herald added subscribers: StephenFan, kerbowa, hiraditya and 6 others. · View Herald Transcript

arsenm requested review of this revision.Jul 5 2023, 9:02 AM

Herald added a project: Restricted Project. · View Herald TranscriptJul 5 2023, 9:02 AM

Herald added subscribers: wangpc, wdng. · View Herald Transcript

Harbormaster completed remote builds in B243234: Diff 537379.Jul 5 2023, 9:02 AM

There is 'half' subtest of the OCL conformance. Not sure it covers it, but I would run it. Otherwise LGTM.

This revision is now accepted and ready to land.Jul 5 2023, 12:32 PM

In D154517#4474842, @rampitec wrote:

There is 'half' subtest of the OCL conformance. Not sure it covers it, but I would run it. Otherwise LGTM.

It doesn't. Even more disturbing is the regular reciprocal test for f32/f64 is commented out

9c82dc6a6ba1f3d75b5547680e0a8532684879c9

Brute force produces identical values compared to a reference host implementation for all values.

Have you tested v_sqrt_f16 or any other f16 trans instructions?

In D154517#4476671, @foad wrote:

Brute force produces identical values compared to a reference host implementation for all values.

Have you tested v_sqrt_f16 or any other f16 trans instructions?

Haven't gotten there yet

In D154517#4478712, @arsenm wrote:

In D154517#4476671, @foad wrote:

Brute force produces identical values compared to a reference host implementation for all values.

Have you tested v_sqrt_f16 or any other f16 trans instructions?

Haven't gotten there yet

v_sqrt_f16 is identical.
v_log_f16 is is identical.
v_exp_f16 has a single value differ: ref=0x1p+0 inst=0x1.004p+0

I'm also comparing these by cast to float host implementations, maybe a proper f16 implementation would have rounded these differences differently?

I think I'm doing something wrong with the pre-scaling for sin/cos, those results just seem totally wrong

v_exp_f16 has a single value differ: ref=0x1p+0 inst=0x1.004p+0

For what input value?

foad added inline comments.Oct 13 2023, 5:17 AM

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp
4152–4155	Comments don't match the code. https://github.com/llvm/llvm-project/pull/68982 fixes the comments.
llvm/lib/Target/AMDGPU/SIISelLowering.cpp
9172–9175	Same.

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

AMDGPUCodeGenPrepare.cpp

16 lines

AMDGPULegalizerInfo.cpp

25 lines

SIISelLowering.cpp

23 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

767 lines

63 lines

9 lines

45 lines

Diff 537379

llvm/lib/Target/AMDGPU/AMDGPUCodeGenPrepare.cpp

	Show First 20 Lines • Show All 829 Lines • ▼ Show 20 Lines
	//			//
	// With fdiv.fast:			// With fdiv.fast:
	// a/b -> fdiv.fast(a, b) when !fpmath >= 2.5ulp with denormals flushed.			// a/b -> fdiv.fast(a, b) when !fpmath >= 2.5ulp with denormals flushed.
	//			//
	// 1/x -> fdiv.fast(1,x) when !fpmath >= 2.5ulp.			// 1/x -> fdiv.fast(1,x) when !fpmath >= 2.5ulp.
	//			//
	// NOTE: rcp is the preference in cases that both are legal.			// NOTE: rcp is the preference in cases that both are legal.
	bool AMDGPUCodeGenPrepareImpl::visitFDiv(BinaryOperator &FDiv) {			bool AMDGPUCodeGenPrepareImpl::visitFDiv(BinaryOperator &FDiv) {

	Type *Ty = FDiv.getType()->getScalarType();			Type *Ty = FDiv.getType()->getScalarType();
				if (!Ty->isFloatTy())
	// The f64 rcp/rsq approximations are pretty inaccurate. We can do an
	// expansion around them in codegen.
	if (Ty->isDoubleTy())
	return false;			return false;

	// No intrinsic for fdiv16 if target does not support f16.			// The f64 rcp/rsq approximations are pretty inaccurate. We can do an
	if (Ty->isHalfTy() && !ST->has16BitInsts())			// expansion around them in codegen. f16 is good enough to always use.
	return false;

	const FPMathOperator *FPOp = cast<const FPMathOperator>(&FDiv);			const FPMathOperator *FPOp = cast<const FPMathOperator>(&FDiv);
	const float ReqdAccuracy = FPOp->getFPAccuracy();			const float ReqdAccuracy = FPOp->getFPAccuracy();

	// Inaccurate rcp is allowed with unsafe-fp-math or afn.			// Inaccurate rcp is allowed with unsafe-fp-math or afn.
	FastMathFlags FMF = FPOp->getFastMathFlags();			FastMathFlags FMF = FPOp->getFastMathFlags();
	const bool AllowInaccurateRcp = HasUnsafeFPMath \|\| FMF.approxFunc();			const bool AllowInaccurateRcp = HasUnsafeFPMath \|\| FMF.approxFunc();

	// rcp_f16 is accurate for !fpmath >= 1.0ulp.			// rcp_f16 is accurate to 0.51 ulp.
	// rcp_f32 is accurate for !fpmath >= 1.0ulp and denormals are flushed.			// rcp_f32 is accurate for !fpmath >= 1.0ulp and denormals are flushed.
	// rcp_f64 is never accurate.			// rcp_f64 is never accurate.
	const bool RcpIsAccurate = (Ty->isHalfTy() && ReqdAccuracy >= 1.0f) \|\|			const bool RcpIsAccurate = !HasFP32Denormals && ReqdAccuracy >= 1.0f;
	(Ty->isFloatTy() && !HasFP32Denormals && ReqdAccuracy >= 1.0f);

	IRBuilder<> Builder(FDiv.getParent(), std::next(FDiv.getIterator()));			IRBuilder<> Builder(FDiv.getParent(), std::next(FDiv.getIterator()));
	Builder.setFastMathFlags(FMF);			Builder.setFastMathFlags(FMF);
	Builder.SetCurrentDebugLocation(FDiv.getDebugLoc());			Builder.SetCurrentDebugLocation(FDiv.getDebugLoc());

	Value *Num = FDiv.getOperand(0);			Value *Num = FDiv.getOperand(0);
	Value *Den = FDiv.getOperand(1);			Value *Den = FDiv.getOperand(1);

	▲ Show 20 Lines • Show All 1,033 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp

Show First 20 Lines • Show All 4,105 Lines • ▼ Show 20 Lines	bool AMDGPULegalizerInfo::legalizeFastUnsafeFDIV(MachineInstr &MI,
MachineIRBuilder &B) const {		MachineIRBuilder &B) const {
Register Res = MI.getOperand(0).getReg();		Register Res = MI.getOperand(0).getReg();
Register LHS = MI.getOperand(1).getReg();		Register LHS = MI.getOperand(1).getReg();
Register RHS = MI.getOperand(2).getReg();		Register RHS = MI.getOperand(2).getReg();
uint16_t Flags = MI.getFlags();		uint16_t Flags = MI.getFlags();
LLT ResTy = MRI.getType(Res);		LLT ResTy = MRI.getType(Res);

const MachineFunction &MF = B.getMF();		const MachineFunction &MF = B.getMF();
bool AllowInaccurateRcp = MF.getTarget().Options.UnsafeFPMath \|\|		bool AllowInaccurateRcp = MI.getFlag(MachineInstr::FmAfn) \|\|
MI.getFlag(MachineInstr::FmAfn);		MF.getTarget().Options.UnsafeFPMath;

if (!AllowInaccurateRcp)		if (auto CLHS = getConstantFPVRegVal(LHS, MRI)) {
		if (!AllowInaccurateRcp && ResTy != LLT::scalar(16))
return false;		return false;

if (auto CLHS = getConstantFPVRegVal(LHS, MRI)) {		// v_rcp_f32 and v_rsq_f32 do not support denormals, and according to
		// the CI documentation has a worst case error of 1 ulp.
		// OpenCL requires <= 2.5 ulp for 1.0 / x, so it should always be OK to
		// use it as long as we aren't trying to use denormals.
		//
		// v_rcp_f16 and v_rsq_f16 DO support denormals and 0.51ulp.

// 1 / x -> RCP(x)		// 1 / x -> RCP(x)
if (CLHS->isExactlyValue(1.0)) {		if (CLHS->isExactlyValue(1.0)) {
B.buildIntrinsic(Intrinsic::amdgcn_rcp, Res, false)		B.buildIntrinsic(Intrinsic::amdgcn_rcp, Res, false)
.addUse(RHS)		.addUse(RHS)
.setMIFlags(Flags);		.setMIFlags(Flags);

MI.eraseFromParent();		MI.eraseFromParent();
return true;		return true;
}		}

		// TODO: Match rsq

// -1 / x -> RCP( FNEG(x) )		// -1 / x -> RCP( FNEG(x) )
if (CLHS->isExactlyValue(-1.0)) {		if (CLHS->isExactlyValue(-1.0)) {
auto FNeg = B.buildFNeg(ResTy, RHS, Flags);		auto FNeg = B.buildFNeg(ResTy, RHS, Flags);
B.buildIntrinsic(Intrinsic::amdgcn_rcp, Res, false)		B.buildIntrinsic(Intrinsic::amdgcn_rcp, Res, false)
.addUse(FNeg.getReg(0))		.addUse(FNeg.getReg(0))
.setMIFlags(Flags);		.setMIFlags(Flags);

MI.eraseFromParent();		MI.eraseFromParent();
return true;		return true;
}		}
}		}

		// For f16 require arcp only.
		// For f32 require afn+arcp.
		if (!AllowInaccurateRcp && (ResTy != LLT::scalar(16) \|\|
		!MI.getFlag(MachineInstr::FmArcp)))
		foadUnsubmitted Not Done Reply Inline Actions Comments don't match the code. https://github.com/llvm/llvm-project/pull/68982 fixes the comments. foad: Comments don't match the code. https://github.com/llvm/llvm-project/pull/68982 fixes the…
		return false;

// x / y -> x * (1.0 / y)		// x / y -> x * (1.0 / y)
auto RCP = B.buildIntrinsic(Intrinsic::amdgcn_rcp, {ResTy}, false)		auto RCP = B.buildIntrinsic(Intrinsic::amdgcn_rcp, {ResTy}, false)
.addUse(RHS)		.addUse(RHS)
.setMIFlags(Flags);		.setMIFlags(Flags);
B.buildFMul(Res, LHS, RCP, Flags);		B.buildFMul(Res, LHS, RCP, Flags);

MI.eraseFromParent();		MI.eraseFromParent();
return true;		return true;
▲ Show 20 Lines • Show All 2,223 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 9,124 Lines • ▼ Show 20 Lines
	SDValue SITargetLowering::lowerFastUnsafeFDIV(SDValue Op,			SDValue SITargetLowering::lowerFastUnsafeFDIV(SDValue Op,
	SelectionDAG &DAG) const {			SelectionDAG &DAG) const {
	SDLoc SL(Op);			SDLoc SL(Op);
	SDValue LHS = Op.getOperand(0);			SDValue LHS = Op.getOperand(0);
	SDValue RHS = Op.getOperand(1);			SDValue RHS = Op.getOperand(1);
	EVT VT = Op.getValueType();			EVT VT = Op.getValueType();
	const SDNodeFlags Flags = Op->getFlags();			const SDNodeFlags Flags = Op->getFlags();

	bool AllowInaccurateRcp = Flags.hasApproximateFuncs();			bool AllowInaccurateRcp = Flags.hasApproximateFuncs() \|\|
				DAG.getTarget().Options.UnsafeFPMath;

				if (const ConstantFPSDNode *CLHS = dyn_cast<ConstantFPSDNode>(LHS)) {
	// Without !fpmath accuracy information, we can't do more because we don't			// Without !fpmath accuracy information, we can't do more because we don't
	// know exactly whether rcp is accurate enough to meet !fpmath requirement.			// know exactly whether rcp is accurate enough to meet !fpmath requirement.
	if (!AllowInaccurateRcp)			// f16 is always accurate enough
				if (!AllowInaccurateRcp && VT != MVT::f16)
	return SDValue();			return SDValue();

	if (const ConstantFPSDNode *CLHS = dyn_cast<ConstantFPSDNode>(LHS)) {
	if (CLHS->isExactlyValue(1.0)) {			if (CLHS->isExactlyValue(1.0)) {
	// v_rcp_f32 and v_rsq_f32 do not support denormals, and according to			// v_rcp_f32 and v_rsq_f32 do not support denormals, and according to
	// the CI documentation has a worst case error of 1 ulp.			// the CI documentation has a worst case error of 1 ulp.
	// OpenCL requires <= 2.5 ulp for 1.0 / x, so it should always be OK to			// OpenCL requires <= 2.5 ulp for 1.0 / x, so it should always be OK to
	// use it as long as we aren't trying to use denormals.			// use it as long as we aren't trying to use denormals.
	//			//
	// v_rcp_f16 and v_rsq_f16 DO support denormals.			// v_rcp_f16 and v_rsq_f16 DO support denormals and 0.51ulp.

	// 1.0 / sqrt(x) -> rsq(x)			// 1.0 / sqrt(x) -> rsq(x)

	// XXX - Is UnsafeFPMath sufficient to do this for f64? The maximum ULP			// XXX - Is UnsafeFPMath sufficient to do this for f64? The maximum ULP
	// error seems really high at 2^29 ULP.			// error seems really high at 2^29 ULP.

				// XXX - do we need afn for this or is arcp sufficent?
	if (RHS.getOpcode() == ISD::FSQRT)			if (RHS.getOpcode() == ISD::FSQRT)
	return DAG.getNode(AMDGPUISD::RSQ, SL, VT, RHS.getOperand(0));			return DAG.getNode(AMDGPUISD::RSQ, SL, VT, RHS.getOperand(0));

	// 1.0 / x -> rcp(x)			// 1.0 / x -> rcp(x)
	return DAG.getNode(AMDGPUISD::RCP, SL, VT, RHS);			return DAG.getNode(AMDGPUISD::RCP, SL, VT, RHS);
	}			}

	// Same as for 1.0, but expand the sign out of the constant.			// Same as for 1.0, but expand the sign out of the constant.
	if (CLHS->isExactlyValue(-1.0)) {			if (CLHS->isExactlyValue(-1.0)) {
	// -1.0 / x -> rcp (fneg x)			// -1.0 / x -> rcp (fneg x)
	SDValue FNegRHS = DAG.getNode(ISD::FNEG, SL, VT, RHS);			SDValue FNegRHS = DAG.getNode(ISD::FNEG, SL, VT, RHS);
	return DAG.getNode(AMDGPUISD::RCP, SL, VT, FNegRHS);			return DAG.getNode(AMDGPUISD::RCP, SL, VT, FNegRHS);
	}			}
	}			}

				// For f16 require arcp only.
				// For f32 require afn+arcp.
				if (!AllowInaccurateRcp && (VT != MVT::f16 \|\| !Flags.hasAllowReciprocal()))
				return SDValue();
				foadUnsubmitted Not Done Reply Inline Actions Same. foad: Same.

	// Turn into multiply by the reciprocal.			// Turn into multiply by the reciprocal.
	// x / y -> x * (1.0 / y)			// x / y -> x * (1.0 / y)
	SDValue Recip = DAG.getNode(AMDGPUISD::RCP, SL, VT, RHS);			SDValue Recip = DAG.getNode(AMDGPUISD::RCP, SL, VT, RHS);
	return DAG.getNode(ISD::FMUL, SL, VT, LHS, Recip, Flags);			return DAG.getNode(ISD::FMUL, SL, VT, LHS, Recip, Flags);
	}			}

	SDValue SITargetLowering::lowerFastUnsafeFDIV64(SDValue Op,			SDValue SITargetLowering::lowerFastUnsafeFDIV64(SDValue Op,
	SelectionDAG &DAG) const {			SelectionDAG &DAG) const {
	▲ Show 20 Lines • Show All 5,074 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/fdiv.f16.ll

	Show First 20 Lines • Show All 248 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v1			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v1
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX89-LABEL: v_neg_rcp_f16:			; GFX89-LABEL: v_neg_rcp_f16:
	; GFX89: ; %bb.0:			; GFX89: ; %bb.0:
	; GFX89-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX89-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX89-NEXT: v_cvt_f32_f16_e32 v1, v0			; GFX89-NEXT: v_rcp_f16_e64 v0, -v0
	; GFX89-NEXT: v_cvt_f32_f16_e32 v2, -1.0
	; GFX89-NEXT: v_rcp_f32_e32 v1, v1
	; GFX89-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX89-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX89-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0
	; GFX89-NEXT: s_setpc_b64 s[30:31]			; GFX89-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_neg_rcp_f16:			; GFX10PLUS-LABEL: v_neg_rcp_f16:
	; GFX10: ; %bb.0:			; GFX10PLUS: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10PLUS-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_cvt_f32_f16_e32 v1, v0			; GFX10PLUS-NEXT: v_rcp_f16_e64 v0, -v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, -1.0			; GFX10PLUS-NEXT: s_setpc_b64 s[30:31]
	; GFX10-NEXT: v_rcp_f32_e32 v1, v1
	; GFX10-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX10-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX10-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0
	; GFX10-NEXT: s_setpc_b64 s[30:31]
	;
	; GFX11-LABEL: v_neg_rcp_f16:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, -1.0
	; GFX11-NEXT: v_rcp_f32_e32 v1, v1
	; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX11-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX11-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0
	; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv half -1.0, %x			%fdiv = fdiv half -1.0, %x
	ret half %fdiv			ret half %fdiv
	}			}

	define half @v_rcp_f16(half %x) {			define half @v_rcp_f16(half %x) {
	; GFX6-IEEE-LABEL: v_rcp_f16:			; GFX6-IEEE-LABEL: v_rcp_f16:
	; GFX6-IEEE: ; %bb.0:			; GFX6-IEEE: ; %bb.0:
	; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	Show All 33 Lines
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v1			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v1
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX89-LABEL: v_rcp_f16:			; GFX89-LABEL: v_rcp_f16:
	; GFX89: ; %bb.0:			; GFX89: ; %bb.0:
	; GFX89-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX89-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX89-NEXT: v_cvt_f32_f16_e32 v1, v0			; GFX89-NEXT: v_rcp_f16_e32 v0, v0
	; GFX89-NEXT: v_cvt_f32_f16_e32 v2, 1.0
	; GFX89-NEXT: v_rcp_f32_e32 v1, v1
	; GFX89-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX89-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX89-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX89-NEXT: s_setpc_b64 s[30:31]			; GFX89-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_rcp_f16:			; GFX10PLUS-LABEL: v_rcp_f16:
	; GFX10: ; %bb.0:			; GFX10PLUS: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10PLUS-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_cvt_f32_f16_e32 v1, v0			; GFX10PLUS-NEXT: v_rcp_f16_e32 v0, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, 1.0			; GFX10PLUS-NEXT: s_setpc_b64 s[30:31]
	; GFX10-NEXT: v_rcp_f32_e32 v1, v1
	; GFX10-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX10-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX10-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX10-NEXT: s_setpc_b64 s[30:31]
	;
	; GFX11-LABEL: v_rcp_f16:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, 1.0
	; GFX11-NEXT: v_rcp_f32_e32 v1, v1
	; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX11-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX11-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv half 1.0, %x			%fdiv = fdiv half 1.0, %x
	ret half %fdiv			ret half %fdiv
	}			}

	define half @v_rcp_f16_arcp(half %x) {			define half @v_rcp_f16_arcp(half %x) {
	; GFX6-IEEE-LABEL: v_rcp_f16_arcp:			; GFX6-IEEE-LABEL: v_rcp_f16_arcp:
	; GFX6-IEEE: ; %bb.0:			; GFX6-IEEE: ; %bb.0:
	; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-IEEE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	Show All 33 Lines
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v1			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v1
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX89-LABEL: v_rcp_f16_arcp:			; GFX89-LABEL: v_rcp_f16_arcp:
	; GFX89: ; %bb.0:			; GFX89: ; %bb.0:
	; GFX89-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX89-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX89-NEXT: v_cvt_f32_f16_e32 v1, v0			; GFX89-NEXT: v_rcp_f16_e32 v0, v0
	; GFX89-NEXT: v_cvt_f32_f16_e32 v2, 1.0
	; GFX89-NEXT: v_rcp_f32_e32 v1, v1
	; GFX89-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX89-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX89-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX89-NEXT: s_setpc_b64 s[30:31]			; GFX89-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_rcp_f16_arcp:			; GFX10PLUS-LABEL: v_rcp_f16_arcp:
	; GFX10: ; %bb.0:			; GFX10PLUS: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10PLUS-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_cvt_f32_f16_e32 v1, v0			; GFX10PLUS-NEXT: v_rcp_f16_e32 v0, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, 1.0			; GFX10PLUS-NEXT: s_setpc_b64 s[30:31]
	; GFX10-NEXT: v_rcp_f32_e32 v1, v1
	; GFX10-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX10-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX10-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX10-NEXT: s_setpc_b64 s[30:31]
	;
	; GFX11-LABEL: v_rcp_f16_arcp:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, 1.0
	; GFX11-NEXT: v_rcp_f32_e32 v1, v1
	; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX11-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX11-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv arcp half 1.0, %x			%fdiv = fdiv arcp half 1.0, %x
	ret half %fdiv			ret half %fdiv
	}			}

	define half @v_rcp_f16_arcp_afn(half %x) {			define half @v_rcp_f16_arcp_afn(half %x) {
	; GFX6-LABEL: v_rcp_f16_arcp_afn:			; GFX6-LABEL: v_rcp_f16_arcp_afn:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX6-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	▲ Show 20 Lines • Show All 152 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v1, v0			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v1, v0
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX89-LABEL: v_fdiv_f16_arcp_ulp25:			; GFX89-LABEL: v_fdiv_f16_arcp_ulp25:
	; GFX89: ; %bb.0:			; GFX89: ; %bb.0:
	; GFX89-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX89-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX89-NEXT: v_cvt_f32_f16_e32 v2, v1			; GFX89-NEXT: v_rcp_f16_e32 v1, v1
	; GFX89-NEXT: v_cvt_f32_f16_e32 v3, v0			; GFX89-NEXT: v_mul_f16_e32 v0, v0, v1
	; GFX89-NEXT: v_rcp_f32_e32 v2, v2
	; GFX89-NEXT: v_mul_f32_e32 v2, v3, v2
	; GFX89-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX89-NEXT: v_div_fixup_f16 v0, v2, v1, v0
	; GFX89-NEXT: s_setpc_b64 s[30:31]			; GFX89-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_fdiv_f16_arcp_ulp25:			; GFX10-LABEL: v_fdiv_f16_arcp_ulp25:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v1			; GFX10-NEXT: v_rcp_f16_e32 v1, v1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v0			; GFX10-NEXT: v_mul_f16_e32 v0, v0, v1
	; GFX10-NEXT: v_rcp_f32_e32 v2, v2
	; GFX10-NEXT: v_mul_f32_e32 v2, v3, v2
	; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX10-NEXT: v_div_fixup_f16 v0, v2, v1, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_fdiv_f16_arcp_ulp25:			; GFX11-LABEL: v_fdiv_f16_arcp_ulp25:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v1			; GFX11-NEXT: v_rcp_f16_e32 v1, v1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v0
	; GFX11-NEXT: v_rcp_f32_e32 v2, v2
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v2, v3, v2			; GFX11-NEXT: v_mul_f16_e32 v0, v0, v1
	; GFX11-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX11-NEXT: v_div_fixup_f16 v0, v2, v1, v0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv arcp half %a, %b, !fpmath !0			%fdiv = fdiv arcp half %a, %b, !fpmath !0
	ret half %fdiv			ret half %fdiv
	}			}

	define <2 x half> @v_fdiv_v2f16(<2 x half> %a, <2 x half> %b) {			define <2 x half> @v_fdiv_v2f16(<2 x half> %a, <2 x half> %b) {
	; GFX6-IEEE-LABEL: v_fdiv_v2f16:			; GFX6-IEEE-LABEL: v_fdiv_v2f16:
	; GFX6-IEEE: ; %bb.0:			; GFX6-IEEE: ; %bb.0:
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v2, v3, v1			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v2, v3, v1
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_fdiv_v2f16:			; GFX8-LABEL: v_fdiv_v2f16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1
	; GFX8-NEXT: v_cvt_f32_f16_e32 v2, v1			; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX8-NEXT: v_cvt_f32_f16_e32 v5, v4			; GFX8-NEXT: v_cvt_f32_f16_e32 v5, v4
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v0			; GFX8-NEXT: v_cvt_f32_f16_e32 v6, v0
	; GFX8-NEXT: v_rcp_f32_e32 v2, v2			; GFX8-NEXT: v_rcp_f32_e32 v3, v3
	; GFX8-NEXT: v_cvt_f32_f16_e32 v7, v6			; GFX8-NEXT: v_cvt_f32_f16_e32 v7, v2
	; GFX8-NEXT: v_rcp_f32_e32 v5, v5			; GFX8-NEXT: v_rcp_f32_e32 v5, v5
	; GFX8-NEXT: v_mul_f32_e32 v2, v3, v2			; GFX8-NEXT: v_mul_f32_e32 v3, v6, v3
	; GFX8-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX8-NEXT: v_mul_f32_e32 v3, v7, v5
	; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX8-NEXT: v_div_fixup_f16 v0, v2, v1, v0			; GFX8-NEXT: v_mul_f32_e32 v5, v7, v5
	; GFX8-NEXT: v_div_fixup_f16 v1, v3, v4, v6			; GFX8-NEXT: v_cvt_f16_f32_e32 v5, v5
				; GFX8-NEXT: v_div_fixup_f16 v0, v3, v1, v0
				; GFX8-NEXT: v_div_fixup_f16 v1, v5, v4, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_fdiv_v2f16:			; GFX9-LABEL: v_fdiv_v2f16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 16, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 16, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v1			; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v5, v4			; GFX9-NEXT: v_cvt_f32_f16_e32 v5, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v0			; GFX9-NEXT: v_cvt_f32_f16_e32 v6, v0
	; GFX9-NEXT: v_rcp_f32_e32 v2, v2			; GFX9-NEXT: v_rcp_f32_e32 v3, v3
	; GFX9-NEXT: v_cvt_f32_f16_e32 v7, v6			; GFX9-NEXT: v_cvt_f32_f16_e32 v7, v2
	; GFX9-NEXT: v_rcp_f32_e32 v5, v5			; GFX9-NEXT: v_rcp_f32_e32 v5, v5
	; GFX9-NEXT: v_mul_f32_e32 v2, v3, v2			; GFX9-NEXT: v_mul_f32_e32 v3, v6, v3
	; GFX9-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX9-NEXT: v_mul_f32_e32 v3, v7, v5
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v0, v2, v1, v0			; GFX9-NEXT: v_mul_f32_e32 v5, v7, v5
	; GFX9-NEXT: v_div_fixup_f16 v1, v3, v4, v6			; GFX9-NEXT: v_cvt_f16_f32_e32 v5, v5
				; GFX9-NEXT: v_div_fixup_f16 v0, v3, v1, v0
				; GFX9-NEXT: v_div_fixup_f16 v1, v5, v4, v2
	; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_fdiv_v2f16:			; GFX10-LABEL: v_fdiv_v2f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	▲ Show 20 Lines • Show All 168 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v2, v3, v1			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v2, v3, v1
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_fdiv_v2f16_ulp25:			; GFX8-LABEL: v_fdiv_v2f16_ulp25:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1			; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1
	; GFX8-NEXT: v_cvt_f32_f16_e32 v2, v1			; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX8-NEXT: v_cvt_f32_f16_e32 v5, v4			; GFX8-NEXT: v_cvt_f32_f16_e32 v5, v4
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v0			; GFX8-NEXT: v_cvt_f32_f16_e32 v6, v0
	; GFX8-NEXT: v_rcp_f32_e32 v2, v2			; GFX8-NEXT: v_rcp_f32_e32 v3, v3
	; GFX8-NEXT: v_cvt_f32_f16_e32 v7, v6			; GFX8-NEXT: v_cvt_f32_f16_e32 v7, v2
	; GFX8-NEXT: v_rcp_f32_e32 v5, v5			; GFX8-NEXT: v_rcp_f32_e32 v5, v5
	; GFX8-NEXT: v_mul_f32_e32 v2, v3, v2			; GFX8-NEXT: v_mul_f32_e32 v3, v6, v3
	; GFX8-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX8-NEXT: v_mul_f32_e32 v3, v7, v5
	; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX8-NEXT: v_div_fixup_f16 v0, v2, v1, v0			; GFX8-NEXT: v_mul_f32_e32 v5, v7, v5
	; GFX8-NEXT: v_div_fixup_f16 v1, v3, v4, v6			; GFX8-NEXT: v_cvt_f16_f32_e32 v5, v5
				; GFX8-NEXT: v_div_fixup_f16 v0, v3, v1, v0
				; GFX8-NEXT: v_div_fixup_f16 v1, v5, v4, v2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_fdiv_v2f16_ulp25:			; GFX9-LABEL: v_fdiv_v2f16_ulp25:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 16, v1			; GFX9-NEXT: v_lshrrev_b32_e32 v4, 16, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v1			; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v5, v4			; GFX9-NEXT: v_cvt_f32_f16_e32 v5, v4
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v0			; GFX9-NEXT: v_cvt_f32_f16_e32 v6, v0
	; GFX9-NEXT: v_rcp_f32_e32 v2, v2			; GFX9-NEXT: v_rcp_f32_e32 v3, v3
	; GFX9-NEXT: v_cvt_f32_f16_e32 v7, v6			; GFX9-NEXT: v_cvt_f32_f16_e32 v7, v2
	; GFX9-NEXT: v_rcp_f32_e32 v5, v5			; GFX9-NEXT: v_rcp_f32_e32 v5, v5
	; GFX9-NEXT: v_mul_f32_e32 v2, v3, v2			; GFX9-NEXT: v_mul_f32_e32 v3, v6, v3
	; GFX9-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX9-NEXT: v_mul_f32_e32 v3, v7, v5
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v0, v2, v1, v0			; GFX9-NEXT: v_mul_f32_e32 v5, v7, v5
	; GFX9-NEXT: v_div_fixup_f16 v1, v3, v4, v6			; GFX9-NEXT: v_cvt_f16_f32_e32 v5, v5
				; GFX9-NEXT: v_div_fixup_f16 v0, v3, v1, v0
				; GFX9-NEXT: v_div_fixup_f16 v1, v5, v4, v2
	; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_fdiv_v2f16_ulp25:			; GFX10-LABEL: v_fdiv_v2f16_ulp25:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
	▲ Show 20 Lines • Show All 728 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v6			; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v6
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v2, v1, v4			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v2, v1, v4
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_rcp_v2f16_arcp:			; GFX8-LABEL: v_rcp_v2f16_arcp:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX8-NEXT: v_rcp_f16_e32 v1, v0
	; GFX8-NEXT: v_cvt_f32_f16_e32 v1, v0			; GFX8-NEXT: v_rcp_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v2			; GFX8-NEXT: v_mov_b32_e32 v2, 0x3c00
	; GFX8-NEXT: v_cvt_f32_f16_e32 v4, 1.0			; GFX8-NEXT: v_mul_f16_e32 v1, 1.0, v1
	; GFX8-NEXT: v_rcp_f32_e32 v1, v1			; GFX8-NEXT: v_mul_f16_sdwa v0, v2, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_rcp_f32_e32 v3, v3			; GFX8-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX8-NEXT: v_mul_f32_e32 v1, v4, v1
	; GFX8-NEXT: v_mul_f32_e32 v3, v4, v3
	; GFX8-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX8-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX8-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_rcp_v2f16_arcp:			; GFX9-LABEL: v_rcp_v2f16_arcp:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX9-NEXT: v_rcp_f16_e32 v1, v0
	; GFX9-NEXT: v_cvt_f32_f16_e32 v1, v0			; GFX9-NEXT: v_rcp_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v2			; GFX9-NEXT: v_mul_f16_e32 v1, 1.0, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v4, 1.0			; GFX9-NEXT: v_mul_f16_e32 v0, 1.0, v0
	; GFX9-NEXT: v_rcp_f32_e32 v1, v1			; GFX9-NEXT: v_pack_b32_f16 v0, v1, v0
	; GFX9-NEXT: v_rcp_f32_e32 v3, v3
	; GFX9-NEXT: v_mul_f32_e32 v1, v4, v1
	; GFX9-NEXT: v_mul_f32_e32 v3, v4, v3
	; GFX9-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX9-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0
	; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_rcp_v2f16_arcp:			; GFX10-LABEL: v_rcp_v2f16_arcp:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX10-NEXT: v_rcp_f16_e32 v1, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v0			; GFX10-NEXT: v_rcp_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, 1.0			; GFX10-NEXT: v_mul_f16_e32 v1, 1.0, v1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_mul_f16_e32 v0, 1.0, v0
	; GFX10-NEXT: v_rcp_f32_e32 v2, v2			; GFX10-NEXT: v_pack_b32_f16 v0, v1, v0
	; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_mul_f32_e32 v2, v4, v2
	; GFX10-NEXT: v_mul_f32_e32 v3, v4, v3
	; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0
	; GFX10-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0
	; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_rcp_v2f16_arcp:			; GFX11-LABEL: v_rcp_v2f16_arcp:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0			; GFX11-NEXT: v_rcp_f16_e32 v0, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, 1.0			; GFX11-NEXT: v_rcp_f16_e32 v1, v1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX11-NEXT: v_rcp_f32_e32 v2, v2
	; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v2, v4, v2			; GFX11-NEXT: v_mul_f16_e32 v0, 1.0, v0
	; GFX11-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX11-NEXT: v_mul_f16_e32 v1, 1.0, v1
	; GFX11-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0
	; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0
	; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv arcp <2 x half> <half 1.0, half 1.0>, %x			%fdiv = fdiv arcp <2 x half> <half 1.0, half 1.0>, %x
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	define <2 x half> @v_rcp_v2f16_arcp_afn(<2 x half> %x) {			define <2 x half> @v_rcp_v2f16_arcp_afn(<2 x half> %x) {
	; GFX6-LABEL: v_rcp_v2f16_arcp_afn:			; GFX6-LABEL: v_rcp_v2f16_arcp_afn:
	Show All 9 Lines
	; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX6-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX6-NEXT: s_setpc_b64 s[30:31]			; GFX6-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_rcp_v2f16_arcp_afn:			; GFX8-LABEL: v_rcp_v2f16_arcp_afn:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_rcp_f16_e32 v1, v0			; GFX8-NEXT: v_rcp_f16_e32 v1, v0
	; GFX8-NEXT: v_rcp_f16_sdwa v0, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX8-NEXT: v_rcp_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
				; GFX8-NEXT: v_mov_b32_e32 v2, 0x3c00
				; GFX8-NEXT: v_mul_f16_e32 v1, 1.0, v1
				; GFX8-NEXT: v_mul_f16_sdwa v0, v2, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; GFX8-NEXT: v_or_b32_e32 v0, v1, v0			; GFX8-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_rcp_v2f16_arcp_afn:			; GFX9-LABEL: v_rcp_v2f16_arcp_afn:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_rcp_f16_e32 v1, v0			; GFX9-NEXT: v_rcp_f16_e32 v1, v0
	; GFX9-NEXT: v_rcp_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_rcp_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
				; GFX9-NEXT: v_mul_f16_e32 v1, 1.0, v1
				; GFX9-NEXT: v_mul_f16_e32 v0, 1.0, v0
	; GFX9-NEXT: v_pack_b32_f16 v0, v1, v0			; GFX9-NEXT: v_pack_b32_f16 v0, v1, v0
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_rcp_v2f16_arcp_afn:			; GFX10-LABEL: v_rcp_v2f16_arcp_afn:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_rcp_f16_e32 v1, v0			; GFX10-NEXT: v_rcp_f16_e32 v1, v0
	; GFX10-NEXT: v_rcp_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_rcp_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
				; GFX10-NEXT: v_mul_f16_e32 v1, 1.0, v1
				; GFX10-NEXT: v_mul_f16_e32 v0, 1.0, v0
	; GFX10-NEXT: v_pack_b32_f16 v0, v1, v0			; GFX10-NEXT: v_pack_b32_f16 v0, v1, v0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_rcp_v2f16_arcp_afn:			; GFX11-LABEL: v_rcp_v2f16_arcp_afn:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX11-NEXT: v_rcp_f16_e32 v0, v0			; GFX11-NEXT: v_rcp_f16_e32 v0, v0
	; GFX11-NEXT: v_rcp_f16_e32 v1, v1			; GFX11-NEXT: v_rcp_f16_e32 v1, v1
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
				; GFX11-NEXT: v_mul_f16_e32 v0, 1.0, v0
				; GFX11-NEXT: v_mul_f16_e32 v1, 1.0, v1
	; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv arcp afn <2 x half> <half 1.0, half 1.0>, %x			%fdiv = fdiv arcp afn <2 x half> <half 1.0, half 1.0>, %x
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	define <2 x half> @v_rcp_v2f16_ulp25(<2 x half> %x) {			define <2 x half> @v_rcp_v2f16_ulp25(<2 x half> %x) {
	; GFX6-IEEE-LABEL: v_rcp_v2f16_ulp25:			; GFX6-IEEE-LABEL: v_rcp_v2f16_ulp25:
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v6			; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v6
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v2, v1, v4			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v2, v1, v4
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_rcp_v2f16_ulp25:			; GFX8-LABEL: v_rcp_v2f16_ulp25:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_rcp_f16_e32 v1, v0			; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX8-NEXT: v_rcp_f16_sdwa v0, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX8-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX8-NEXT: v_or_b32_e32 v0, v1, v0			; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v2
				; GFX8-NEXT: v_cvt_f32_f16_e32 v4, 1.0
				; GFX8-NEXT: v_rcp_f32_e32 v1, v1
				; GFX8-NEXT: v_rcp_f32_e32 v3, v3
				; GFX8-NEXT: v_mul_f32_e32 v1, v4, v1
				; GFX8-NEXT: v_mul_f32_e32 v3, v4, v3
				; GFX8-NEXT: v_cvt_f16_f32_e32 v1, v1
				; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3
				; GFX8-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
				; GFX8-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0
				; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_rcp_v2f16_ulp25:			; GFX9-LABEL: v_rcp_v2f16_ulp25:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_rcp_f16_e32 v1, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v2, 16, v0
	; GFX9-NEXT: v_rcp_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX9-NEXT: v_pack_b32_f16 v0, v1, v0			; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v2
				; GFX9-NEXT: v_cvt_f32_f16_e32 v4, 1.0
				; GFX9-NEXT: v_rcp_f32_e32 v1, v1
				; GFX9-NEXT: v_rcp_f32_e32 v3, v3
				; GFX9-NEXT: v_mul_f32_e32 v1, v4, v1
				; GFX9-NEXT: v_mul_f32_e32 v3, v4, v3
				; GFX9-NEXT: v_cvt_f16_f32_e32 v1, v1
				; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3
				; GFX9-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
				; GFX9-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0
				; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_rcp_v2f16_ulp25:			; GFX10-LABEL: v_rcp_v2f16_ulp25:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_rcp_f16_e32 v1, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX10-NEXT: v_rcp_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX10-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX10-NEXT: v_pack_b32_f16 v0, v1, v0			; GFX10-NEXT: v_cvt_f32_f16_e32 v4, 1.0
				; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1
				; GFX10-NEXT: v_rcp_f32_e32 v2, v2
				; GFX10-NEXT: v_rcp_f32_e32 v3, v3
				; GFX10-NEXT: v_mul_f32_e32 v2, v4, v2
				; GFX10-NEXT: v_mul_f32_e32 v3, v4, v3
				; GFX10-NEXT: v_cvt_f16_f32_e32 v2, v2
				; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
				; GFX10-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0
				; GFX10-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0
				; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_rcp_v2f16_ulp25:			; GFX11-LABEL: v_rcp_v2f16_ulp25:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v1, 16, v0
	; GFX11-NEXT: v_rcp_f16_e32 v0, v0			; GFX11-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX11-NEXT: v_rcp_f16_e32 v1, v1			; GFX11-NEXT: v_cvt_f32_f16_e32 v4, 1.0
				; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1
				; GFX11-NEXT: v_rcp_f32_e32 v2, v2
				; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
				; GFX11-NEXT: v_mul_f32_e32 v2, v4, v2
				; GFX11-NEXT: v_mul_f32_e32 v3, v4, v3
				; GFX11-NEXT: v_cvt_f16_f32_e32 v2, v2
				; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3
				; GFX11-NEXT: v_div_fixup_f16 v0, v2, v0, 1.0
				; GFX11-NEXT: v_div_fixup_f16 v1, v3, v1, 1.0
	; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv <2 x half> <half 1.0, half 1.0>, %x, !fpmath !0			%fdiv = fdiv <2 x half> <half 1.0, half 1.0>, %x, !fpmath !0
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	define <2 x half> @v_fdiv_v2f16_afn_ulp25(<2 x half> %a, <2 x half> %b) {			define <2 x half> @v_fdiv_v2f16_afn_ulp25(<2 x half> %a, <2 x half> %b) {
	; GFX6-LABEL: v_fdiv_v2f16_afn_ulp25:			; GFX6-LABEL: v_fdiv_v2f16_afn_ulp25:
	▲ Show 20 Lines • Show All 127 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v4, v6			; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v4, v6
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v2, v3, v1			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v2, v3, v1
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_fdiv_v2f16_arcp_ulp25:			; GFX8-LABEL: v_fdiv_v2f16_arcp_ulp25:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_lshrrev_b32_e32 v4, 16, v1			; GFX8-NEXT: v_rcp_f16_e32 v2, v1
	; GFX8-NEXT: v_cvt_f32_f16_e32 v2, v1			; GFX8-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX8-NEXT: v_cvt_f32_f16_e32 v5, v4			; GFX8-NEXT: v_mul_f16_e32 v2, v0, v2
	; GFX8-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; GFX8-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v0			; GFX8-NEXT: v_or_b32_e32 v0, v2, v0
	; GFX8-NEXT: v_rcp_f32_e32 v2, v2
	; GFX8-NEXT: v_cvt_f32_f16_e32 v7, v6
	; GFX8-NEXT: v_rcp_f32_e32 v5, v5
	; GFX8-NEXT: v_mul_f32_e32 v2, v3, v2
	; GFX8-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX8-NEXT: v_mul_f32_e32 v3, v7, v5
	; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX8-NEXT: v_div_fixup_f16 v0, v2, v1, v0
	; GFX8-NEXT: v_div_fixup_f16 v1, v3, v4, v6
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_fdiv_v2f16_arcp_ulp25:			; GFX9-LABEL: v_fdiv_v2f16_arcp_ulp25:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 16, v1			; GFX9-NEXT: v_rcp_f16_e32 v2, v1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v2, v1			; GFX9-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v5, v4			; GFX9-NEXT: v_mul_f16_e32 v2, v0, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; GFX9-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, v0			; GFX9-NEXT: v_pack_b32_f16 v0, v2, v0
	; GFX9-NEXT: v_rcp_f32_e32 v2, v2
	; GFX9-NEXT: v_cvt_f32_f16_e32 v7, v6
	; GFX9-NEXT: v_rcp_f32_e32 v5, v5
	; GFX9-NEXT: v_mul_f32_e32 v2, v3, v2
	; GFX9-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX9-NEXT: v_mul_f32_e32 v3, v7, v5
	; GFX9-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX9-NEXT: v_div_fixup_f16 v0, v2, v1, v0
	; GFX9-NEXT: v_div_fixup_f16 v1, v3, v4, v6
	; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_fdiv_v2f16_arcp_ulp25:			; GFX10-LABEL: v_fdiv_v2f16_arcp_ulp25:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX10-NEXT: v_rcp_f16_e32 v2, v1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX10-NEXT: v_rcp_f16_sdwa v1, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX10-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX10-NEXT: v_mul_f16_e32 v2, v0, v2
	; GFX10-NEXT: v_cvt_f32_f16_e32 v6, v0			; GFX10-NEXT: v_mul_f16_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; GFX10-NEXT: v_cvt_f32_f16_e32 v4, v2			; GFX10-NEXT: v_pack_b32_f16 v0, v2, v0
	; GFX10-NEXT: v_rcp_f32_e32 v3, v3
	; GFX10-NEXT: v_cvt_f32_f16_e32 v7, v5
	; GFX10-NEXT: v_rcp_f32_e32 v4, v4
	; GFX10-NEXT: v_mul_f32_e32 v3, v6, v3
	; GFX10-NEXT: v_mul_f32_e32 v4, v7, v4
	; GFX10-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX10-NEXT: v_cvt_f16_f32_e32 v4, v4
	; GFX10-NEXT: v_div_fixup_f16 v0, v3, v1, v0
	; GFX10-NEXT: v_div_fixup_f16 v1, v4, v2, v5
	; GFX10-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_fdiv_v2f16_arcp_ulp25:			; GFX11-LABEL: v_fdiv_v2f16_arcp_ulp25:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1			; GFX11-NEXT: v_lshrrev_b32_e32 v2, 16, v1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v3, v1			; GFX11-NEXT: v_rcp_f16_e32 v1, v1
	; GFX11-NEXT: v_lshrrev_b32_e32 v5, 16, v0			; GFX11-NEXT: v_lshrrev_b32_e32 v3, 16, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v6, v0			; GFX11-NEXT: v_rcp_f16_e32 v2, v2
	; GFX11-NEXT: v_cvt_f32_f16_e32 v4, v2
	; GFX11-NEXT: v_rcp_f32_e32 v3, v3
	; GFX11-NEXT: v_cvt_f32_f16_e32 v7, v5
	; GFX11-NEXT: v_rcp_f32_e32 v4, v4
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_dual_mul_f32 v3, v6, v3 :: v_dual_mul_f32 v4, v7, v4			; GFX11-NEXT: v_mul_f16_e32 v0, v0, v1
	; GFX11-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX11-NEXT: v_mul_f16_e32 v1, v3, v2
	; GFX11-NEXT: v_cvt_f16_f32_e32 v4, v4
	; GFX11-NEXT: v_div_fixup_f16 v0, v3, v1, v0
	; GFX11-NEXT: v_div_fixup_f16 v1, v4, v2, v5
	; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX11-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%fdiv = fdiv arcp <2 x half> %a, %b, !fpmath !0			%fdiv = fdiv arcp <2 x half> %a, %b, !fpmath !0
	ret <2 x half> %fdiv			ret <2 x half> %fdiv
	}			}

	define <2 x half> @v_fdiv_v2f16_arcp_afn_ulp25(<2 x half> %a, <2 x half> %b) {			define <2 x half> @v_fdiv_v2f16_arcp_afn_ulp25(<2 x half> %a, <2 x half> %b) {
	; GFX6-LABEL: v_fdiv_v2f16_arcp_afn_ulp25:			; GFX6-LABEL: v_fdiv_v2f16_arcp_afn_ulp25:
	▲ Show 20 Lines • Show All 179 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v1, v0			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v1, v0
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-FLUSH-NEXT: v_readfirstlane_b32 s0, v0			; GFX6-FLUSH-NEXT: v_readfirstlane_b32 s0, v0
	; GFX6-FLUSH-NEXT: ; return to shader part epilog			; GFX6-FLUSH-NEXT: ; return to shader part epilog
	;			;
	; GFX89-LABEL: s_fdiv_f16_arcp:			; GFX89-LABEL: s_fdiv_f16_arcp:
	; GFX89: ; %bb.0:			; GFX89: ; %bb.0:
	; GFX89-NEXT: v_cvt_f32_f16_e32 v0, s1			; GFX89-NEXT: v_rcp_f16_e32 v0, s1
	; GFX89-NEXT: v_cvt_f32_f16_e32 v1, s0			; GFX89-NEXT: v_mul_f16_e32 v0, s0, v0
	; GFX89-NEXT: v_rcp_f32_e32 v0, v0
	; GFX89-NEXT: v_mul_f32_e32 v0, v1, v0
	; GFX89-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX89-NEXT: v_mov_b32_e32 v1, s1
	; GFX89-NEXT: v_div_fixup_f16 v0, v0, v1, s0
	; GFX89-NEXT: v_readfirstlane_b32 s0, v0			; GFX89-NEXT: v_readfirstlane_b32 s0, v0
	; GFX89-NEXT: ; return to shader part epilog			; GFX89-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: s_fdiv_f16_arcp:			; GFX10-LABEL: s_fdiv_f16_arcp:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_cvt_f32_f16_e32 v0, s1			; GFX10-NEXT: v_rcp_f16_e32 v0, s1
	; GFX10-NEXT: v_cvt_f32_f16_e32 v1, s0			; GFX10-NEXT: v_mul_f16_e32 v0, s0, v0
	; GFX10-NEXT: v_rcp_f32_e32 v0, v0
	; GFX10-NEXT: v_mul_f32_e32 v0, v1, v0
	; GFX10-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX10-NEXT: v_div_fixup_f16 v0, v0, s1, s0
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX11-LABEL: s_fdiv_f16_arcp:			; GFX11-LABEL: s_fdiv_f16_arcp:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: v_cvt_f32_f16_e32 v0, s1			; GFX11-NEXT: v_rcp_f16_e32 v0, s1
	; GFX11-NEXT: v_cvt_f32_f16_e32 v1, s0
	; GFX11-NEXT: v_rcp_f32_e32 v0, v0
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v0, v1, v0			; GFX11-NEXT: v_mul_f16_e32 v0, s0, v0
	; GFX11-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX11-NEXT: v_div_fixup_f16 v0, v0, s1, s0
	; GFX11-NEXT: v_readfirstlane_b32 s0, v0			; GFX11-NEXT: v_readfirstlane_b32 s0, v0
	; GFX11-NEXT: ; return to shader part epilog			; GFX11-NEXT: ; return to shader part epilog
	%a = bitcast i16 %a.arg to half			%a = bitcast i16 %a.arg to half
	%b = bitcast i16 %b.arg to half			%b = bitcast i16 %b.arg to half
	%fdiv = fdiv arcp half %a, %b			%fdiv = fdiv arcp half %a, %b
	%result = bitcast half %fdiv to i16			%result = bitcast half %fdiv to i16
	ret i16 %result			ret i16 %result
	}			}
	▲ Show 20 Lines • Show All 115 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-FLUSH-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-FLUSH-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-FLUSH-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-FLUSH-NEXT: v_readfirstlane_b32 s0, v0			; GFX6-FLUSH-NEXT: v_readfirstlane_b32 s0, v0
	; GFX6-FLUSH-NEXT: ; return to shader part epilog			; GFX6-FLUSH-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: s_fdiv_v2f16:			; GFX8-LABEL: s_fdiv_v2f16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: v_cvt_f32_f16_e32 v0, s1			; GFX8-NEXT: v_cvt_f32_f16_e32 v0, s1
	; GFX8-NEXT: s_lshr_b32 s2, s1, 16			; GFX8-NEXT: s_lshr_b32 s3, s1, 16
	; GFX8-NEXT: v_cvt_f32_f16_e32 v2, s2			; GFX8-NEXT: v_cvt_f32_f16_e32 v1, s3
	; GFX8-NEXT: v_cvt_f32_f16_e32 v1, s0			; GFX8-NEXT: s_lshr_b32 s2, s0, 16
				; GFX8-NEXT: v_cvt_f32_f16_e32 v2, s0
	; GFX8-NEXT: v_rcp_f32_e32 v0, v0			; GFX8-NEXT: v_rcp_f32_e32 v0, v0
	; GFX8-NEXT: s_lshr_b32 s3, s0, 16			; GFX8-NEXT: v_cvt_f32_f16_e32 v3, s2
	; GFX8-NEXT: v_cvt_f32_f16_e32 v3, s3			; GFX8-NEXT: v_rcp_f32_e32 v1, v1
	; GFX8-NEXT: v_rcp_f32_e32 v2, v2			; GFX8-NEXT: v_mul_f32_e32 v0, v2, v0
	; GFX8-NEXT: v_mul_f32_e32 v0, v1, v0
	; GFX8-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX8-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX8-NEXT: v_mul_f32_e32 v1, v3, v2			; GFX8-NEXT: v_mul_f32_e32 v1, v3, v1
	; GFX8-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX8-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX8-NEXT: v_mov_b32_e32 v2, s1			; GFX8-NEXT: v_mov_b32_e32 v2, s1
	; GFX8-NEXT: v_div_fixup_f16 v0, v0, v2, s0			; GFX8-NEXT: v_div_fixup_f16 v0, v0, v2, s0
	; GFX8-NEXT: v_mov_b32_e32 v2, s2			; GFX8-NEXT: v_mov_b32_e32 v2, s3
	; GFX8-NEXT: v_div_fixup_f16 v1, v1, v2, s3			; GFX8-NEXT: v_div_fixup_f16 v1, v1, v2, s2
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_readfirstlane_b32 s0, v0			; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX9-LABEL: s_fdiv_v2f16:			; GFX9-LABEL: s_fdiv_v2f16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_cvt_f32_f16_e32 v0, s1			; GFX9-NEXT: v_cvt_f32_f16_e32 v0, s1
	; GFX9-NEXT: s_lshr_b32 s2, s1, 16			; GFX9-NEXT: s_lshr_b32 s3, s1, 16
	; GFX9-NEXT: v_cvt_f32_f16_e32 v2, s2			; GFX9-NEXT: v_cvt_f32_f16_e32 v1, s3
	; GFX9-NEXT: v_cvt_f32_f16_e32 v1, s0			; GFX9-NEXT: s_lshr_b32 s2, s0, 16
				; GFX9-NEXT: v_cvt_f32_f16_e32 v2, s0
	; GFX9-NEXT: v_rcp_f32_e32 v0, v0			; GFX9-NEXT: v_rcp_f32_e32 v0, v0
	; GFX9-NEXT: s_lshr_b32 s3, s0, 16			; GFX9-NEXT: v_cvt_f32_f16_e32 v3, s2
	; GFX9-NEXT: v_cvt_f32_f16_e32 v3, s3			; GFX9-NEXT: v_rcp_f32_e32 v1, v1
	; GFX9-NEXT: v_rcp_f32_e32 v2, v2			; GFX9-NEXT: v_mul_f32_e32 v0, v2, v0
	; GFX9-NEXT: v_mul_f32_e32 v0, v1, v0
	; GFX9-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX9-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX9-NEXT: v_mul_f32_e32 v1, v3, v2			; GFX9-NEXT: v_mul_f32_e32 v1, v3, v1
	; GFX9-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX9-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX9-NEXT: v_mov_b32_e32 v2, s1			; GFX9-NEXT: v_mov_b32_e32 v2, s1
	; GFX9-NEXT: v_div_fixup_f16 v0, v0, v2, s0			; GFX9-NEXT: v_div_fixup_f16 v0, v0, v2, s0
	; GFX9-NEXT: v_mov_b32_e32 v2, s2			; GFX9-NEXT: v_mov_b32_e32 v2, s3
	; GFX9-NEXT: v_div_fixup_f16 v1, v1, v2, s3			; GFX9-NEXT: v_div_fixup_f16 v1, v1, v2, s2
	; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1			; GFX9-NEXT: v_pack_b32_f16 v0, v0, v1
	; GFX9-NEXT: v_readfirstlane_b32 s0, v0			; GFX9-NEXT: v_readfirstlane_b32 s0, v0
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: s_fdiv_v2f16:			; GFX10-LABEL: s_fdiv_v2f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_lshr_b32 s2, s1, 16			; GFX10-NEXT: s_lshr_b32 s2, s1, 16
	; GFX10-NEXT: v_cvt_f32_f16_e32 v0, s1			; GFX10-NEXT: v_cvt_f32_f16_e32 v0, s1
	▲ Show 20 Lines • Show All 78 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v1, v0			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v1, v0
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-FLUSH-NEXT: v_readfirstlane_b32 s0, v0			; GFX6-FLUSH-NEXT: v_readfirstlane_b32 s0, v0
	; GFX6-FLUSH-NEXT: ; return to shader part epilog			; GFX6-FLUSH-NEXT: ; return to shader part epilog
	;			;
	; GFX89-LABEL: s_rcp_f16:			; GFX89-LABEL: s_rcp_f16:
	; GFX89: ; %bb.0:			; GFX89: ; %bb.0:
	; GFX89-NEXT: v_cvt_f32_f16_e32 v0, s0			; GFX89-NEXT: v_rcp_f16_e32 v0, s0
	; GFX89-NEXT: v_cvt_f32_f16_e32 v1, 1.0
	; GFX89-NEXT: v_rcp_f32_e32 v0, v0
	; GFX89-NEXT: v_mul_f32_e32 v0, v1, v0
	; GFX89-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX89-NEXT: v_div_fixup_f16 v0, v0, s0, 1.0
	; GFX89-NEXT: v_readfirstlane_b32 s0, v0			; GFX89-NEXT: v_readfirstlane_b32 s0, v0
	; GFX89-NEXT: ; return to shader part epilog			; GFX89-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: s_rcp_f16:			; GFX10-LABEL: s_rcp_f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_cvt_f32_f16_e32 v0, s0			; GFX10-NEXT: v_rcp_f16_e32 v0, s0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v1, 1.0
	; GFX10-NEXT: v_rcp_f32_e32 v0, v0
	; GFX10-NEXT: v_mul_f32_e32 v0, v1, v0
	; GFX10-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX10-NEXT: v_div_fixup_f16 v0, v0, s0, 1.0
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX11-LABEL: s_rcp_f16:			; GFX11-LABEL: s_rcp_f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: v_cvt_f32_f16_e32 v0, s0			; GFX11-NEXT: v_rcp_f16_e32 v0, s0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v1, 1.0
	; GFX11-NEXT: v_rcp_f32_e32 v0, v0
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v0, v1, v0
	; GFX11-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX11-NEXT: v_div_fixup_f16 v0, v0, s0, 1.0
	; GFX11-NEXT: v_readfirstlane_b32 s0, v0			; GFX11-NEXT: v_readfirstlane_b32 s0, v0
	; GFX11-NEXT: ; return to shader part epilog			; GFX11-NEXT: ; return to shader part epilog
	%a = bitcast i16 %a.arg to half			%a = bitcast i16 %a.arg to half
	%fdiv = fdiv half 1.0, %a			%fdiv = fdiv half 1.0, %a
	%result = bitcast half %fdiv to i16			%result = bitcast half %fdiv to i16
	ret i16 %result			ret i16 %result
	}			}

	Show All 36 Lines
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v1, v0			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v1, v0
	; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0			; GFX6-FLUSH-NEXT: s_setreg_imm32_b32 hwreg(HW_REG_MODE, 2, 2), 0
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-FLUSH-NEXT: v_readfirstlane_b32 s0, v0			; GFX6-FLUSH-NEXT: v_readfirstlane_b32 s0, v0
	; GFX6-FLUSH-NEXT: ; return to shader part epilog			; GFX6-FLUSH-NEXT: ; return to shader part epilog
	;			;
	; GFX89-LABEL: s_neg_rcp_f16:			; GFX89-LABEL: s_neg_rcp_f16:
	; GFX89: ; %bb.0:			; GFX89: ; %bb.0:
	; GFX89-NEXT: v_cvt_f32_f16_e32 v0, s0			; GFX89-NEXT: v_rcp_f16_e64 v0, -s0
	; GFX89-NEXT: v_cvt_f32_f16_e32 v1, -1.0
	; GFX89-NEXT: v_rcp_f32_e32 v0, v0
	; GFX89-NEXT: v_mul_f32_e32 v0, v1, v0
	; GFX89-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX89-NEXT: v_div_fixup_f16 v0, v0, s0, -1.0
	; GFX89-NEXT: v_readfirstlane_b32 s0, v0			; GFX89-NEXT: v_readfirstlane_b32 s0, v0
	; GFX89-NEXT: ; return to shader part epilog			; GFX89-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: s_neg_rcp_f16:			; GFX10-LABEL: s_neg_rcp_f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_cvt_f32_f16_e32 v0, s0			; GFX10-NEXT: v_rcp_f16_e64 v0, -s0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v1, -1.0
	; GFX10-NEXT: v_rcp_f32_e32 v0, v0
	; GFX10-NEXT: v_mul_f32_e32 v0, v1, v0
	; GFX10-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX10-NEXT: v_div_fixup_f16 v0, v0, s0, -1.0
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX11-LABEL: s_neg_rcp_f16:			; GFX11-LABEL: s_neg_rcp_f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: v_cvt_f32_f16_e32 v0, s0			; GFX11-NEXT: v_rcp_f16_e64 v0, -s0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v1, -1.0
	; GFX11-NEXT: v_rcp_f32_e32 v0, v0
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v0, v1, v0
	; GFX11-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX11-NEXT: v_div_fixup_f16 v0, v0, s0, -1.0
	; GFX11-NEXT: v_readfirstlane_b32 s0, v0			; GFX11-NEXT: v_readfirstlane_b32 s0, v0
	; GFX11-NEXT: ; return to shader part epilog			; GFX11-NEXT: ; return to shader part epilog
	%a = bitcast i16 %a.arg to half			%a = bitcast i16 %a.arg to half
	%fdiv = fdiv half -1.0, %a			%fdiv = fdiv half -1.0, %a
	%result = bitcast half %fdiv to i16			%result = bitcast half %fdiv to i16
	ret i16 %result			ret i16 %result
	}			}

	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v5			; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v5
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v1			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v1
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-FLUSH-NEXT: v_readfirstlane_b32 s0, v0			; GFX6-FLUSH-NEXT: v_readfirstlane_b32 s0, v0
	; GFX6-FLUSH-NEXT: ; return to shader part epilog			; GFX6-FLUSH-NEXT: ; return to shader part epilog
	;			;
	; GFX89-LABEL: s_rsq_f16:			; GFX89-LABEL: s_rsq_f16:
	; GFX89: ; %bb.0:			; GFX89: ; %bb.0:
	; GFX89-NEXT: v_sqrt_f16_e32 v0, s0			; GFX89-NEXT: v_rsq_f16_e32 v0, s0
	; GFX89-NEXT: v_cvt_f32_f16_e32 v2, 1.0
	; GFX89-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX89-NEXT: v_rcp_f32_e32 v1, v1
	; GFX89-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX89-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX89-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX89-NEXT: v_readfirstlane_b32 s0, v0			; GFX89-NEXT: v_readfirstlane_b32 s0, v0
	; GFX89-NEXT: ; return to shader part epilog			; GFX89-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: s_rsq_f16:			; GFX10-LABEL: s_rsq_f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_sqrt_f16_e32 v0, s0			; GFX10-NEXT: v_rsq_f16_e32 v0, s0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, 1.0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX10-NEXT: v_rcp_f32_e32 v1, v1
	; GFX10-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX10-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX10-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX10-NEXT: v_readfirstlane_b32 s0, v0			; GFX10-NEXT: v_readfirstlane_b32 s0, v0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX11-LABEL: s_rsq_f16:			; GFX11-LABEL: s_rsq_f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: v_sqrt_f16_e32 v0, s0			; GFX11-NEXT: v_rsq_f16_e32 v0, s0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, 1.0
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX11-NEXT: v_rcp_f32_e32 v1, v1
	; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX11-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX11-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX11-NEXT: v_readfirstlane_b32 s0, v0			; GFX11-NEXT: v_readfirstlane_b32 s0, v0
	; GFX11-NEXT: ; return to shader part epilog			; GFX11-NEXT: ; return to shader part epilog
	%a = bitcast i16 %a.arg to half			%a = bitcast i16 %a.arg to half
	%sqrt = call half @llvm.sqrt.f16(half %a)			%sqrt = call half @llvm.sqrt.f16(half %a)
	%fdiv = fdiv half 1.0, %sqrt			%fdiv = fdiv half 1.0, %sqrt
	%result = bitcast half %fdiv to i16			%result = bitcast half %fdiv to i16
	ret i16 %result			ret i16 %result
	}			}
	▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX6-FLUSH-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX6-FLUSH-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX6-FLUSH-NEXT: v_or_b32_e32 v0, v0, v1			; GFX6-FLUSH-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX6-FLUSH-NEXT: v_readfirstlane_b32 s0, v0			; GFX6-FLUSH-NEXT: v_readfirstlane_b32 s0, v0
	; GFX6-FLUSH-NEXT: ; return to shader part epilog			; GFX6-FLUSH-NEXT: ; return to shader part epilog
	;			;
	; GFX8-LABEL: s_rsq_v2f16:			; GFX8-LABEL: s_rsq_v2f16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_lshr_b32 s1, s0, 16
	; GFX8-NEXT: v_mov_b32_e32 v1, s1
	; GFX8-NEXT: v_sqrt_f16_e32 v0, s0			; GFX8-NEXT: v_sqrt_f16_e32 v0, s0
	; GFX8-NEXT: v_sqrt_f16_sdwa v1, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD			; GFX8-NEXT: s_lshr_b32 s0, s0, 16
				; GFX8-NEXT: v_sqrt_f16_e32 v1, s0
	; GFX8-NEXT: v_cvt_f32_f16_e32 v4, -1.0			; GFX8-NEXT: v_cvt_f32_f16_e32 v4, -1.0
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_cvt_f32_f16_e32 v2, v0
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v1
	; GFX8-NEXT: v_cvt_f32_f16_e32 v1, v0			; GFX8-NEXT: v_rcp_f32_e32 v2, v2
	; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX8-NEXT: v_rcp_f32_e32 v1, v1
	; GFX8-NEXT: v_rcp_f32_e32 v3, v3			; GFX8-NEXT: v_rcp_f32_e32 v3, v3
	; GFX8-NEXT: v_mul_f32_e32 v1, v4, v1			; GFX8-NEXT: v_mul_f32_e32 v2, v4, v2
				; GFX8-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX8-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX8-NEXT: v_mul_f32_e32 v3, v4, v3
	; GFX8-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX8-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0			; GFX8-NEXT: v_div_fixup_f16 v0, v2, v0, -1.0
	; GFX8-NEXT: v_div_fixup_f16 v1, v3, v2, -1.0			; GFX8-NEXT: v_div_fixup_f16 v1, v3, v1, -1.0
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX8-NEXT: v_readfirstlane_b32 s0, v0			; GFX8-NEXT: v_readfirstlane_b32 s0, v0
	; GFX8-NEXT: ; return to shader part epilog			; GFX8-NEXT: ; return to shader part epilog
	;			;
	; GFX9-LABEL: s_rsq_v2f16:			; GFX9-LABEL: s_rsq_v2f16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_sqrt_f16_e32 v0, s0			; GFX9-NEXT: v_sqrt_f16_e32 v0, s0
	▲ Show 20 Lines • Show All 108 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v5			; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v5
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v1			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v1
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX89-LABEL: v_rsq_f16:			; GFX89-LABEL: v_rsq_f16:
	; GFX89: ; %bb.0:			; GFX89: ; %bb.0:
	; GFX89-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX89-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX89-NEXT: v_sqrt_f16_e32 v0, v0			; GFX89-NEXT: v_rsq_f16_e32 v0, v0
	; GFX89-NEXT: v_cvt_f32_f16_e32 v2, 1.0
	; GFX89-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX89-NEXT: v_rcp_f32_e32 v1, v1
	; GFX89-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX89-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX89-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX89-NEXT: s_setpc_b64 s[30:31]			; GFX89-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_rsq_f16:			; GFX10PLUS-LABEL: v_rsq_f16:
	; GFX10: ; %bb.0:			; GFX10PLUS: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10PLUS-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_sqrt_f16_e32 v0, v0			; GFX10PLUS-NEXT: v_rsq_f16_e32 v0, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, 1.0			; GFX10PLUS-NEXT: s_setpc_b64 s[30:31]
	; GFX10-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX10-NEXT: v_rcp_f32_e32 v1, v1
	; GFX10-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX10-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX10-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX10-NEXT: s_setpc_b64 s[30:31]
	;
	; GFX11-LABEL: v_rsq_f16:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_sqrt_f16_e32 v0, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, 1.0
	; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX11-NEXT: v_rcp_f32_e32 v1, v1
	; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX11-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX11-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX11-NEXT: s_setpc_b64 s[30:31]
	%sqrt = call half @llvm.sqrt.f16(half %a)			%sqrt = call half @llvm.sqrt.f16(half %a)
	%fdiv = fdiv half 1.0, %sqrt			%fdiv = fdiv half 1.0, %sqrt
	ret half %fdiv			ret half %fdiv
	}			}

	define half @v_neg_rsq_f16(half %a) {			define half @v_neg_rsq_f16(half %a) {
	; GFX6-IEEE-LABEL: v_neg_rsq_f16:			; GFX6-IEEE-LABEL: v_neg_rsq_f16:
	; GFX6-IEEE: ; %bb.0:			; GFX6-IEEE: ; %bb.0:
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v1			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v1
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX89-LABEL: v_neg_rsq_f16:			; GFX89-LABEL: v_neg_rsq_f16:
	; GFX89: ; %bb.0:			; GFX89: ; %bb.0:
	; GFX89-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX89-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX89-NEXT: v_sqrt_f16_e32 v0, v0			; GFX89-NEXT: v_sqrt_f16_e32 v0, v0
	; GFX89-NEXT: v_cvt_f32_f16_e32 v2, -1.0			; GFX89-NEXT: v_rcp_f16_e64 v0, -v0
	; GFX89-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX89-NEXT: v_rcp_f32_e32 v1, v1
	; GFX89-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX89-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX89-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0
	; GFX89-NEXT: s_setpc_b64 s[30:31]			; GFX89-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_neg_rsq_f16:			; GFX10-LABEL: v_neg_rsq_f16:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_sqrt_f16_e32 v0, v0			; GFX10-NEXT: v_sqrt_f16_e32 v0, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, -1.0			; GFX10-NEXT: v_rcp_f16_e64 v0, -v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX10-NEXT: v_rcp_f32_e32 v1, v1
	; GFX10-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX10-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX10-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_neg_rsq_f16:			; GFX11-LABEL: v_neg_rsq_f16:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_sqrt_f16_e32 v0, v0			; GFX11-NEXT: v_sqrt_f16_e32 v0, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, -1.0
	; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX11-NEXT: v_rcp_f32_e32 v1, v1
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v1, v2, v1			; GFX11-NEXT: v_rcp_f16_e64 v0, -v0
	; GFX11-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX11-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%sqrt = call half @llvm.sqrt.f16(half %a)			%sqrt = call half @llvm.sqrt.f16(half %a)
	%fdiv = fdiv half -1.0, %sqrt			%fdiv = fdiv half -1.0, %sqrt
	ret half %fdiv			ret half %fdiv
	}			}

	define half @v_neg_rsq_f16_fabs(half %a) {			define half @v_neg_rsq_f16_fabs(half %a) {
	; GFX6-IEEE-LABEL: v_neg_rsq_f16_fabs:			; GFX6-IEEE-LABEL: v_neg_rsq_f16_fabs:
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v1			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v1
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX89-LABEL: v_neg_rsq_f16_fabs:			; GFX89-LABEL: v_neg_rsq_f16_fabs:
	; GFX89: ; %bb.0:			; GFX89: ; %bb.0:
	; GFX89-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX89-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX89-NEXT: v_sqrt_f16_e64 v0, \|v0\|			; GFX89-NEXT: v_sqrt_f16_e64 v0, \|v0\|
	; GFX89-NEXT: v_cvt_f32_f16_e32 v2, -1.0			; GFX89-NEXT: v_rcp_f16_e64 v0, -v0
	; GFX89-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX89-NEXT: v_rcp_f32_e32 v1, v1
	; GFX89-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX89-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX89-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0
	; GFX89-NEXT: s_setpc_b64 s[30:31]			; GFX89-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_neg_rsq_f16_fabs:			; GFX10-LABEL: v_neg_rsq_f16_fabs:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_sqrt_f16_e64 v0, \|v0\|			; GFX10-NEXT: v_sqrt_f16_e64 v0, \|v0\|
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, -1.0			; GFX10-NEXT: v_rcp_f16_e64 v0, -v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX10-NEXT: v_rcp_f32_e32 v1, v1
	; GFX10-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX10-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX10-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_neg_rsq_f16_fabs:			; GFX11-LABEL: v_neg_rsq_f16_fabs:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_sqrt_f16_e64 v0, \|v0\|			; GFX11-NEXT: v_sqrt_f16_e64 v0, \|v0\|
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, -1.0
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_cvt_f32_f16_e32 v1, v0			; GFX11-NEXT: v_rcp_f16_e64 v0, -v0
	; GFX11-NEXT: v_rcp_f32_e32 v1, v1
	; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX11-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX11-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%a.fabs = call half @llvm.fabs.f16(half %a)			%a.fabs = call half @llvm.fabs.f16(half %a)
	%sqrt = call half @llvm.sqrt.f16(half %a.fabs)			%sqrt = call half @llvm.sqrt.f16(half %a.fabs)
	%fdiv = fdiv half -1.0, %sqrt			%fdiv = fdiv half -1.0, %sqrt
	ret half %fdiv			ret half %fdiv
	}			}

	define half @v_rsq_f16_arcp(half %a) {			define half @v_rsq_f16_arcp(half %a) {
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v5			; GFX6-FLUSH-NEXT: v_div_fmas_f32 v2, v2, v3, v5
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v1			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v1
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX89-LABEL: v_rsq_f16_arcp:			; GFX89-LABEL: v_rsq_f16_arcp:
	; GFX89: ; %bb.0:			; GFX89: ; %bb.0:
	; GFX89-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX89-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX89-NEXT: v_sqrt_f16_e32 v0, v0			; GFX89-NEXT: v_rsq_f16_e32 v0, v0
	; GFX89-NEXT: v_cvt_f32_f16_e32 v2, 1.0
	; GFX89-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX89-NEXT: v_rcp_f32_e32 v1, v1
	; GFX89-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX89-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX89-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX89-NEXT: s_setpc_b64 s[30:31]			; GFX89-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_rsq_f16_arcp:			; GFX10PLUS-LABEL: v_rsq_f16_arcp:
	; GFX10: ; %bb.0:			; GFX10PLUS: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10PLUS-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_sqrt_f16_e32 v0, v0			; GFX10PLUS-NEXT: v_rsq_f16_e32 v0, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, 1.0			; GFX10PLUS-NEXT: s_setpc_b64 s[30:31]
	; GFX10-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX10-NEXT: v_rcp_f32_e32 v1, v1
	; GFX10-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX10-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX10-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX10-NEXT: s_setpc_b64 s[30:31]
	;
	; GFX11-LABEL: v_rsq_f16_arcp:
	; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_sqrt_f16_e32 v0, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, 1.0
	; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX11-NEXT: v_rcp_f32_e32 v1, v1
	; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX11-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX11-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0
	; GFX11-NEXT: s_setpc_b64 s[30:31]
	%sqrt = call half @llvm.sqrt.f16(half %a)			%sqrt = call half @llvm.sqrt.f16(half %a)
	%fdiv = fdiv arcp half 1.0, %sqrt			%fdiv = fdiv arcp half 1.0, %sqrt
	ret half %fdiv			ret half %fdiv
	}			}

	define half @v_neg_rsq_f16_arcp(half %a) {			define half @v_neg_rsq_f16_arcp(half %a) {
	; GFX6-IEEE-LABEL: v_neg_rsq_f16_arcp:			; GFX6-IEEE-LABEL: v_neg_rsq_f16_arcp:
	; GFX6-IEEE: ; %bb.0:			; GFX6-IEEE: ; %bb.0:
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v1			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v0, v2, v0, v1
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX89-LABEL: v_neg_rsq_f16_arcp:			; GFX89-LABEL: v_neg_rsq_f16_arcp:
	; GFX89: ; %bb.0:			; GFX89: ; %bb.0:
	; GFX89-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX89-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX89-NEXT: v_sqrt_f16_e32 v0, v0			; GFX89-NEXT: v_sqrt_f16_e32 v0, v0
	; GFX89-NEXT: v_cvt_f32_f16_e32 v2, -1.0			; GFX89-NEXT: v_rcp_f16_e64 v0, -v0
	; GFX89-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX89-NEXT: v_rcp_f32_e32 v1, v1
	; GFX89-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX89-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX89-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0
	; GFX89-NEXT: s_setpc_b64 s[30:31]			; GFX89-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_neg_rsq_f16_arcp:			; GFX10-LABEL: v_neg_rsq_f16_arcp:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: v_sqrt_f16_e32 v0, v0			; GFX10-NEXT: v_sqrt_f16_e32 v0, v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v2, -1.0			; GFX10-NEXT: v_rcp_f16_e64 v0, -v0
	; GFX10-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX10-NEXT: v_rcp_f32_e32 v1, v1
	; GFX10-NEXT: v_mul_f32_e32 v1, v2, v1
	; GFX10-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX10-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX11-LABEL: v_neg_rsq_f16_arcp:			; GFX11-LABEL: v_neg_rsq_f16_arcp:
	; GFX11: ; %bb.0:			; GFX11: ; %bb.0:
	; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX11-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX11-NEXT: v_sqrt_f16_e32 v0, v0			; GFX11-NEXT: v_sqrt_f16_e32 v0, v0
	; GFX11-NEXT: v_cvt_f32_f16_e32 v2, -1.0
	; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_cvt_f32_f16_e32 v1, v0
	; GFX11-NEXT: v_rcp_f32_e32 v1, v1
	; GFX11-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NEXT: v_mul_f32_e32 v1, v2, v1			; GFX11-NEXT: v_rcp_f16_e64 v0, -v0
	; GFX11-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX11-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0
	; GFX11-NEXT: s_setpc_b64 s[30:31]			; GFX11-NEXT: s_setpc_b64 s[30:31]
	%sqrt = call half @llvm.sqrt.f16(half %a)			%sqrt = call half @llvm.sqrt.f16(half %a)
	%fdiv = fdiv arcp half -1.0, %sqrt			%fdiv = fdiv arcp half -1.0, %sqrt
	ret half %fdiv			ret half %fdiv
	}			}

	define half @v_rsq_f16_afn(half %a) {			define half @v_rsq_f16_afn(half %a) {
	; GFX6-LABEL: v_rsq_f16_afn:			; GFX6-LABEL: v_rsq_f16_afn:
	▲ Show 20 Lines • Show All 108 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v2, v1, v4			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v2, v1, v4
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_rsq_v2f16:			; GFX8-LABEL: v_rsq_v2f16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_sqrt_f16_e32 v1, v0			; GFX8-NEXT: v_sqrt_f16_e32 v1, v0
	; GFX8-NEXT: v_sqrt_f16_sdwa v0, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX8-NEXT: v_sqrt_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX8-NEXT: v_cvt_f32_f16_e32 v4, 1.0			; GFX8-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	; GFX8-NEXT: v_or_b32_e32 v0, v1, v0			; GFX8-NEXT: v_cvt_f32_f16_e32 v2, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v0
	; GFX8-NEXT: v_cvt_f32_f16_e32 v1, v0			; GFX8-NEXT: v_rcp_f32_e32 v2, v2
	; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX8-NEXT: v_rcp_f32_e32 v1, v1
	; GFX8-NEXT: v_rcp_f32_e32 v3, v3			; GFX8-NEXT: v_rcp_f32_e32 v3, v3
	; GFX8-NEXT: v_mul_f32_e32 v1, v4, v1			; GFX8-NEXT: v_mul_f32_e32 v2, v4, v2
	; GFX8-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX8-NEXT: v_mul_f32_e32 v3, v4, v3
	; GFX8-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX8-NEXT: v_div_fixup_f16 v0, v1, v0, 1.0			; GFX8-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX8-NEXT: v_div_fixup_f16 v1, v3, v2, 1.0			; GFX8-NEXT: v_div_fixup_f16 v0, v3, v0, 1.0
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX8-NEXT: v_div_fixup_f16 v1, v2, v1, 1.0
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX8-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_rsq_v2f16:			; GFX9-LABEL: v_rsq_v2f16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_sqrt_f16_e32 v1, v0			; GFX9-NEXT: v_sqrt_f16_e32 v1, v0
	; GFX9-NEXT: v_sqrt_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_sqrt_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v4, 1.0			; GFX9-NEXT: v_cvt_f32_f16_e32 v4, 1.0
	▲ Show 20 Lines • Show All 138 Lines • ▼ Show 20 Lines
	; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v2, v1, v4			; GFX6-FLUSH-NEXT: v_div_fixup_f32 v1, v2, v1, v4
	; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1			; GFX6-FLUSH-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]			; GFX6-FLUSH-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX8-LABEL: v_neg_rsq_v2f16:			; GFX8-LABEL: v_neg_rsq_v2f16:
	; GFX8: ; %bb.0:			; GFX8: ; %bb.0:
	; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX8-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX8-NEXT: v_sqrt_f16_e32 v1, v0			; GFX8-NEXT: v_sqrt_f16_e32 v1, v0
	; GFX8-NEXT: v_sqrt_f16_sdwa v0, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX8-NEXT: v_sqrt_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX8-NEXT: v_cvt_f32_f16_e32 v4, -1.0			; GFX8-NEXT: v_cvt_f32_f16_e32 v4, -1.0
	; GFX8-NEXT: v_or_b32_e32 v0, v1, v0			; GFX8-NEXT: v_cvt_f32_f16_e32 v2, v1
	; GFX8-NEXT: v_lshrrev_b32_e32 v2, 16, v0			; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v0
	; GFX8-NEXT: v_cvt_f32_f16_e32 v1, v0			; GFX8-NEXT: v_rcp_f32_e32 v2, v2
	; GFX8-NEXT: v_cvt_f32_f16_e32 v3, v2
	; GFX8-NEXT: v_rcp_f32_e32 v1, v1
	; GFX8-NEXT: v_rcp_f32_e32 v3, v3			; GFX8-NEXT: v_rcp_f32_e32 v3, v3
	; GFX8-NEXT: v_mul_f32_e32 v1, v4, v1			; GFX8-NEXT: v_mul_f32_e32 v2, v4, v2
	; GFX8-NEXT: v_mul_f32_e32 v3, v4, v3			; GFX8-NEXT: v_mul_f32_e32 v3, v4, v3
	; GFX8-NEXT: v_cvt_f16_f32_e32 v1, v1
	; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3			; GFX8-NEXT: v_cvt_f16_f32_e32 v3, v3
	; GFX8-NEXT: v_div_fixup_f16 v0, v1, v0, -1.0			; GFX8-NEXT: v_cvt_f16_f32_e32 v2, v2
	; GFX8-NEXT: v_div_fixup_f16 v1, v3, v2, -1.0			; GFX8-NEXT: v_div_fixup_f16 v0, v3, v0, -1.0
	; GFX8-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX8-NEXT: v_div_fixup_f16 v1, v2, v1, -1.0
	; GFX8-NEXT: v_or_b32_e32 v0, v0, v1			; GFX8-NEXT: v_lshlrev_b32_e32 v0, 16, v0
				; GFX8-NEXT: v_or_b32_e32 v0, v1, v0
	; GFX8-NEXT: s_setpc_b64 s[30:31]			; GFX8-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-LABEL: v_neg_rsq_v2f16:			; GFX9-LABEL: v_neg_rsq_v2f16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_sqrt_f16_e32 v1, v0			; GFX9-NEXT: v_sqrt_f16_e32 v1, v0
	; GFX9-NEXT: v_sqrt_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; GFX9-NEXT: v_sqrt_f16_sdwa v0, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; GFX9-NEXT: v_cvt_f32_f16_e32 v4, -1.0			; GFX9-NEXT: v_cvt_f32_f16_e32 v4, -1.0
	▲ Show 20 Lines • Show All 64 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/legalize-fdiv.mir

Show First 20 Lines • Show All 2,049 Lines • ▼ Show 20 Lines	bb.0:
; SI-NEXT: [[INT5:%[0-9]+]]:_(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.div.fmas), [[FMA4]](s32), [[FMA1]](s32), [[FMA3]](s32), [[INT3]](s1)		; SI-NEXT: [[INT5:%[0-9]+]]:_(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.div.fmas), [[FMA4]](s32), [[FMA1]](s32), [[FMA3]](s32), [[INT3]](s1)
; SI-NEXT: [[INT6:%[0-9]+]]:_(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.div.fixup), [[INT5]](s32), [[FPEXT1]](s32), [[FPEXT]](s32)		; SI-NEXT: [[INT6:%[0-9]+]]:_(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.div.fixup), [[INT5]](s32), [[FPEXT1]](s32), [[FPEXT]](s32)
; SI-NEXT: [[FPTRUNC:%[0-9]+]]:_(s16) = G_FPTRUNC [[INT6]](s32)		; SI-NEXT: [[FPTRUNC:%[0-9]+]]:_(s16) = G_FPTRUNC [[INT6]](s32)
; SI-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[FPTRUNC]](s16)		; SI-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[FPTRUNC]](s16)
; SI-NEXT: $vgpr0 = COPY [[ANYEXT]](s32)		; SI-NEXT: $vgpr0 = COPY [[ANYEXT]](s32)
; VI-LABEL: name: test_fdiv_s16_constant_one_rcp		; VI-LABEL: name: test_fdiv_s16_constant_one_rcp
; VI: liveins: $vgpr0		; VI: liveins: $vgpr0
; VI-NEXT: {{ $}}		; VI-NEXT: {{ $}}
; VI-NEXT: [[C:%[0-9]+]]:_(s16) = G_FCONSTANT half 0xH3C00
; VI-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0		; VI-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
; VI-NEXT: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)		; VI-NEXT: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)
; VI-NEXT: [[FPEXT:%[0-9]+]]:_(s32) = G_FPEXT [[C]](s16)		; VI-NEXT: [[INT:%[0-9]+]]:_(s16) = G_INTRINSIC intrinsic(@llvm.amdgcn.rcp), [[TRUNC]](s16)
; VI-NEXT: [[FPEXT1:%[0-9]+]]:_(s32) = G_FPEXT [[TRUNC]](s16)		; VI-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[INT]](s16)
; VI-NEXT: [[INT:%[0-9]+]]:_(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.rcp), [[FPEXT1]](s32)
; VI-NEXT: [[FMUL:%[0-9]+]]:_(s32) = G_FMUL [[FPEXT]], [[INT]]
; VI-NEXT: [[FPTRUNC:%[0-9]+]]:_(s16) = G_FPTRUNC [[FMUL]](s32)
; VI-NEXT: [[INT1:%[0-9]+]]:_(s16) = G_INTRINSIC intrinsic(@llvm.amdgcn.div.fixup), [[FPTRUNC]](s16), [[TRUNC]](s16), [[C]](s16)
; VI-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[INT1]](s16)
; VI-NEXT: $vgpr0 = COPY [[ANYEXT]](s32)		; VI-NEXT: $vgpr0 = COPY [[ANYEXT]](s32)
; GFX9-LABEL: name: test_fdiv_s16_constant_one_rcp		; GFX9-LABEL: name: test_fdiv_s16_constant_one_rcp
; GFX9: liveins: $vgpr0		; GFX9: liveins: $vgpr0
; GFX9-NEXT: {{ $}}		; GFX9-NEXT: {{ $}}
; GFX9-NEXT: [[C:%[0-9]+]]:_(s16) = G_FCONSTANT half 0xH3C00
; GFX9-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0		; GFX9-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
; GFX9-NEXT: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)		; GFX9-NEXT: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)
; GFX9-NEXT: [[FPEXT:%[0-9]+]]:_(s32) = G_FPEXT [[C]](s16)		; GFX9-NEXT: [[INT:%[0-9]+]]:_(s16) = G_INTRINSIC intrinsic(@llvm.amdgcn.rcp), [[TRUNC]](s16)
; GFX9-NEXT: [[FPEXT1:%[0-9]+]]:_(s32) = G_FPEXT [[TRUNC]](s16)		; GFX9-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[INT]](s16)
; GFX9-NEXT: [[INT:%[0-9]+]]:_(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.rcp), [[FPEXT1]](s32)
; GFX9-NEXT: [[FMUL:%[0-9]+]]:_(s32) = G_FMUL [[FPEXT]], [[INT]]
; GFX9-NEXT: [[FPTRUNC:%[0-9]+]]:_(s16) = G_FPTRUNC [[FMUL]](s32)
; GFX9-NEXT: [[INT1:%[0-9]+]]:_(s16) = G_INTRINSIC intrinsic(@llvm.amdgcn.div.fixup), [[FPTRUNC]](s16), [[TRUNC]](s16), [[C]](s16)
; GFX9-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[INT1]](s16)
; GFX9-NEXT: $vgpr0 = COPY [[ANYEXT]](s32)		; GFX9-NEXT: $vgpr0 = COPY [[ANYEXT]](s32)
; GFX9-UNSAFE-LABEL: name: test_fdiv_s16_constant_one_rcp		; GFX9-UNSAFE-LABEL: name: test_fdiv_s16_constant_one_rcp
; GFX9-UNSAFE: liveins: $vgpr0		; GFX9-UNSAFE: liveins: $vgpr0
; GFX9-UNSAFE-NEXT: {{ $}}		; GFX9-UNSAFE-NEXT: {{ $}}
; GFX9-UNSAFE-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0		; GFX9-UNSAFE-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
; GFX9-UNSAFE-NEXT: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)		; GFX9-UNSAFE-NEXT: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)
; GFX9-UNSAFE-NEXT: [[INT:%[0-9]+]]:_(s16) = G_INTRINSIC intrinsic(@llvm.amdgcn.rcp), [[TRUNC]](s16)		; GFX9-UNSAFE-NEXT: [[INT:%[0-9]+]]:_(s16) = G_INTRINSIC intrinsic(@llvm.amdgcn.rcp), [[TRUNC]](s16)
; GFX9-UNSAFE-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[INT]](s16)		; GFX9-UNSAFE-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[INT]](s16)
; GFX9-UNSAFE-NEXT: $vgpr0 = COPY [[ANYEXT]](s32)		; GFX9-UNSAFE-NEXT: $vgpr0 = COPY [[ANYEXT]](s32)
; GFX10-LABEL: name: test_fdiv_s16_constant_one_rcp		; GFX10-LABEL: name: test_fdiv_s16_constant_one_rcp
; GFX10: liveins: $vgpr0		; GFX10: liveins: $vgpr0
; GFX10-NEXT: {{ $}}		; GFX10-NEXT: {{ $}}
; GFX10-NEXT: [[C:%[0-9]+]]:_(s16) = G_FCONSTANT half 0xH3C00
; GFX10-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0		; GFX10-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
; GFX10-NEXT: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)		; GFX10-NEXT: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)
; GFX10-NEXT: [[FPEXT:%[0-9]+]]:_(s32) = G_FPEXT [[C]](s16)		; GFX10-NEXT: [[INT:%[0-9]+]]:_(s16) = G_INTRINSIC intrinsic(@llvm.amdgcn.rcp), [[TRUNC]](s16)
; GFX10-NEXT: [[FPEXT1:%[0-9]+]]:_(s32) = G_FPEXT [[TRUNC]](s16)		; GFX10-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[INT]](s16)
; GFX10-NEXT: [[INT:%[0-9]+]]:_(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.rcp), [[FPEXT1]](s32)
; GFX10-NEXT: [[FMUL:%[0-9]+]]:_(s32) = G_FMUL [[FPEXT]], [[INT]]
; GFX10-NEXT: [[FPTRUNC:%[0-9]+]]:_(s16) = G_FPTRUNC [[FMUL]](s32)
; GFX10-NEXT: [[INT1:%[0-9]+]]:_(s16) = G_INTRINSIC intrinsic(@llvm.amdgcn.div.fixup), [[FPTRUNC]](s16), [[TRUNC]](s16), [[C]](s16)
; GFX10-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[INT1]](s16)
; GFX10-NEXT: $vgpr0 = COPY [[ANYEXT]](s32)		; GFX10-NEXT: $vgpr0 = COPY [[ANYEXT]](s32)
%0:_(s16) = G_FCONSTANT half 1.0		%0:_(s16) = G_FCONSTANT half 1.0
%1:_(s32) = COPY $vgpr0		%1:_(s32) = COPY $vgpr0
%2:_(s16) = G_TRUNC %1		%2:_(s16) = G_TRUNC %1
%3:_(s16) = G_FDIV %0, %2		%3:_(s16) = G_FDIV %0, %2
%4:_(s32) = G_ANYEXT %3		%4:_(s32) = G_ANYEXT %3
$vgpr0 = COPY %4		$vgpr0 = COPY %4
...		...
Show All 26 Lines	bb.0:
; SI-NEXT: [[INT5:%[0-9]+]]:_(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.div.fmas), [[FMA4]](s32), [[FMA1]](s32), [[FMA3]](s32), [[INT3]](s1)		; SI-NEXT: [[INT5:%[0-9]+]]:_(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.div.fmas), [[FMA4]](s32), [[FMA1]](s32), [[FMA3]](s32), [[INT3]](s1)
; SI-NEXT: [[INT6:%[0-9]+]]:_(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.div.fixup), [[INT5]](s32), [[FPEXT1]](s32), [[FPEXT]](s32)		; SI-NEXT: [[INT6:%[0-9]+]]:_(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.div.fixup), [[INT5]](s32), [[FPEXT1]](s32), [[FPEXT]](s32)
; SI-NEXT: [[FPTRUNC:%[0-9]+]]:_(s16) = G_FPTRUNC [[INT6]](s32)		; SI-NEXT: [[FPTRUNC:%[0-9]+]]:_(s16) = G_FPTRUNC [[INT6]](s32)
; SI-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[FPTRUNC]](s16)		; SI-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[FPTRUNC]](s16)
; SI-NEXT: $vgpr0 = COPY [[ANYEXT]](s32)		; SI-NEXT: $vgpr0 = COPY [[ANYEXT]](s32)
; VI-LABEL: name: test_fdiv_s16_constant_negative_one_rcp		; VI-LABEL: name: test_fdiv_s16_constant_negative_one_rcp
; VI: liveins: $vgpr0		; VI: liveins: $vgpr0
; VI-NEXT: {{ $}}		; VI-NEXT: {{ $}}
; VI-NEXT: [[C:%[0-9]+]]:_(s16) = G_FCONSTANT half 0xHBC00
; VI-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0		; VI-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
; VI-NEXT: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)		; VI-NEXT: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)
; VI-NEXT: [[FPEXT:%[0-9]+]]:_(s32) = G_FPEXT [[C]](s16)		; VI-NEXT: [[FNEG:%[0-9]+]]:_(s16) = G_FNEG [[TRUNC]]
; VI-NEXT: [[FPEXT1:%[0-9]+]]:_(s32) = G_FPEXT [[TRUNC]](s16)		; VI-NEXT: [[INT:%[0-9]+]]:_(s16) = G_INTRINSIC intrinsic(@llvm.amdgcn.rcp), [[FNEG]](s16)
; VI-NEXT: [[INT:%[0-9]+]]:_(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.rcp), [[FPEXT1]](s32)		; VI-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[INT]](s16)
; VI-NEXT: [[FMUL:%[0-9]+]]:_(s32) = G_FMUL [[FPEXT]], [[INT]]
; VI-NEXT: [[FPTRUNC:%[0-9]+]]:_(s16) = G_FPTRUNC [[FMUL]](s32)
; VI-NEXT: [[INT1:%[0-9]+]]:_(s16) = G_INTRINSIC intrinsic(@llvm.amdgcn.div.fixup), [[FPTRUNC]](s16), [[TRUNC]](s16), [[C]](s16)
; VI-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[INT1]](s16)
; VI-NEXT: $vgpr0 = COPY [[ANYEXT]](s32)		; VI-NEXT: $vgpr0 = COPY [[ANYEXT]](s32)
; GFX9-LABEL: name: test_fdiv_s16_constant_negative_one_rcp		; GFX9-LABEL: name: test_fdiv_s16_constant_negative_one_rcp
; GFX9: liveins: $vgpr0		; GFX9: liveins: $vgpr0
; GFX9-NEXT: {{ $}}		; GFX9-NEXT: {{ $}}
; GFX9-NEXT: [[C:%[0-9]+]]:_(s16) = G_FCONSTANT half 0xHBC00
; GFX9-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0		; GFX9-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
; GFX9-NEXT: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)		; GFX9-NEXT: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)
; GFX9-NEXT: [[FPEXT:%[0-9]+]]:_(s32) = G_FPEXT [[C]](s16)		; GFX9-NEXT: [[FNEG:%[0-9]+]]:_(s16) = G_FNEG [[TRUNC]]
; GFX9-NEXT: [[FPEXT1:%[0-9]+]]:_(s32) = G_FPEXT [[TRUNC]](s16)		; GFX9-NEXT: [[INT:%[0-9]+]]:_(s16) = G_INTRINSIC intrinsic(@llvm.amdgcn.rcp), [[FNEG]](s16)
; GFX9-NEXT: [[INT:%[0-9]+]]:_(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.rcp), [[FPEXT1]](s32)		; GFX9-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[INT]](s16)
; GFX9-NEXT: [[FMUL:%[0-9]+]]:_(s32) = G_FMUL [[FPEXT]], [[INT]]
; GFX9-NEXT: [[FPTRUNC:%[0-9]+]]:_(s16) = G_FPTRUNC [[FMUL]](s32)
; GFX9-NEXT: [[INT1:%[0-9]+]]:_(s16) = G_INTRINSIC intrinsic(@llvm.amdgcn.div.fixup), [[FPTRUNC]](s16), [[TRUNC]](s16), [[C]](s16)
; GFX9-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[INT1]](s16)
; GFX9-NEXT: $vgpr0 = COPY [[ANYEXT]](s32)		; GFX9-NEXT: $vgpr0 = COPY [[ANYEXT]](s32)
; GFX9-UNSAFE-LABEL: name: test_fdiv_s16_constant_negative_one_rcp		; GFX9-UNSAFE-LABEL: name: test_fdiv_s16_constant_negative_one_rcp
; GFX9-UNSAFE: liveins: $vgpr0		; GFX9-UNSAFE: liveins: $vgpr0
; GFX9-UNSAFE-NEXT: {{ $}}		; GFX9-UNSAFE-NEXT: {{ $}}
; GFX9-UNSAFE-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0		; GFX9-UNSAFE-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
; GFX9-UNSAFE-NEXT: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)		; GFX9-UNSAFE-NEXT: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)
; GFX9-UNSAFE-NEXT: [[FNEG:%[0-9]+]]:_(s16) = G_FNEG [[TRUNC]]		; GFX9-UNSAFE-NEXT: [[FNEG:%[0-9]+]]:_(s16) = G_FNEG [[TRUNC]]
; GFX9-UNSAFE-NEXT: [[INT:%[0-9]+]]:_(s16) = G_INTRINSIC intrinsic(@llvm.amdgcn.rcp), [[FNEG]](s16)		; GFX9-UNSAFE-NEXT: [[INT:%[0-9]+]]:_(s16) = G_INTRINSIC intrinsic(@llvm.amdgcn.rcp), [[FNEG]](s16)
; GFX9-UNSAFE-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[INT]](s16)		; GFX9-UNSAFE-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[INT]](s16)
; GFX9-UNSAFE-NEXT: $vgpr0 = COPY [[ANYEXT]](s32)		; GFX9-UNSAFE-NEXT: $vgpr0 = COPY [[ANYEXT]](s32)
; GFX10-LABEL: name: test_fdiv_s16_constant_negative_one_rcp		; GFX10-LABEL: name: test_fdiv_s16_constant_negative_one_rcp
; GFX10: liveins: $vgpr0		; GFX10: liveins: $vgpr0
; GFX10-NEXT: {{ $}}		; GFX10-NEXT: {{ $}}
; GFX10-NEXT: [[C:%[0-9]+]]:_(s16) = G_FCONSTANT half 0xHBC00
; GFX10-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0		; GFX10-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
; GFX10-NEXT: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)		; GFX10-NEXT: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)
; GFX10-NEXT: [[FPEXT:%[0-9]+]]:_(s32) = G_FPEXT [[C]](s16)		; GFX10-NEXT: [[FNEG:%[0-9]+]]:_(s16) = G_FNEG [[TRUNC]]
; GFX10-NEXT: [[FPEXT1:%[0-9]+]]:_(s32) = G_FPEXT [[TRUNC]](s16)		; GFX10-NEXT: [[INT:%[0-9]+]]:_(s16) = G_INTRINSIC intrinsic(@llvm.amdgcn.rcp), [[FNEG]](s16)
; GFX10-NEXT: [[INT:%[0-9]+]]:_(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.rcp), [[FPEXT1]](s32)		; GFX10-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[INT]](s16)
; GFX10-NEXT: [[FMUL:%[0-9]+]]:_(s32) = G_FMUL [[FPEXT]], [[INT]]
; GFX10-NEXT: [[FPTRUNC:%[0-9]+]]:_(s16) = G_FPTRUNC [[FMUL]](s32)
; GFX10-NEXT: [[INT1:%[0-9]+]]:_(s16) = G_INTRINSIC intrinsic(@llvm.amdgcn.div.fixup), [[FPTRUNC]](s16), [[TRUNC]](s16), [[C]](s16)
; GFX10-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[INT1]](s16)
; GFX10-NEXT: $vgpr0 = COPY [[ANYEXT]](s32)		; GFX10-NEXT: $vgpr0 = COPY [[ANYEXT]](s32)
%0:_(s16) = G_FCONSTANT half -1.0		%0:_(s16) = G_FCONSTANT half -1.0
%1:_(s32) = COPY $vgpr0		%1:_(s32) = COPY $vgpr0
%2:_(s16) = G_TRUNC %1		%2:_(s16) = G_TRUNC %1
%3:_(s16) = G_FDIV %0, %2		%3:_(s16) = G_FDIV %0, %2
%4:_(s32) = G_ANYEXT %3		%4:_(s32) = G_ANYEXT %3
$vgpr0 = COPY %4		$vgpr0 = COPY %4
...		...
▲ Show 20 Lines • Show All 416 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fdiv.f16.ll

Show First 20 Lines • Show All 86 Lines • ▼ Show 20 Lines	entry:
store half %r.val, ptr addrspace(1) %gep.r		store half %r.val, ptr addrspace(1) %gep.r
ret void		ret void
}		}

; We could not do 1/b -> rcp_f16(b) under !fpmath < 1ulp.		; We could not do 1/b -> rcp_f16(b) under !fpmath < 1ulp.

; GCN-LABEL: {{^}}reciprocal_f16_rounded:		; GCN-LABEL: {{^}}reciprocal_f16_rounded:
; GFX8PLUS: {{flat\|global}}_load_{{ushort\|u16}} [[VAL16:v[0-9]+]], v{{.+}}		; GFX8PLUS: {{flat\|global}}_load_{{ushort\|u16}} [[VAL16:v[0-9]+]], v{{.+}}
; GFX8PLUS: v_cvt_f32_f16_e32 [[CVT_TO32:v[0-9]+]], [[VAL16]]		; GFX8PLUS: v_rcp_f16_e32 [[RESULT:v[0-9]+]], [[VAL16]]
; GFX8PLUS: v_rcp_f32_e32 [[RCP32:v[0-9]+]], [[CVT_TO32]]
; GFX8PLUS: v_cvt_f16_f32_e32 [[CVT_BACK16:v[0-9]+]], [[RCP32]]
; GFX8PLUS: v_div_fixup_f16 [[RESULT:v[0-9]+]], [[CVT_BACK16]], [[VAL16]], 1.0
; GFX8PLUS: {{flat\|global}}_store_{{short\|b16}} v{{.+}}, [[RESULT]]		; GFX8PLUS: {{flat\|global}}_store_{{short\|b16}} v{{.+}}, [[RESULT]]
define amdgpu_kernel void @reciprocal_f16_rounded(ptr addrspace(1) %r, ptr addrspace(1) %b) #0 {		define amdgpu_kernel void @reciprocal_f16_rounded(ptr addrspace(1) %r, ptr addrspace(1) %b) #0 {
entry:		entry:
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%gep.b = getelementptr inbounds half, ptr addrspace(1) %b, i64 %tid.ext		%gep.b = getelementptr inbounds half, ptr addrspace(1) %b, i64 %tid.ext
%gep.r = getelementptr inbounds half, ptr addrspace(1) %r, i64 %tid.ext		%gep.r = getelementptr inbounds half, ptr addrspace(1) %r, i64 %tid.ext
%b.val = load volatile half, ptr addrspace(1) %gep.b		%b.val = load volatile half, ptr addrspace(1) %gep.b
▲ Show 20 Lines • Show All 157 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @div_afn_neg_k_x_pat_f16(ptr addrspace(1) %out) #0 {
store half %rcp, ptr addrspace(1) %out, align 4		store half %rcp, ptr addrspace(1) %out, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fdiv_f16_arcp:		; GCN-LABEL: {{^}}v_fdiv_f16_arcp:
; SI: v_rcp_f32		; SI: v_rcp_f32
; SI: v_mul_f32		; SI: v_mul_f32

; GFX8PLUS: v_rcp_f32		; GFX8PLUS: v_rcp_f16
; GFX8PLUS: v_mul_f32		; GFX8PLUS: v_mul_f16
define half @v_fdiv_f16_arcp(half %x, half %y) {		define half @v_fdiv_f16_arcp(half %x, half %y) {
%fdiv = fdiv arcp half %x, %y		%fdiv = fdiv arcp half %x, %y
ret half %fdiv		ret half %fdiv
}		}

; GCN-LABEL: {{^}}v_fdiv_f16_afn_nsz:		; GCN-LABEL: {{^}}v_fdiv_f16_afn_nsz:
; SI: v_rcp_f32		; SI: v_rcp_f32
; SI: v_mul_f32		; SI: v_mul_f32
Show All 17 Lines

llvm/test/CodeGen/AMDGPU/fneg-combines.f16.ll

	Show First 20 Lines • Show All 521 Lines • ▼ Show 20 Lines
	; SI-NSZ-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc			; SI-NSZ-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
	; SI-NSZ-NEXT: v_mov_b32_e32 v1, 0x7fc00000			; SI-NSZ-NEXT: v_mov_b32_e32 v1, 0x7fc00000
	; SI-NSZ-NEXT: v_cmp_nlt_f32_e32 vcc, 0, v0			; SI-NSZ-NEXT: v_cmp_nlt_f32_e32 vcc, 0, v0
	; SI-NSZ-NEXT: v_cndmask_b32_e64 v0, v1, 0, vcc			; SI-NSZ-NEXT: v_cndmask_b32_e64 v0, v1, 0, vcc
	; SI-NSZ-NEXT: ; return to shader part epilog			; SI-NSZ-NEXT: ; return to shader part epilog
	;			;
	; VI-SAFE-LABEL: fneg_fadd_0_f16:			; VI-SAFE-LABEL: fneg_fadd_0_f16:
	; VI-SAFE: ; %bb.0: ; %.entry			; VI-SAFE: ; %bb.0: ; %.entry
	; VI-SAFE-NEXT: v_cvt_f32_f16_e32 v0, s1			; VI-SAFE-NEXT: v_rcp_f16_e32 v0, s1
	; VI-SAFE-NEXT: v_mov_b32_e32 v2, s0			; VI-SAFE-NEXT: v_mov_b32_e32 v1, s0
	; VI-SAFE-NEXT: v_mov_b32_e32 v1, 0x7e00
	; VI-SAFE-NEXT: v_rcp_f32_e32 v0, v0
	; VI-SAFE-NEXT: v_cvt_f16_f32_e32 v0, v0
	; VI-SAFE-NEXT: v_div_fixup_f16 v0, v0, s1, 1.0
	; VI-SAFE-NEXT: v_mul_f16_e32 v0, 0, v0			; VI-SAFE-NEXT: v_mul_f16_e32 v0, 0, v0
	; VI-SAFE-NEXT: v_add_f16_e32 v0, 0, v0			; VI-SAFE-NEXT: v_add_f16_e32 v0, 0, v0
	; VI-SAFE-NEXT: v_xor_b32_e32 v3, 0x8000, v0			; VI-SAFE-NEXT: v_xor_b32_e32 v2, 0x8000, v0
	; VI-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, s0, v0			; VI-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc, s0, v0
	; VI-SAFE-NEXT: v_cndmask_b32_e32 v0, v3, v2, vcc			; VI-SAFE-NEXT: v_cndmask_b32_e32 v0, v2, v1, vcc
				; VI-SAFE-NEXT: v_mov_b32_e32 v1, 0x7e00
	; VI-SAFE-NEXT: v_cmp_nlt_f16_e32 vcc, 0, v0			; VI-SAFE-NEXT: v_cmp_nlt_f16_e32 vcc, 0, v0
	; VI-SAFE-NEXT: v_cndmask_b32_e64 v0, v1, 0, vcc			; VI-SAFE-NEXT: v_cndmask_b32_e64 v0, v1, 0, vcc
	; VI-SAFE-NEXT: ; return to shader part epilog			; VI-SAFE-NEXT: ; return to shader part epilog
	;			;
	; VI-NSZ-LABEL: fneg_fadd_0_f16:			; VI-NSZ-LABEL: fneg_fadd_0_f16:
	; VI-NSZ: ; %bb.0: ; %.entry			; VI-NSZ: ; %bb.0: ; %.entry
	; VI-NSZ-NEXT: v_cvt_f32_f16_e32 v0, s1			; VI-NSZ-NEXT: v_rcp_f16_e32 v0, s1
	; VI-NSZ-NEXT: v_mov_b32_e32 v2, s0			; VI-NSZ-NEXT: v_mov_b32_e32 v1, s0
	; VI-NSZ-NEXT: v_mov_b32_e32 v1, 0x7e00
	; VI-NSZ-NEXT: v_rcp_f32_e32 v0, v0
	; VI-NSZ-NEXT: v_cvt_f16_f32_e32 v0, v0
	; VI-NSZ-NEXT: v_div_fixup_f16 v0, v0, s1, 1.0
	; VI-NSZ-NEXT: v_mul_f16_e32 v0, 0x8000, v0			; VI-NSZ-NEXT: v_mul_f16_e32 v0, 0x8000, v0
	; VI-NSZ-NEXT: v_cmp_nlt_f16_e64 vcc, -v0, s0			; VI-NSZ-NEXT: v_cmp_nlt_f16_e64 vcc, -v0, s0
	; VI-NSZ-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc			; VI-NSZ-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
				; VI-NSZ-NEXT: v_mov_b32_e32 v1, 0x7e00
	; VI-NSZ-NEXT: v_cmp_nlt_f16_e32 vcc, 0, v0			; VI-NSZ-NEXT: v_cmp_nlt_f16_e32 vcc, 0, v0
	; VI-NSZ-NEXT: v_cndmask_b32_e64 v0, v1, 0, vcc			; VI-NSZ-NEXT: v_cndmask_b32_e64 v0, v1, 0, vcc
	; VI-NSZ-NEXT: ; return to shader part epilog			; VI-NSZ-NEXT: ; return to shader part epilog
	;			;
	; GFX11-SAFE-LABEL: fneg_fadd_0_f16:			; GFX11-SAFE-LABEL: fneg_fadd_0_f16:
	; GFX11-SAFE: ; %bb.0: ; %.entry			; GFX11-SAFE: ; %bb.0: ; %.entry
	; GFX11-SAFE-NEXT: v_cvt_f32_f16_e32 v0, s1			; GFX11-SAFE-NEXT: v_rcp_f16_e32 v0, s1
	; GFX11-SAFE-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_2) \| instid1(VALU_DEP_1)
	; GFX11-SAFE-NEXT: v_rcp_f32_e32 v0, v0
	; GFX11-SAFE-NEXT: s_waitcnt_depctr 0xfff			; GFX11-SAFE-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-SAFE-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX11-SAFE-NEXT: v_div_fixup_f16 v0, v0, s1, 1.0
	; GFX11-SAFE-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-SAFE-NEXT: v_mul_f16_e32 v0, 0, v0			; GFX11-SAFE-NEXT: v_mul_f16_e32 v0, 0, v0
				; GFX11-SAFE-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-SAFE-NEXT: v_add_f16_e32 v0, 0, v0			; GFX11-SAFE-NEXT: v_add_f16_e32 v0, 0, v0
	; GFX11-SAFE-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_1) \| instid1(VALU_DEP_2)
	; GFX11-SAFE-NEXT: v_xor_b32_e32 v1, 0x8000, v0			; GFX11-SAFE-NEXT: v_xor_b32_e32 v1, 0x8000, v0
	; GFX11-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc_lo, s0, v0			; GFX11-SAFE-NEXT: v_cmp_ngt_f16_e32 vcc_lo, s0, v0
				; GFX11-SAFE-NEXT: s_delay_alu instid0(VALU_DEP_2) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-SAFE-NEXT: v_cndmask_b32_e64 v0, v1, s0, vcc_lo			; GFX11-SAFE-NEXT: v_cndmask_b32_e64 v0, v1, s0, vcc_lo
	; GFX11-SAFE-NEXT: s_delay_alu instid0(VALU_DEP_1)
	; GFX11-SAFE-NEXT: v_cmp_nlt_f16_e32 vcc_lo, 0, v0			; GFX11-SAFE-NEXT: v_cmp_nlt_f16_e32 vcc_lo, 0, v0
	; GFX11-SAFE-NEXT: v_cndmask_b32_e64 v0, 0x7e00, 0, vcc_lo			; GFX11-SAFE-NEXT: v_cndmask_b32_e64 v0, 0x7e00, 0, vcc_lo
	; GFX11-SAFE-NEXT: ; return to shader part epilog			; GFX11-SAFE-NEXT: ; return to shader part epilog
	;			;
	; GFX11-NSZ-LABEL: fneg_fadd_0_f16:			; GFX11-NSZ-LABEL: fneg_fadd_0_f16:
	; GFX11-NSZ: ; %bb.0: ; %.entry			; GFX11-NSZ: ; %bb.0: ; %.entry
	; GFX11-NSZ-NEXT: v_cvt_f32_f16_e32 v0, s1			; GFX11-NSZ-NEXT: v_rcp_f16_e32 v0, s1
	; GFX11-NSZ-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(SKIP_2) \| instid1(VALU_DEP_1)
	; GFX11-NSZ-NEXT: v_rcp_f32_e32 v0, v0
	; GFX11-NSZ-NEXT: s_waitcnt_depctr 0xfff			; GFX11-NSZ-NEXT: s_waitcnt_depctr 0xfff
	; GFX11-NSZ-NEXT: v_cvt_f16_f32_e32 v0, v0
	; GFX11-NSZ-NEXT: v_div_fixup_f16 v0, v0, s1, 1.0
	; GFX11-NSZ-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
	; GFX11-NSZ-NEXT: v_mul_f16_e32 v0, 0x8000, v0			; GFX11-NSZ-NEXT: v_mul_f16_e32 v0, 0x8000, v0
	; GFX11-NSZ-NEXT: v_cmp_nlt_f16_e64 s1, -v0, s0
	; GFX11-NSZ-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)			; GFX11-NSZ-NEXT: s_delay_alu instid0(VALU_DEP_1) \| instskip(NEXT) \| instid1(VALU_DEP_1)
				; GFX11-NSZ-NEXT: v_cmp_nlt_f16_e64 s1, -v0, s0
	; GFX11-NSZ-NEXT: v_cndmask_b32_e64 v0, v0, s0, s1			; GFX11-NSZ-NEXT: v_cndmask_b32_e64 v0, v0, s0, s1
				; GFX11-NSZ-NEXT: s_delay_alu instid0(VALU_DEP_1)
	; GFX11-NSZ-NEXT: v_cmp_nlt_f16_e32 vcc_lo, 0, v0			; GFX11-NSZ-NEXT: v_cmp_nlt_f16_e32 vcc_lo, 0, v0
	; GFX11-NSZ-NEXT: v_cndmask_b32_e64 v0, 0x7e00, 0, vcc_lo			; GFX11-NSZ-NEXT: v_cndmask_b32_e64 v0, 0x7e00, 0, vcc_lo
	; GFX11-NSZ-NEXT: ; return to shader part epilog			; GFX11-NSZ-NEXT: ; return to shader part epilog
	.entry:			.entry:
	%tmp7 = fdiv half 1.000000e+00, %tmp6			%tmp7 = fdiv half 1.000000e+00, %tmp6
	%tmp8 = fmul half 0.000000e+00, %tmp7			%tmp8 = fmul half 0.000000e+00, %tmp7
	%tmp9 = fmul reassoc nnan arcp contract half 0.000000e+00, %tmp8			%tmp9 = fmul reassoc nnan arcp contract half 0.000000e+00, %tmp8
	%.i188 = fadd half %tmp9, 0.000000e+00			%.i188 = fadd half %tmp9, 0.000000e+00
	▲ Show 20 Lines • Show All 4,197 Lines • Show Last 20 Lines