This is an archive of the discontinued LLVM Phabricator instance.

[AArch64] Custom lowering of copysign f16
ClosedPublic

Authored by SjoerdMeijer on Aug 18 2017, 1:28 PM.

Download Raw Diff

Details

Reviewers

t.p.northover
rengolin
olista01
samparker
john.brawn

Commits

rGafc2cd3c9e27: [AArch64] Custom lowering of copysign f16
rL311646: [AArch64] Custom lowering of copysign f16

Summary

This is a follow up patch of https://reviews.llvm.org/D36396 and introduces custom lowering of copysign f16 to avoid promotions to single precision types when the subtarget supports fullfp16.

Diff Detail

Repository: rL LLVM

Event Timeline

SjoerdMeijer created this revision.Aug 18 2017, 1:28 PM

Herald added subscribers: kristof.beyls, javed.absar, aemerson. · View Herald TranscriptAug 18 2017, 1:28 PM

olista01 added inline comments.Aug 21 2017, 2:24 AM

lib/Target/AArch64/AArch64ISelLowering.cpp
4082 ↗	(On Diff #111730)	Why does this need a special case for f16?
4116 ↗	(On Diff #111730)	We could also do this for v4f16 and v8f16.

I have removed the special case, and added the vector types.
For the copysign intrinsics working on these vectors, I have not yet added new test cases, because it looks like I first have to first do some work to allow f16 vectors.

Just to clarify my last comment, I will repeat the exercise I did in D36396 allowing f16 scalars, and will now start working on allowing f16 vector types. I will then also add tests for these.

LGTM

This revision is now accepted and ready to land.Aug 24 2017, 1:52 AM

Closed by commit rL311646: [AArch64] Custom lowering of copysign f16 (authored by SjoerdMeijer). · Explain WhyAug 24 2017, 2:22 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

AArch64/

AArch64ISelLowering.cpp

38 lines

test/

CodeGen/

AArch64/

f16-instructions.ll

79 lines

Diff 112523

llvm/trunk/lib/Target/AArch64/AArch64ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 315 Lines • ▼ Show 20 Lines	AArch64TargetLowering::AArch64TargetLowering(const TargetMachine &TM,
setOperationAction(ISD::FSIN, MVT::f32, Expand);		setOperationAction(ISD::FSIN, MVT::f32, Expand);
setOperationAction(ISD::FSIN, MVT::f64, Expand);		setOperationAction(ISD::FSIN, MVT::f64, Expand);
setOperationAction(ISD::FCOS, MVT::f32, Expand);		setOperationAction(ISD::FCOS, MVT::f32, Expand);
setOperationAction(ISD::FCOS, MVT::f64, Expand);		setOperationAction(ISD::FCOS, MVT::f64, Expand);
setOperationAction(ISD::FPOW, MVT::f32, Expand);		setOperationAction(ISD::FPOW, MVT::f32, Expand);
setOperationAction(ISD::FPOW, MVT::f64, Expand);		setOperationAction(ISD::FPOW, MVT::f64, Expand);
setOperationAction(ISD::FCOPYSIGN, MVT::f64, Custom);		setOperationAction(ISD::FCOPYSIGN, MVT::f64, Custom);
setOperationAction(ISD::FCOPYSIGN, MVT::f32, Custom);		setOperationAction(ISD::FCOPYSIGN, MVT::f32, Custom);
		if (Subtarget->hasFullFP16())
		setOperationAction(ISD::FCOPYSIGN, MVT::f16, Custom);
		else
		setOperationAction(ISD::FCOPYSIGN, MVT::f16, Promote);

setOperationAction(ISD::FREM, MVT::f16, Promote);		setOperationAction(ISD::FREM, MVT::f16, Promote);
setOperationAction(ISD::FPOW, MVT::f16, Promote);		setOperationAction(ISD::FPOW, MVT::f16, Promote);
setOperationAction(ISD::FPOWI, MVT::f16, Promote);		setOperationAction(ISD::FPOWI, MVT::f16, Promote);
setOperationAction(ISD::FCOS, MVT::f16, Promote);		setOperationAction(ISD::FCOS, MVT::f16, Promote);
setOperationAction(ISD::FSIN, MVT::f16, Promote);		setOperationAction(ISD::FSIN, MVT::f16, Promote);
setOperationAction(ISD::FSINCOS, MVT::f16, Promote);		setOperationAction(ISD::FSINCOS, MVT::f16, Promote);
setOperationAction(ISD::FEXP, MVT::f16, Promote);		setOperationAction(ISD::FEXP, MVT::f16, Promote);
setOperationAction(ISD::FEXP2, MVT::f16, Promote);		setOperationAction(ISD::FEXP2, MVT::f16, Promote);
setOperationAction(ISD::FLOG, MVT::f16, Promote);		setOperationAction(ISD::FLOG, MVT::f16, Promote);
setOperationAction(ISD::FLOG2, MVT::f16, Promote);		setOperationAction(ISD::FLOG2, MVT::f16, Promote);
setOperationAction(ISD::FLOG10, MVT::f16, Promote);		setOperationAction(ISD::FLOG10, MVT::f16, Promote);
setOperationAction(ISD::FCOPYSIGN, MVT::f16, Promote);

if (!Subtarget->hasFullFP16()) {		if (!Subtarget->hasFullFP16()) {
setOperationAction(ISD::SELECT, MVT::f16, Promote);		setOperationAction(ISD::SELECT, MVT::f16, Promote);
setOperationAction(ISD::SELECT_CC, MVT::f16, Promote);		setOperationAction(ISD::SELECT_CC, MVT::f16, Promote);
setOperationAction(ISD::SETCC, MVT::f16, Promote);		setOperationAction(ISD::SETCC, MVT::f16, Promote);
setOperationAction(ISD::BR_CC, MVT::f16, Promote);		setOperationAction(ISD::BR_CC, MVT::f16, Promote);
setOperationAction(ISD::FADD, MVT::f16, Promote);		setOperationAction(ISD::FADD, MVT::f16, Promote);
setOperationAction(ISD::FSUB, MVT::f16, Promote);		setOperationAction(ISD::FSUB, MVT::f16, Promote);
▲ Show 20 Lines • Show All 3,734 Lines • ▼ Show 20 Lines	SDValue AArch64TargetLowering::LowerFCOPYSIGN(SDValue Op,
EVT SrcVT = In2.getValueType();		EVT SrcVT = In2.getValueType();

if (SrcVT.bitsLT(VT))		if (SrcVT.bitsLT(VT))
In2 = DAG.getNode(ISD::FP_EXTEND, DL, VT, In2);		In2 = DAG.getNode(ISD::FP_EXTEND, DL, VT, In2);
else if (SrcVT.bitsGT(VT))		else if (SrcVT.bitsGT(VT))
In2 = DAG.getNode(ISD::FP_ROUND, DL, VT, In2, DAG.getIntPtrConstant(0, DL));		In2 = DAG.getNode(ISD::FP_ROUND, DL, VT, In2, DAG.getIntPtrConstant(0, DL));

EVT VecVT;		EVT VecVT;
EVT EltVT;
uint64_t EltMask;		uint64_t EltMask;
SDValue VecVal1, VecVal2;		SDValue VecVal1, VecVal2;
if (VT == MVT::f32 \|\| VT == MVT::v2f32 \|\| VT == MVT::v4f32) {
EltVT = MVT::i32;
VecVT = (VT == MVT::v2f32 ? MVT::v2i32 : MVT::v4i32);
EltMask = 0x80000000ULL;

		auto setVecVal = [&] (int Idx) {
if (!VT.isVector()) {		if (!VT.isVector()) {
VecVal1 = DAG.getTargetInsertSubreg(AArch64::ssub, DL, VecVT,		VecVal1 = DAG.getTargetInsertSubreg(Idx, DL, VecVT,
DAG.getUNDEF(VecVT), In1);		DAG.getUNDEF(VecVT), In1);
VecVal2 = DAG.getTargetInsertSubreg(AArch64::ssub, DL, VecVT,		VecVal2 = DAG.getTargetInsertSubreg(Idx, DL, VecVT,
DAG.getUNDEF(VecVT), In2);		DAG.getUNDEF(VecVT), In2);
} else {		} else {
VecVal1 = DAG.getNode(ISD::BITCAST, DL, VecVT, In1);		VecVal1 = DAG.getNode(ISD::BITCAST, DL, VecVT, In1);
VecVal2 = DAG.getNode(ISD::BITCAST, DL, VecVT, In2);		VecVal2 = DAG.getNode(ISD::BITCAST, DL, VecVT, In2);
}		}
		};

		if (VT == MVT::f32 \|\| VT == MVT::v2f32 \|\| VT == MVT::v4f32) {
		VecVT = (VT == MVT::v2f32 ? MVT::v2i32 : MVT::v4i32);
		EltMask = 0x80000000ULL;
		setVecVal(AArch64::ssub);
} else if (VT == MVT::f64 \|\| VT == MVT::v2f64) {		} else if (VT == MVT::f64 \|\| VT == MVT::v2f64) {
EltVT = MVT::i64;
VecVT = MVT::v2i64;		VecVT = MVT::v2i64;

// We want to materialize a mask with the high bit set, but the AdvSIMD		// We want to materialize a mask with the high bit set, but the AdvSIMD
// immediate moves cannot materialize that in a single instruction for		// immediate moves cannot materialize that in a single instruction for
// 64-bit elements. Instead, materialize zero and then negate it.		// 64-bit elements. Instead, materialize zero and then negate it.
EltMask = 0;		EltMask = 0;

if (!VT.isVector()) {		setVecVal(AArch64::dsub);
VecVal1 = DAG.getTargetInsertSubreg(AArch64::dsub, DL, VecVT,		} else if (VT == MVT::f16 \|\| VT == MVT::v4f16 \|\| VT == MVT::v8f16) {
DAG.getUNDEF(VecVT), In1);		VecVT = (VT == MVT::v4f16 ? MVT::v4i16 : MVT::v8i16);
VecVal2 = DAG.getTargetInsertSubreg(AArch64::dsub, DL, VecVT,		EltMask = 0x8000ULL;
DAG.getUNDEF(VecVT), In2);		setVecVal(AArch64::hsub);
} else {
VecVal1 = DAG.getNode(ISD::BITCAST, DL, VecVT, In1);
VecVal2 = DAG.getNode(ISD::BITCAST, DL, VecVT, In2);
}
} else {		} else {
llvm_unreachable("Invalid type for copysign!");		llvm_unreachable("Invalid type for copysign!");
}		}

SDValue BuildVec = DAG.getConstant(EltMask, DL, VecVT);		SDValue BuildVec = DAG.getConstant(EltMask, DL, VecVT);

// If we couldn't materialize the mask above, then the mask vector will be		// If we couldn't materialize the mask above, then the mask vector will be
// the zero vector, and we need to negate it here.		// the zero vector, and we need to negate it here.
if (VT == MVT::f64 \|\| VT == MVT::v2f64) {		if (VT == MVT::f64 \|\| VT == MVT::v2f64) {
BuildVec = DAG.getNode(ISD::BITCAST, DL, MVT::v2f64, BuildVec);		BuildVec = DAG.getNode(ISD::BITCAST, DL, MVT::v2f64, BuildVec);
BuildVec = DAG.getNode(ISD::FNEG, DL, MVT::v2f64, BuildVec);		BuildVec = DAG.getNode(ISD::FNEG, DL, MVT::v2f64, BuildVec);
BuildVec = DAG.getNode(ISD::BITCAST, DL, MVT::v2i64, BuildVec);		BuildVec = DAG.getNode(ISD::BITCAST, DL, MVT::v2i64, BuildVec);
}		}

SDValue Sel =		SDValue Sel =
DAG.getNode(AArch64ISD::BIT, DL, VecVT, VecVal1, VecVal2, BuildVec);		DAG.getNode(AArch64ISD::BIT, DL, VecVT, VecVal1, VecVal2, BuildVec);

		if (VT == MVT::f16)
		return DAG.getTargetExtractSubreg(AArch64::hsub, DL, VT, Sel);
if (VT == MVT::f32)		if (VT == MVT::f32)
return DAG.getTargetExtractSubreg(AArch64::ssub, DL, VT, Sel);		return DAG.getTargetExtractSubreg(AArch64::ssub, DL, VT, Sel);
else if (VT == MVT::f64)		else if (VT == MVT::f64)
return DAG.getTargetExtractSubreg(AArch64::dsub, DL, VT, Sel);		return DAG.getTargetExtractSubreg(AArch64::dsub, DL, VT, Sel);
else		else
return DAG.getNode(ISD::BITCAST, DL, VT, Sel);		return DAG.getNode(ISD::BITCAST, DL, VT, Sel);
}		}

▲ Show 20 Lines • Show All 6,753 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AArch64/f16-instructions.ll

	Show First 20 Lines • Show All 928 Lines • ▼ Show 20 Lines
	; CHECK-FP16-NEXT: fmaxnm h0, h0, h1			; CHECK-FP16-NEXT: fmaxnm h0, h0, h1
	; CHECK-FP16-NEXT: ret			; CHECK-FP16-NEXT: ret

	define half @test_maxnum(half %a, half %b) #0 {			define half @test_maxnum(half %a, half %b) #0 {
	%r = call half @llvm.maxnum.f16(half %a, half %b)			%r = call half @llvm.maxnum.f16(half %a, half %b)
	ret half %r			ret half %r
	}			}

	; CHECK-COMMON-LABEL: test_copysign:			; CHECK-CVT-LABEL: test_copysign:
	; CHECK-COMMON-NEXT: fcvt s1, h1			; CHECK-CVT-NEXT: fcvt s1, h1
	; CHECK-COMMON-NEXT: fcvt s0, h0			; CHECK-CVT-NEXT: fcvt s0, h0
	; CHECK-COMMON-NEXT: movi.4s v2, #128, lsl #24			; CHECK-CVT-NEXT: movi.4s v2, #128, lsl #24
	; CHECK-COMMON-NEXT: bit.16b v0, v1, v2			; CHECK-CVT-NEXT: bit.16b v0, v1, v2
	; CHECK-COMMON-NEXT: fcvt h0, s0			; CHECK-CVT-NEXT: fcvt h0, s0
	; CHECK-COMMON-NEXT: ret			; CHECK-CVT-NEXT: ret

				; CHECK-FP16-LABEL: test_copysign:
				; CHECK-FP16-NEXT: movi.8h v2, #128, lsl #8
				; CHECK-FP16-NEXT: bit.16b v0, v1, v2
				; CHECK-FP16-NEXT: ret

	define half @test_copysign(half %a, half %b) #0 {			define half @test_copysign(half %a, half %b) #0 {
	%r = call half @llvm.copysign.f16(half %a, half %b)			%r = call half @llvm.copysign.f16(half %a, half %b)
	ret half %r			ret half %r
	}			}

	; CHECK-COMMON-LABEL: test_copysign_f32:			; CHECK-CVT-LABEL: test_copysign_f32:
	; CHECK-COMMON-NEXT: fcvt s0, h0			; CHECK-CVT-NEXT: fcvt s0, h0
	; CHECK-COMMON-NEXT: movi.4s v2, #128, lsl #24			; CHECK-CVT-NEXT: movi.4s v2, #128, lsl #24
	; CHECK-COMMON-NEXT: bit.16b v0, v1, v2			; CHECK-CVT-NEXT: bit.16b v0, v1, v2
	; CHECK-COMMON-NEXT: fcvt h0, s0			; CHECK-CVT-NEXT: fcvt h0, s0
	; CHECK-COMMON-NEXT: ret			; CHECK-CVT-NEXT: ret

				; CHECK-FP16-LABEL: test_copysign_f32:
				; CHECK-FP16-NEXT: fcvt h1, s1
				; CHECK-FP16-NEXT: movi.8h v2, #128, lsl #8
				; CHECK-FP16-NEXT: bit.16b v0, v1, v2
				; CHECK-FP16-NEXT: ret

	define half @test_copysign_f32(half %a, float %b) #0 {			define half @test_copysign_f32(half %a, float %b) #0 {
	%tb = fptrunc float %b to half			%tb = fptrunc float %b to half
	%r = call half @llvm.copysign.f16(half %a, half %tb)			%r = call half @llvm.copysign.f16(half %a, half %tb)
	ret half %r			ret half %r
	}			}

	; CHECK-COMMON-LABEL: test_copysign_f64:			; CHECK-CVT-LABEL: test_copysign_f64:
	; CHECK-COMMON-NEXT: fcvt s1, d1			; CHECK-CVT-NEXT: fcvt s1, d1
	; CHECK-COMMON-NEXT: fcvt s0, h0			; CHECK-CVT-NEXT: fcvt s0, h0
	; CHECK-COMMON-NEXT: movi.4s v2, #128, lsl #24			; CHECK-CVT-NEXT: movi.4s v2, #128, lsl #24
	; CHECK-COMMON-NEXT: bit.16b v0, v1, v2			; CHECK-CVT-NEXT: bit.16b v0, v1, v2
	; CHECK-COMMON-NEXT: fcvt h0, s0			; CHECK-CVT-NEXT: fcvt h0, s0
	; CHECK-COMMON-NEXT: ret			; CHECK-CVT-NEXT: ret

				; CHECK-FP16-LABEL: test_copysign_f64:
				; CHECK-FP16-NEXT: fcvt h1, d1
				; CHECK-FP16-NEXT: movi.8h v2, #128, lsl #8
				; CHECK-FP16-NEXT: bit.16b v0, v1, v2
				; CHECK-FP16-NEXT: ret

	define half @test_copysign_f64(half %a, double %b) #0 {			define half @test_copysign_f64(half %a, double %b) #0 {
	%tb = fptrunc double %b to half			%tb = fptrunc double %b to half
	%r = call half @llvm.copysign.f16(half %a, half %tb)			%r = call half @llvm.copysign.f16(half %a, half %tb)
	ret half %r			ret half %r
	}			}

	; Check that the FP promotion will use a truncating FP_ROUND, so we can fold			; Check that the FP promotion will use a truncating FP_ROUND, so we can fold
	; away the (fpext (fp_round <result>)) here.			; away the (fpext (fp_round <result>)) here.

	; CHECK-COMMON-LABEL: test_copysign_extended:			; CHECK-CVT-LABEL: test_copysign_extended:
	; CHECK-COMMON-NEXT: fcvt s1, h1			; CHECK-CVT-NEXT: fcvt s1, h1
	; CHECK-COMMON-NEXT: fcvt s0, h0			; CHECK-CVT-NEXT: fcvt s0, h0
	; CHECK-COMMON-NEXT: movi.4s v2, #128, lsl #24			; CHECK-CVT-NEXT: movi.4s v2, #128, lsl #24
	; CHECK-COMMON-NEXT: bit.16b v0, v1, v2			; CHECK-CVT-NEXT: bit.16b v0, v1, v2
	; CHECK-COMMON-NEXT: ret			; CHECK-CVT-NEXT: ret

				; CHECK-FP16-LABEL: test_copysign_extended:
				; CHECK-FP16-NEXT: movi.8h v2, #128, lsl #8
				; CHECK-FP16-NEXT: bit.16b v0, v1, v2
				; CHECK-FP16-NEXT: fcvt s0, h0
				; CHECK-FP16-NEXT: ret

	define float @test_copysign_extended(half %a, half %b) #0 {			define float @test_copysign_extended(half %a, half %b) #0 {
	%r = call half @llvm.copysign.f16(half %a, half %b)			%r = call half @llvm.copysign.f16(half %a, half %b)
	%xr = fpext half %r to float			%xr = fpext half %r to float
	ret float %xr			ret float %xr
	}			}

	; CHECK-CVT-LABEL: test_floor:			; CHECK-CVT-LABEL: test_floor:
	; CHECK-CVT-NEXT: fcvt [[FLOAT32:s[0-9]+]], h0			; CHECK-CVT-NEXT: fcvt [[FLOAT32:s[0-9]+]], h0
	▲ Show 20 Lines • Show All 110 Lines • Show Last 20 Lines