This is an archive of the discontinued LLVM Phabricator instance.

[AArch64] Prefer to fold dup into fmul/fma as opposed to ld1r
ClosedPublic

Authored by dmgreen on Mar 2 2023, 1:46 PM.

Download Raw Diff

Details

Reviewers

SjoerdMeijer
samtebbs
bipmis
labrinea

Commits

rG9aa39481d9eb: [AArch64] Prefer to fold dup into fmul/fma as opposed to ld1r

Summary

There is a fold to create LD1DUPpost from dup(load) that can be postinc. If the dup is used by a "by element" operation such as fmul or fma then it can be slightly better to fold the dup into the fmul instead, which produces slightly fast code.

ld1r { v1.4s }, [x0], #4
fmul v0.4s, v1.4s, v0.4s

ldr s1, [x0], #4
fmul v0.4s, v0.4s, v1.s[0]

This could also be done with integer operations such as smull/umull too, so long as the load/dup gets correctly combined into the mul operation. Currently this just operates on foating point types.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

dmgreen created this revision.Mar 2 2023, 1:46 PM

Herald added a project: Restricted Project. · View Herald TranscriptMar 2 2023, 1:46 PM

Herald added subscribers: hiraditya, kristof.beyls. · View Herald Transcript

dmgreen requested review of this revision.Mar 2 2023, 1:46 PM

Herald added a project: Restricted Project. · View Herald TranscriptMar 2 2023, 1:46 PM

Harbormaster completed remote builds in B217044: Diff 501956.Mar 2 2023, 1:47 PM

samtebbs accepted this revision.Mar 3 2023, 6:05 AM

This revision is now accepted and ready to land.Mar 3 2023, 6:05 AM

dmgreen mentioned this in rG5a45d21a0866: [AArch64] Tests for dup in load vs mul. NFC.Mar 7 2023, 5:21 AM

This revision was landed with ongoing or failed builds.Mar 7 2023, 1:24 PM

Closed by commit rG9aa39481d9eb: [AArch64] Prefer to fold dup into fmul/fma as opposed to ld1r (authored by dmgreen). · Explain Why

This revision was automatically updated to reflect the committed changes.

dmgreen added a commit: rG9aa39481d9eb: [AArch64] Prefer to fold dup into fmul/fma as opposed to ld1r.

Revision Contents

Path

Size

llvm/

lib/

Target/

AArch64/

AArch64ISelLowering.cpp

9 lines

test/

CodeGen/

AArch64/

ld1postmul.ll

24 lines

Diff 503146

llvm/lib/Target/AArch64/AArch64ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 19,342 Lines • ▼ Show 20 Lines	static SDValue performPostLD1Combine(SDNode *N,
for (SDNode::use_iterator UI = LD->use_begin(), UE = LD->use_end(); UI != UE;		for (SDNode::use_iterator UI = LD->use_begin(), UE = LD->use_end(); UI != UE;
++UI) {		++UI) {
if (UI.getUse().getResNo() == 1) // Ignore uses of the chain result.		if (UI.getUse().getResNo() == 1) // Ignore uses of the chain result.
continue;		continue;
if (*UI != N)		if (*UI != N)
return SDValue();		return SDValue();
}		}

		// If there is one use and it can splat the value, prefer that operation.
		// TODO: This could be expanded to more operations if they reliably use the
		// index variants.
		if (N->hasOneUse()) {
		unsigned UseOpc = N->use_begin()->getOpcode();
		if (UseOpc == ISD::FMUL \|\| UseOpc == ISD::FMA)
		return SDValue();
		}

SDValue Addr = LD->getOperand(1);		SDValue Addr = LD->getOperand(1);
SDValue Vector = N->getOperand(0);		SDValue Vector = N->getOperand(0);
// Search for a use of the address operand that is an increment.		// Search for a use of the address operand that is an increment.
for (SDNode::use_iterator UI = Addr.getNode()->use_begin(), UE =		for (SDNode::use_iterator UI = Addr.getNode()->use_begin(), UE =
Addr.getNode()->use_end(); UI != UE; ++UI) {		Addr.getNode()->use_end(); UI != UE; ++UI) {
SDNode User = UI;		SDNode User = UI;
if (User->getOpcode() != ISD::ADD		if (User->getOpcode() != ISD::ADD
\|\| UI.getUse().getResNo() != Addr.getResNo())		\|\| UI.getUse().getResNo() != Addr.getResNo())
▲ Show 20 Lines • Show All 5,139 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/ld1postmul.ll

	Show First 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; CHECK-NOFP16-NEXT: fcvtl v1.4s, v1.4h			; CHECK-NOFP16-NEXT: fcvtl v1.4s, v1.4h
	; CHECK-NOFP16-NEXT: fmul v0.4s, v1.4s, v0.4s			; CHECK-NOFP16-NEXT: fmul v0.4s, v1.4s, v0.4s
	; CHECK-NOFP16-NEXT: fcvtn v0.4h, v0.4s			; CHECK-NOFP16-NEXT: fcvtn v0.4h, v0.4s
	; CHECK-NOFP16-NEXT: str d0, [x1]			; CHECK-NOFP16-NEXT: str d0, [x1]
	; CHECK-NOFP16-NEXT: ret			; CHECK-NOFP16-NEXT: ret
	;			;
	; CHECK-FP16-LABEL: fmul_v4f16:			; CHECK-FP16-LABEL: fmul_v4f16:
	; CHECK-FP16: // %bb.0:			; CHECK-FP16: // %bb.0:
	; CHECK-FP16-NEXT: ld1r { v1.4h }, [x0], #2			; CHECK-FP16-NEXT: ldr h1, [x0], #2
	; CHECK-FP16-NEXT: fmul v0.4h, v1.4h, v0.4h			; CHECK-FP16-NEXT: fmul v0.4h, v0.4h, v1.h[0]
	; CHECK-FP16-NEXT: str d0, [x1]			; CHECK-FP16-NEXT: str d0, [x1]
	; CHECK-FP16-NEXT: ret			; CHECK-FP16-NEXT: ret
	%l = load half, ptr %p			%l = load half, ptr %p
	%i = insertelement <4 x half> undef, half %l, i32 0			%i = insertelement <4 x half> undef, half %l, i32 0
	%s = shufflevector <4 x half> %i, <4 x half> undef, <4 x i32> zeroinitializer			%s = shufflevector <4 x half> %i, <4 x half> undef, <4 x i32> zeroinitializer
	%m = fmul <4 x half> %s, %t			%m = fmul <4 x half> %s, %t
	store <4 x half> %m, ptr %ps			store <4 x half> %m, ptr %ps
	%g = getelementptr half, ptr %p, i64 1			%g = getelementptr half, ptr %p, i64 1
	Show All 12 Lines
	; CHECK-NOFP16-NEXT: fcvtl v0.4s, v0.4h			; CHECK-NOFP16-NEXT: fcvtl v0.4s, v0.4h
	; CHECK-NOFP16-NEXT: fadd v0.4s, v0.4s, v1.4s			; CHECK-NOFP16-NEXT: fadd v0.4s, v0.4s, v1.4s
	; CHECK-NOFP16-NEXT: fcvtn v0.4h, v0.4s			; CHECK-NOFP16-NEXT: fcvtn v0.4h, v0.4s
	; CHECK-NOFP16-NEXT: str d0, [x1]			; CHECK-NOFP16-NEXT: str d0, [x1]
	; CHECK-NOFP16-NEXT: ret			; CHECK-NOFP16-NEXT: ret
	;			;
	; CHECK-FP16-LABEL: fmla_v4f16:			; CHECK-FP16-LABEL: fmla_v4f16:
	; CHECK-FP16: // %bb.0:			; CHECK-FP16: // %bb.0:
	; CHECK-FP16-NEXT: ld1r { v2.4h }, [x0], #2			; CHECK-FP16-NEXT: ldr h2, [x0], #2
	; CHECK-FP16-NEXT: fmla v1.4h, v0.4h, v2.4h			; CHECK-FP16-NEXT: fmla v1.4h, v0.4h, v2.h[0]
	; CHECK-FP16-NEXT: str d1, [x1]			; CHECK-FP16-NEXT: str d1, [x1]
	; CHECK-FP16-NEXT: ret			; CHECK-FP16-NEXT: ret
	%l = load half, ptr %p			%l = load half, ptr %p
	%i = insertelement <4 x half> undef, half %l, i32 0			%i = insertelement <4 x half> undef, half %l, i32 0
	%s = shufflevector <4 x half> %i, <4 x half> undef, <4 x i32> zeroinitializer			%s = shufflevector <4 x half> %i, <4 x half> undef, <4 x i32> zeroinitializer
	%m = fmul fast <4 x half> %s, %t			%m = fmul fast <4 x half> %s, %t
	%a = fadd fast <4 x half> %m, %u			%a = fadd fast <4 x half> %m, %u
	store <4 x half> %a, ptr %ps			store <4 x half> %a, ptr %ps
	%g = getelementptr half, ptr %p, i64 1			%g = getelementptr half, ptr %p, i64 1
	ret ptr %g			ret ptr %g
	}			}

	define ptr @fmul_v4f32(ptr %p, ptr %ps, <4 x float> %t) {			define ptr @fmul_v4f32(ptr %p, ptr %ps, <4 x float> %t) {
	; CHECK-LABEL: fmul_v4f32:			; CHECK-LABEL: fmul_v4f32:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: ld1r { v1.4s }, [x0], #4			; CHECK-NEXT: ldr s1, [x0], #4
	; CHECK-NEXT: fmul v0.4s, v1.4s, v0.4s			; CHECK-NEXT: fmul v0.4s, v0.4s, v1.s[0]
	; CHECK-NEXT: str q0, [x1]			; CHECK-NEXT: str q0, [x1]
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%l = load float, ptr %p			%l = load float, ptr %p
	%i = insertelement <4 x float> undef, float %l, i32 0			%i = insertelement <4 x float> undef, float %l, i32 0
	%s = shufflevector <4 x float> %i, <4 x float> undef, <4 x i32> zeroinitializer			%s = shufflevector <4 x float> %i, <4 x float> undef, <4 x i32> zeroinitializer
	%m = fmul <4 x float> %s, %t			%m = fmul <4 x float> %s, %t
	store <4 x float> %m, ptr %ps			store <4 x float> %m, ptr %ps
	%g = getelementptr float, ptr %p, i64 1			%g = getelementptr float, ptr %p, i64 1
	ret ptr %g			ret ptr %g
	}			}

	define ptr @fmla_v4f32(ptr %p, ptr %ps, <4 x float> %t, <4 x float> %u) {			define ptr @fmla_v4f32(ptr %p, ptr %ps, <4 x float> %t, <4 x float> %u) {
	; CHECK-LABEL: fmla_v4f32:			; CHECK-LABEL: fmla_v4f32:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: ld1r { v2.4s }, [x0], #4			; CHECK-NEXT: ldr s2, [x0], #4
	; CHECK-NEXT: fmla v1.4s, v0.4s, v2.4s			; CHECK-NEXT: fmla v1.4s, v0.4s, v2.s[0]
	; CHECK-NEXT: str q1, [x1]			; CHECK-NEXT: str q1, [x1]
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%l = load float, ptr %p			%l = load float, ptr %p
	%i = insertelement <4 x float> undef, float %l, i32 0			%i = insertelement <4 x float> undef, float %l, i32 0
	%s = shufflevector <4 x float> %i, <4 x float> undef, <4 x i32> zeroinitializer			%s = shufflevector <4 x float> %i, <4 x float> undef, <4 x i32> zeroinitializer
	%m = fmul fast <4 x float> %s, %t			%m = fmul fast <4 x float> %s, %t
	%a = fadd fast <4 x float> %m, %u			%a = fadd fast <4 x float> %m, %u
	store <4 x float> %a, ptr %ps			store <4 x float> %a, ptr %ps
	%g = getelementptr float, ptr %p, i64 1			%g = getelementptr float, ptr %p, i64 1
	ret ptr %g			ret ptr %g
	}			}

	define ptr @fmul_v2f64(ptr %p, ptr %ps, <2 x double> %t) {			define ptr @fmul_v2f64(ptr %p, ptr %ps, <2 x double> %t) {
	; CHECK-LABEL: fmul_v2f64:			; CHECK-LABEL: fmul_v2f64:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: ld1r { v1.2d }, [x0], #8			; CHECK-NEXT: ldr d1, [x0], #8
	; CHECK-NEXT: fmul v0.2d, v1.2d, v0.2d			; CHECK-NEXT: fmul v0.2d, v0.2d, v1.d[0]
	; CHECK-NEXT: str q0, [x1]			; CHECK-NEXT: str q0, [x1]
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%l = load double, ptr %p			%l = load double, ptr %p
	%i = insertelement <2 x double> undef, double %l, i32 0			%i = insertelement <2 x double> undef, double %l, i32 0
	%s = shufflevector <2 x double> %i, <2 x double> undef, <2 x i32> zeroinitializer			%s = shufflevector <2 x double> %i, <2 x double> undef, <2 x i32> zeroinitializer
	%m = fmul <2 x double> %s, %t			%m = fmul <2 x double> %s, %t
	store <2 x double> %m, ptr %ps			store <2 x double> %m, ptr %ps
	%g = getelementptr double, ptr %p, i64 1			%g = getelementptr double, ptr %p, i64 1
	ret ptr %g			ret ptr %g
	}			}

	define ptr @fmla_v2f64(ptr %p, ptr %ps, <2 x double> %t, <2 x double> %u) {			define ptr @fmla_v2f64(ptr %p, ptr %ps, <2 x double> %t, <2 x double> %u) {
	; CHECK-LABEL: fmla_v2f64:			; CHECK-LABEL: fmla_v2f64:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: ld1r { v2.2d }, [x0], #8			; CHECK-NEXT: ldr d2, [x0], #8
	; CHECK-NEXT: fmla v1.2d, v0.2d, v2.2d			; CHECK-NEXT: fmla v1.2d, v0.2d, v2.d[0]
	; CHECK-NEXT: str q1, [x1]			; CHECK-NEXT: str q1, [x1]
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%l = load double, ptr %p			%l = load double, ptr %p
	%i = insertelement <2 x double> undef, double %l, i32 0			%i = insertelement <2 x double> undef, double %l, i32 0
	%s = shufflevector <2 x double> %i, <2 x double> undef, <2 x i32> zeroinitializer			%s = shufflevector <2 x double> %i, <2 x double> undef, <2 x i32> zeroinitializer
	%m = fmul fast <2 x double> %s, %t			%m = fmul fast <2 x double> %s, %t
	%a = fadd fast <2 x double> %m, %u			%a = fadd fast <2 x double> %m, %u
	store <2 x double> %a, ptr %ps			store <2 x double> %a, ptr %ps
	%g = getelementptr double, ptr %p, i64 1			%g = getelementptr double, ptr %p, i64 1
	ret ptr %g			ret ptr %g
	}			}