This is an archive of the discontinued LLVM Phabricator instance.

[ARM][NFCI] Do not fuse VADD and VMUL, continued (1/2)
ClosedPublic

Authored by SjoerdMeijer on Oct 16 2018, 1:56 AM.

Download Raw Diff

Details

Reviewers

samparker
t.p.northover
dmgreen
javed.absar

Commits

rGff3ab33ec890: [ARM][NFCI] Do not fuse VADD and VMUL, continued (1/2)
rL344671: [ARM][NFCI] Do not fuse VADD and VMUL, continued (1/2)

Summary

This is a follow up of rL342874, which stopped fusing muls and adds into VMLAs
for performance reasons on the Cortex-M4 and Cortex-M33. This is a serie of 2
patches, that is trying to achieve the same for VFMA. The second column in the
table below shows what we were generating before rL342874, the second column
what changed with rL342874, and the last column what we want with these 2
patches:

| Opt   |  < rL342874   |  >= rL342874   |             |
|------------------------------------------------------|
|-O3    |     vmla      |      vmul      |     vmul    |
|       |               |      vadd      |     vadd    |
|------------------------------------------------------|
|-Ofast |     vfma      |      vfma      |     vmul    |
|       |               |                |     vadd    |
|------------------------------------------------------|
|-Oz    |     vmla      |      vmla      |     vmla    |
--------------------------------------------------------

This patch 1/2, is a cleanup of the spaghetti predicate logic on the different
VMLA and VFMA codegen rules, so that we can make the final functional change in
patch 2/2 in D53315. This also fixes a typo in the regression test added in rL342874.

Diff Detail

Event Timeline

SjoerdMeijer created this revision.Oct 16 2018, 1:56 AM

Herald added a reviewer: javed.absar. · View Herald TranscriptOct 16 2018, 1:56 AM

Herald added subscribers: chrib, kristof.beyls. · View Herald Transcript

SjoerdMeijer edited the summary of this revision. (Show Details)Oct 16 2018, 1:56 AM

SjoerdMeijer mentioned this in D53315: [ARM] Do not fuse VADD and VMUL, continued (2/2).Oct 16 2018, 1:59 AM

SjoerdMeijer edited the summary of this revision. (Show Details)Oct 16 2018, 2:01 AM

samparker added inline comments.Oct 16 2018, 2:14 AM

lib/Target/ARM/ARMInstrInfo.td
363	I think moving VFP4 check into the useFPVMLx method would help make this easier to read.

I think moving VFP4 check into the useFPVMLx method would help make this easier to read.

Thanks for the suggestion. I had a look, and turns out we don't need it at all because the VFP checks and predicates are already on the rules. Thus we can simplify the UseFPVMLx predicate even more by removing the VFP check from it.

Herald added a subscriber: nhaehnle. · View Herald TranscriptOct 16 2018, 5:45 AM

Great, LGTM

This revision is now accepted and ready to land.Oct 16 2018, 5:55 AM

nhaehnle removed a subscriber: nhaehnle.Oct 16 2018, 8:18 AM

Closed by commit rL344671: [ARM][NFCI] Do not fuse VADD and VMUL, continued (1/2) (authored by SjoerdMeijer). · Explain WhyOct 17 2018, 12:28 AM

This revision was automatically updated to reflect the committed changes.

SjoerdMeijer mentioned this in rL344683: [ARM] Do not fuse VADD and VMUL, continued (2/2).Oct 17 2018, 3:07 AM

Revision Contents

Path

Size

lib/

Target/

ARM/

ARMInstrInfo.td

10 lines

ARMInstrNEON.td

20 lines

ARMInstrVFP.td

54 lines

test/

CodeGen/

ARM/

fmacs.ll

7 lines

Diff 169793

lib/Target/ARM/ARMInstrInfo.td

Show First 20 Lines • Show All 351 Lines • ▼ Show 20 Lines	Predicate<"false">,
"NegativeImmediates">;		"NegativeImmediates">;

// FIXME: Eventually this will be just "hasV6T2Ops".		// FIXME: Eventually this will be just "hasV6T2Ops".
let RecomputePerFunction = 1 in {		let RecomputePerFunction = 1 in {
def UseMovt : Predicate<"Subtarget->useMovt(*MF)">;		def UseMovt : Predicate<"Subtarget->useMovt(*MF)">;
def DontUseMovt : Predicate<"!Subtarget->useMovt(*MF)">;		def DontUseMovt : Predicate<"!Subtarget->useMovt(*MF)">;
def UseMovtInPic : Predicate<"Subtarget->useMovt(*MF) && Subtarget->allowPositionIndependentMovt()">;		def UseMovtInPic : Predicate<"Subtarget->useMovt(*MF) && Subtarget->allowPositionIndependentMovt()">;
def DontUseMovtInPic : Predicate<"!Subtarget->useMovt(*MF) \|\| !Subtarget->allowPositionIndependentMovt()">;		def DontUseMovtInPic : Predicate<"!Subtarget->useMovt(*MF) \|\| !Subtarget->allowPositionIndependentMovt()">;
def UseFPVMLx : Predicate<"Subtarget->useFPVMLx() \|\| MF->getFunction().optForMinSize()">;
		def UseFPVMLx: Predicate<"(Subtarget->useFPVMLx() &&"
		"!(TM.Options.AllowFPOpFusion == FPOpFusion::Fast &&"
		" Subtarget->hasVFP4())) \|\|"
		samparkerUnsubmitted Not Done Reply Inline Actions I think moving VFP4 check into the useFPVMLx method would help make this easier to read. samparker: I think moving VFP4 check into the useFPVMLx method would help make this easier to read.
		"MF->getFunction().optForMinSize()">;
}		}
def UseMulOps : Predicate<"Subtarget->useMulOps()">;		def UseMulOps : Predicate<"Subtarget->useMulOps()">;

// Prefer fused MAC for fp mul + add over fp VMLA / VMLS if they are available.		// Prefer fused MAC for fp mul + add over fp VMLA / VMLS if they are available.
// But only select them if more precision in FP computation is allowed.		// But only select them if more precision in FP computation is allowed.
// Do not use them for Darwin platforms.		// Do not use them for Darwin platforms.
def UseFusedMAC : Predicate<"(TM.Options.AllowFPOpFusion =="		def UseFusedMAC : Predicate<"(TM.Options.AllowFPOpFusion =="
" FPOpFusion::Fast && "		" FPOpFusion::Fast && "
" Subtarget->hasVFP4()) && "		" Subtarget->hasVFP4()) && "
"!Subtarget->isTargetDarwin()">;		"!Subtarget->isTargetDarwin()">;
def DontUseFusedMAC : Predicate<"!(TM.Options.AllowFPOpFusion =="
" FPOpFusion::Fast &&"
" Subtarget->hasVFP4()) \|\| "
"Subtarget->isTargetDarwin()">;

def HasFastVGETLNi32 : Predicate<"!Subtarget->hasSlowVGETLNi32()">;		def HasFastVGETLNi32 : Predicate<"!Subtarget->hasSlowVGETLNi32()">;
def HasSlowVGETLNi32 : Predicate<"Subtarget->hasSlowVGETLNi32()">;		def HasSlowVGETLNi32 : Predicate<"Subtarget->hasSlowVGETLNi32()">;

def HasFastVDUP32 : Predicate<"!Subtarget->hasSlowVDUP32()">;		def HasFastVDUP32 : Predicate<"!Subtarget->hasSlowVDUP32()">;
def HasSlowVDUP32 : Predicate<"Subtarget->hasSlowVDUP32()">;		def HasSlowVDUP32 : Predicate<"Subtarget->hasSlowVDUP32()">;

def UseVMOVSR : Predicate<"Subtarget->preferVMOVSR() \|\|"		def UseVMOVSR : Predicate<"Subtarget->preferVMOVSR() \|\|"
▲ Show 20 Lines • Show All 5,811 Lines • Show Last 20 Lines

lib/Target/ARM/ARMInstrNEON.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 4,396 Lines • ▼ Show 20 Lines

// Vector Multiply-Accumulate and Multiply-Subtract Operations.		// Vector Multiply-Accumulate and Multiply-Subtract Operations.

// VMLA : Vector Multiply Accumulate (integer and floating-point)		// VMLA : Vector Multiply Accumulate (integer and floating-point)
defm VMLA : N3VMulOp_QHS<0, 0, 0b1001, 0, IIC_VMACi16D, IIC_VMACi32D,		defm VMLA : N3VMulOp_QHS<0, 0, 0b1001, 0, IIC_VMACi16D, IIC_VMACi32D,
IIC_VMACi16Q, IIC_VMACi32Q, "vmla", "i", add>;		IIC_VMACi16Q, IIC_VMACi32Q, "vmla", "i", add>;
def VMLAfd : N3VDMulOp<0, 0, 0b00, 0b1101, 1, IIC_VMACD, "vmla", "f32",		def VMLAfd : N3VDMulOp<0, 0, 0b00, 0b1101, 1, IIC_VMACD, "vmla", "f32",
v2f32, fmul_su, fadd_mlx>,		v2f32, fmul_su, fadd_mlx>,
Requires<[HasNEON, UseFPVMLx, DontUseFusedMAC]>;		Requires<[HasNEON, UseFPVMLx]>;
def VMLAfq : N3VQMulOp<0, 0, 0b00, 0b1101, 1, IIC_VMACQ, "vmla", "f32",		def VMLAfq : N3VQMulOp<0, 0, 0b00, 0b1101, 1, IIC_VMACQ, "vmla", "f32",
v4f32, fmul_su, fadd_mlx>,		v4f32, fmul_su, fadd_mlx>,
Requires<[HasNEON, UseFPVMLx, DontUseFusedMAC]>;		Requires<[HasNEON, UseFPVMLx]>;
def VMLAhd : N3VDMulOp<0, 0, 0b01, 0b1101, 1, IIC_VMACD, "vmla", "f16",		def VMLAhd : N3VDMulOp<0, 0, 0b01, 0b1101, 1, IIC_VMACD, "vmla", "f16",
v4f16, fmul_su, fadd_mlx>,		v4f16, fmul_su, fadd_mlx>,
Requires<[HasNEON, HasFullFP16, UseFPVMLx, DontUseFusedMAC]>;		Requires<[HasNEON, HasFullFP16, UseFPVMLx]>;
def VMLAhq : N3VQMulOp<0, 0, 0b01, 0b1101, 1, IIC_VMACQ, "vmla", "f16",		def VMLAhq : N3VQMulOp<0, 0, 0b01, 0b1101, 1, IIC_VMACQ, "vmla", "f16",
v8f16, fmul_su, fadd_mlx>,		v8f16, fmul_su, fadd_mlx>,
Requires<[HasNEON, HasFullFP16, UseFPVMLx, DontUseFusedMAC]>;		Requires<[HasNEON, HasFullFP16, UseFPVMLx]>;
defm VMLAsl : N3VMulOpSL_HS<0b0000, IIC_VMACi16D, IIC_VMACi32D,		defm VMLAsl : N3VMulOpSL_HS<0b0000, IIC_VMACi16D, IIC_VMACi32D,
IIC_VMACi16Q, IIC_VMACi32Q, "vmla", "i", add>;		IIC_VMACi16Q, IIC_VMACi32Q, "vmla", "i", add>;
def VMLAslfd : N3VDMulOpSL<0b10, 0b0001, IIC_VMACD, "vmla", "f32",		def VMLAslfd : N3VDMulOpSL<0b10, 0b0001, IIC_VMACD, "vmla", "f32",
v2f32, fmul_su, fadd_mlx>,		v2f32, fmul_su, fadd_mlx>,
Requires<[HasNEON, UseFPVMLx]>;		Requires<[HasNEON, UseFPVMLx]>;
def VMLAslfq : N3VQMulOpSL<0b10, 0b0001, IIC_VMACQ, "vmla", "f32",		def VMLAslfq : N3VQMulOpSL<0b10, 0b0001, IIC_VMACQ, "vmla", "f32",
v4f32, v2f32, fmul_su, fadd_mlx>,		v4f32, v2f32, fmul_su, fadd_mlx>,
Requires<[HasNEON, UseFPVMLx]>;		Requires<[HasNEON, UseFPVMLx]>;
▲ Show 20 Lines • Show All 204 Lines • ▼ Show 20 Lines	def : Pat<(v2i64 (int_arm_neon_vqadds (v2i64 QPR:$src1),
imm:$lane)))))),		imm:$lane)))))),
(VQDMLALslv2i32 QPR:$src1, DPR:$Vn, DPR_VFP2:$Vm, imm:$lane)>;		(VQDMLALslv2i32 QPR:$src1, DPR:$Vn, DPR_VFP2:$Vm, imm:$lane)>;

// VMLS : Vector Multiply Subtract (integer and floating-point)		// VMLS : Vector Multiply Subtract (integer and floating-point)
defm VMLS : N3VMulOp_QHS<1, 0, 0b1001, 0, IIC_VMACi16D, IIC_VMACi32D,		defm VMLS : N3VMulOp_QHS<1, 0, 0b1001, 0, IIC_VMACi16D, IIC_VMACi32D,
IIC_VMACi16Q, IIC_VMACi32Q, "vmls", "i", sub>;		IIC_VMACi16Q, IIC_VMACi32Q, "vmls", "i", sub>;
def VMLSfd : N3VDMulOp<0, 0, 0b10, 0b1101, 1, IIC_VMACD, "vmls", "f32",		def VMLSfd : N3VDMulOp<0, 0, 0b10, 0b1101, 1, IIC_VMACD, "vmls", "f32",
v2f32, fmul_su, fsub_mlx>,		v2f32, fmul_su, fsub_mlx>,
Requires<[HasNEON, UseFPVMLx, DontUseFusedMAC]>;		Requires<[HasNEON, UseFPVMLx]>;
def VMLSfq : N3VQMulOp<0, 0, 0b10, 0b1101, 1, IIC_VMACQ, "vmls", "f32",		def VMLSfq : N3VQMulOp<0, 0, 0b10, 0b1101, 1, IIC_VMACQ, "vmls", "f32",
v4f32, fmul_su, fsub_mlx>,		v4f32, fmul_su, fsub_mlx>,
Requires<[HasNEON, UseFPVMLx, DontUseFusedMAC]>;		Requires<[HasNEON, UseFPVMLx]>;
def VMLShd : N3VDMulOp<0, 0, 0b11, 0b1101, 1, IIC_VMACD, "vmls", "f16",		def VMLShd : N3VDMulOp<0, 0, 0b11, 0b1101, 1, IIC_VMACD, "vmls", "f16",
v4f16, fmul, fsub>,		v4f16, fmul, fsub>,
Requires<[HasNEON, HasFullFP16, UseFPVMLx, DontUseFusedMAC]>;		Requires<[HasNEON, HasFullFP16, UseFPVMLx]>;
def VMLShq : N3VQMulOp<0, 0, 0b11, 0b1101, 1, IIC_VMACQ, "vmls", "f16",		def VMLShq : N3VQMulOp<0, 0, 0b11, 0b1101, 1, IIC_VMACQ, "vmls", "f16",
v8f16, fmul, fsub>,		v8f16, fmul, fsub>,
Requires<[HasNEON, HasFullFP16, UseFPVMLx, DontUseFusedMAC]>;		Requires<[HasNEON, HasFullFP16, UseFPVMLx]>;
defm VMLSsl : N3VMulOpSL_HS<0b0100, IIC_VMACi16D, IIC_VMACi32D,		defm VMLSsl : N3VMulOpSL_HS<0b0100, IIC_VMACi16D, IIC_VMACi32D,
IIC_VMACi16Q, IIC_VMACi32Q, "vmls", "i", sub>;		IIC_VMACi16Q, IIC_VMACi32Q, "vmls", "i", sub>;
def VMLSslfd : N3VDMulOpSL<0b10, 0b0101, IIC_VMACD, "vmls", "f32",		def VMLSslfd : N3VDMulOpSL<0b10, 0b0101, IIC_VMACD, "vmls", "f32",
v2f32, fmul_su, fsub_mlx>,		v2f32, fmul_su, fsub_mlx>,
Requires<[HasNEON, UseFPVMLx]>;		Requires<[HasNEON, UseFPVMLx]>;
def VMLSslfq : N3VQMulOpSL<0b10, 0b0101, IIC_VMACQ, "vmls", "f32",		def VMLSslfq : N3VQMulOpSL<0b10, 0b0101, IIC_VMACQ, "vmls", "f32",
v4f32, v2f32, fmul_su, fsub_mlx>,		v4f32, v2f32, fmul_su, fsub_mlx>,
Requires<[HasNEON, UseFPVMLx]>;		Requires<[HasNEON, UseFPVMLx]>;
▲ Show 20 Lines • Show All 2,426 Lines • ▼ Show 20 Lines	: NEONFPPat<(i32 (OpNode SPR:$a)),
(v2f32 (Inst (INSERT_SUBREG (v2f32 (IMPLICIT_DEF)),		(v2f32 (Inst (INSERT_SUBREG (v2f32 (IMPLICIT_DEF)),
SPR:$a, ssub_0))),		SPR:$a, ssub_0))),
ssub_0))>;		ssub_0))>;

def : N3VSPat<fadd, VADDfd>;		def : N3VSPat<fadd, VADDfd>;
def : N3VSPat<fsub, VSUBfd>;		def : N3VSPat<fsub, VSUBfd>;
def : N3VSPat<fmul, VMULfd>;		def : N3VSPat<fmul, VMULfd>;
def : N3VSMulOpPat<fmul, fadd, VMLAfd>,		def : N3VSMulOpPat<fmul, fadd, VMLAfd>,
Requires<[HasNEON, UseNEONForFP, UseFPVMLx, DontUseFusedMAC]>;		Requires<[HasNEON, UseNEONForFP, UseFPVMLx]>;
def : N3VSMulOpPat<fmul, fsub, VMLSfd>,		def : N3VSMulOpPat<fmul, fsub, VMLSfd>,
Requires<[HasNEON, UseNEONForFP, UseFPVMLx, DontUseFusedMAC]>;		Requires<[HasNEON, UseNEONForFP, UseFPVMLx]>;
def : N3VSMulOpPat<fmul, fadd, VFMAfd>,		def : N3VSMulOpPat<fmul, fadd, VFMAfd>,
Requires<[HasVFP4, UseNEONForFP, UseFusedMAC]>;		Requires<[HasVFP4, UseNEONForFP, UseFusedMAC]>;
def : N3VSMulOpPat<fmul, fsub, VFMSfd>,		def : N3VSMulOpPat<fmul, fsub, VFMSfd>,
Requires<[HasVFP4, UseNEONForFP, UseFusedMAC]>;		Requires<[HasVFP4, UseNEONForFP, UseFusedMAC]>;
def : N2VSPat<fabs, VABSfd>;		def : N2VSPat<fabs, VABSfd>;
def : N2VSPat<fneg, VNEGfd>;		def : N2VSPat<fneg, VNEGfd>;
def : N3VSPatFP16<fmaxnan, VMAXhd>, Requires<[HasFullFP16]>;		def : N3VSPatFP16<fmaxnan, VMAXhd>, Requires<[HasFullFP16]>;
def : N3VSPatFP16<fminnan, VMINhd>, Requires<[HasFullFP16]>;		def : N3VSPatFP16<fminnan, VMINhd>, Requires<[HasFullFP16]>;
▲ Show 20 Lines • Show All 1,531 Lines • Show Last 20 Lines

lib/Target/ARM/ARMInstrVFP.td

	Show First 20 Lines • Show All 1,808 Lines • ▼ Show 20 Lines
	//			//

	def VMLAD : ADbI<0b11100, 0b00, 0, 0,			def VMLAD : ADbI<0b11100, 0b00, 0, 0,
	(outs DPR:$Dd), (ins DPR:$Ddin, DPR:$Dn, DPR:$Dm),			(outs DPR:$Dd), (ins DPR:$Ddin, DPR:$Dn, DPR:$Dm),
	IIC_fpMAC64, "vmla", ".f64\t$Dd, $Dn, $Dm",			IIC_fpMAC64, "vmla", ".f64\t$Dd, $Dn, $Dm",
	[(set DPR:$Dd, (fadd_mlx (fmul_su DPR:$Dn, DPR:$Dm),			[(set DPR:$Dd, (fadd_mlx (fmul_su DPR:$Dn, DPR:$Dm),
	(f64 DPR:$Ddin)))]>,			(f64 DPR:$Ddin)))]>,
	RegConstraint<"$Ddin = $Dd">,			RegConstraint<"$Ddin = $Dd">,
	Requires<[HasVFP2,HasDPVFP,UseFPVMLx,DontUseFusedMAC]>,			Requires<[HasVFP2,HasDPVFP,UseFPVMLx]>,
	Sched<[WriteFPMAC64, ReadFPMAC, ReadFPMUL, ReadFPMUL]>;			Sched<[WriteFPMAC64, ReadFPMAC, ReadFPMUL, ReadFPMUL]>;

	def VMLAS : ASbIn<0b11100, 0b00, 0, 0,			def VMLAS : ASbIn<0b11100, 0b00, 0, 0,
	(outs SPR:$Sd), (ins SPR:$Sdin, SPR:$Sn, SPR:$Sm),			(outs SPR:$Sd), (ins SPR:$Sdin, SPR:$Sn, SPR:$Sm),
	IIC_fpMAC32, "vmla", ".f32\t$Sd, $Sn, $Sm",			IIC_fpMAC32, "vmla", ".f32\t$Sd, $Sn, $Sm",
	[(set SPR:$Sd, (fadd_mlx (fmul_su SPR:$Sn, SPR:$Sm),			[(set SPR:$Sd, (fadd_mlx (fmul_su SPR:$Sn, SPR:$Sm),
	SPR:$Sdin))]>,			SPR:$Sdin))]>,
	RegConstraint<"$Sdin = $Sd">,			RegConstraint<"$Sdin = $Sd">,
	Requires<[HasVFP2,DontUseNEONForFP,UseFPVMLx,DontUseFusedMAC]>,			Requires<[HasVFP2,DontUseNEONForFP,UseFPVMLx]>,
	Sched<[WriteFPMAC32, ReadFPMAC, ReadFPMUL, ReadFPMUL]> {			Sched<[WriteFPMAC32, ReadFPMAC, ReadFPMUL, ReadFPMUL]> {
	// Some single precision VFP instructions may be executed on both NEON and			// Some single precision VFP instructions may be executed on both NEON and
	// VFP pipelines on A8.			// VFP pipelines on A8.
	let D = VFPNeonA8Domain;			let D = VFPNeonA8Domain;
	}			}

	def VMLAH : AHbI<0b11100, 0b00, 0, 0,			def VMLAH : AHbI<0b11100, 0b00, 0, 0,
	(outs HPR:$Sd), (ins HPR:$Sdin, HPR:$Sn, HPR:$Sm),			(outs HPR:$Sd), (ins HPR:$Sdin, HPR:$Sn, HPR:$Sm),
	IIC_fpMAC16, "vmla", ".f16\t$Sd, $Sn, $Sm",			IIC_fpMAC16, "vmla", ".f16\t$Sd, $Sn, $Sm",
	[(set HPR:$Sd, (fadd_mlx (fmul_su HPR:$Sn, HPR:$Sm),			[(set HPR:$Sd, (fadd_mlx (fmul_su HPR:$Sn, HPR:$Sm),
	HPR:$Sdin))]>,			HPR:$Sdin))]>,
	RegConstraint<"$Sdin = $Sd">,			RegConstraint<"$Sdin = $Sd">,
	Requires<[HasFullFP16,UseFPVMLx,DontUseFusedMAC]>;			Requires<[HasFullFP16,UseFPVMLx]>;

	def : Pat<(fadd_mlx DPR:$dstin, (fmul_su DPR:$a, (f64 DPR:$b))),			def : Pat<(fadd_mlx DPR:$dstin, (fmul_su DPR:$a, (f64 DPR:$b))),
	(VMLAD DPR:$dstin, DPR:$a, DPR:$b)>,			(VMLAD DPR:$dstin, DPR:$a, DPR:$b)>,
	Requires<[HasVFP2,HasDPVFP,UseFPVMLx,DontUseFusedMAC]>;			Requires<[HasVFP2,HasDPVFP,UseFPVMLx]>;
	def : Pat<(fadd_mlx SPR:$dstin, (fmul_su SPR:$a, SPR:$b)),			def : Pat<(fadd_mlx SPR:$dstin, (fmul_su SPR:$a, SPR:$b)),
	(VMLAS SPR:$dstin, SPR:$a, SPR:$b)>,			(VMLAS SPR:$dstin, SPR:$a, SPR:$b)>,
	Requires<[HasVFP2,DontUseNEONForFP, UseFPVMLx,DontUseFusedMAC]>;			Requires<[HasVFP2,DontUseNEONForFP, UseFPVMLx]>;
	def : Pat<(fadd_mlx HPR:$dstin, (fmul_su HPR:$a, HPR:$b)),			def : Pat<(fadd_mlx HPR:$dstin, (fmul_su HPR:$a, HPR:$b)),
	(VMLAH HPR:$dstin, HPR:$a, HPR:$b)>,			(VMLAH HPR:$dstin, HPR:$a, HPR:$b)>,
	Requires<[HasFullFP16,DontUseNEONForFP, UseFPVMLx,DontUseFusedMAC]>;			Requires<[HasFullFP16,DontUseNEONForFP, UseFPVMLx]>;


	def VMLSD : ADbI<0b11100, 0b00, 1, 0,			def VMLSD : ADbI<0b11100, 0b00, 1, 0,
	(outs DPR:$Dd), (ins DPR:$Ddin, DPR:$Dn, DPR:$Dm),			(outs DPR:$Dd), (ins DPR:$Ddin, DPR:$Dn, DPR:$Dm),
	IIC_fpMAC64, "vmls", ".f64\t$Dd, $Dn, $Dm",			IIC_fpMAC64, "vmls", ".f64\t$Dd, $Dn, $Dm",
	[(set DPR:$Dd, (fadd_mlx (fneg (fmul_su DPR:$Dn,DPR:$Dm)),			[(set DPR:$Dd, (fadd_mlx (fneg (fmul_su DPR:$Dn,DPR:$Dm)),
	(f64 DPR:$Ddin)))]>,			(f64 DPR:$Ddin)))]>,
	RegConstraint<"$Ddin = $Dd">,			RegConstraint<"$Ddin = $Dd">,
	Requires<[HasVFP2,HasDPVFP,UseFPVMLx,DontUseFusedMAC]>,			Requires<[HasVFP2,HasDPVFP,UseFPVMLx]>,
	Sched<[WriteFPMAC64, ReadFPMAC, ReadFPMUL, ReadFPMUL]>;			Sched<[WriteFPMAC64, ReadFPMAC, ReadFPMUL, ReadFPMUL]>;

	def VMLSS : ASbIn<0b11100, 0b00, 1, 0,			def VMLSS : ASbIn<0b11100, 0b00, 1, 0,
	(outs SPR:$Sd), (ins SPR:$Sdin, SPR:$Sn, SPR:$Sm),			(outs SPR:$Sd), (ins SPR:$Sdin, SPR:$Sn, SPR:$Sm),
	IIC_fpMAC32, "vmls", ".f32\t$Sd, $Sn, $Sm",			IIC_fpMAC32, "vmls", ".f32\t$Sd, $Sn, $Sm",
	[(set SPR:$Sd, (fadd_mlx (fneg (fmul_su SPR:$Sn, SPR:$Sm)),			[(set SPR:$Sd, (fadd_mlx (fneg (fmul_su SPR:$Sn, SPR:$Sm)),
	SPR:$Sdin))]>,			SPR:$Sdin))]>,
	RegConstraint<"$Sdin = $Sd">,			RegConstraint<"$Sdin = $Sd">,
	Requires<[HasVFP2,DontUseNEONForFP,UseFPVMLx,DontUseFusedMAC]>,			Requires<[HasVFP2,DontUseNEONForFP,UseFPVMLx]>,
	Sched<[WriteFPMAC32, ReadFPMAC, ReadFPMUL, ReadFPMUL]> {			Sched<[WriteFPMAC32, ReadFPMAC, ReadFPMUL, ReadFPMUL]> {
	// Some single precision VFP instructions may be executed on both NEON and			// Some single precision VFP instructions may be executed on both NEON and
	// VFP pipelines on A8.			// VFP pipelines on A8.
	let D = VFPNeonA8Domain;			let D = VFPNeonA8Domain;
	}			}

	def VMLSH : AHbI<0b11100, 0b00, 1, 0,			def VMLSH : AHbI<0b11100, 0b00, 1, 0,
	(outs HPR:$Sd), (ins HPR:$Sdin, HPR:$Sn, HPR:$Sm),			(outs HPR:$Sd), (ins HPR:$Sdin, HPR:$Sn, HPR:$Sm),
	IIC_fpMAC16, "vmls", ".f16\t$Sd, $Sn, $Sm",			IIC_fpMAC16, "vmls", ".f16\t$Sd, $Sn, $Sm",
	[(set HPR:$Sd, (fadd_mlx (fneg (fmul_su HPR:$Sn, HPR:$Sm)),			[(set HPR:$Sd, (fadd_mlx (fneg (fmul_su HPR:$Sn, HPR:$Sm)),
	HPR:$Sdin))]>,			HPR:$Sdin))]>,
	RegConstraint<"$Sdin = $Sd">,			RegConstraint<"$Sdin = $Sd">,
	Requires<[HasFullFP16,UseFPVMLx,DontUseFusedMAC]>;			Requires<[HasFullFP16,UseFPVMLx]>;

	def : Pat<(fsub_mlx DPR:$dstin, (fmul_su DPR:$a, (f64 DPR:$b))),			def : Pat<(fsub_mlx DPR:$dstin, (fmul_su DPR:$a, (f64 DPR:$b))),
	(VMLSD DPR:$dstin, DPR:$a, DPR:$b)>,			(VMLSD DPR:$dstin, DPR:$a, DPR:$b)>,
	Requires<[HasVFP2,HasDPVFP,UseFPVMLx,DontUseFusedMAC]>;			Requires<[HasVFP2,HasDPVFP,UseFPVMLx]>;
	def : Pat<(fsub_mlx SPR:$dstin, (fmul_su SPR:$a, SPR:$b)),			def : Pat<(fsub_mlx SPR:$dstin, (fmul_su SPR:$a, SPR:$b)),
	(VMLSS SPR:$dstin, SPR:$a, SPR:$b)>,			(VMLSS SPR:$dstin, SPR:$a, SPR:$b)>,
	Requires<[HasVFP2,DontUseNEONForFP,UseFPVMLx,DontUseFusedMAC]>;			Requires<[HasVFP2,DontUseNEONForFP,UseFPVMLx]>;
	def : Pat<(fsub_mlx HPR:$dstin, (fmul_su HPR:$a, HPR:$b)),			def : Pat<(fsub_mlx HPR:$dstin, (fmul_su HPR:$a, HPR:$b)),
	(VMLSH HPR:$dstin, HPR:$a, HPR:$b)>,			(VMLSH HPR:$dstin, HPR:$a, HPR:$b)>,
	Requires<[HasFullFP16,DontUseNEONForFP,UseFPVMLx,DontUseFusedMAC]>;			Requires<[HasFullFP16,DontUseNEONForFP,UseFPVMLx]>;

	def VNMLAD : ADbI<0b11100, 0b01, 1, 0,			def VNMLAD : ADbI<0b11100, 0b01, 1, 0,
	(outs DPR:$Dd), (ins DPR:$Ddin, DPR:$Dn, DPR:$Dm),			(outs DPR:$Dd), (ins DPR:$Ddin, DPR:$Dn, DPR:$Dm),
	IIC_fpMAC64, "vnmla", ".f64\t$Dd, $Dn, $Dm",			IIC_fpMAC64, "vnmla", ".f64\t$Dd, $Dn, $Dm",
	[(set DPR:$Dd,(fsub_mlx (fneg (fmul_su DPR:$Dn,DPR:$Dm)),			[(set DPR:$Dd,(fsub_mlx (fneg (fmul_su DPR:$Dn,DPR:$Dm)),
	(f64 DPR:$Ddin)))]>,			(f64 DPR:$Ddin)))]>,
	RegConstraint<"$Ddin = $Dd">,			RegConstraint<"$Ddin = $Dd">,
	Requires<[HasVFP2,HasDPVFP,UseFPVMLx,DontUseFusedMAC]>,			Requires<[HasVFP2,HasDPVFP,UseFPVMLx]>,
	Sched<[WriteFPMAC64, ReadFPMAC, ReadFPMUL, ReadFPMUL]>;			Sched<[WriteFPMAC64, ReadFPMAC, ReadFPMUL, ReadFPMUL]>;

	def VNMLAS : ASbI<0b11100, 0b01, 1, 0,			def VNMLAS : ASbI<0b11100, 0b01, 1, 0,
	(outs SPR:$Sd), (ins SPR:$Sdin, SPR:$Sn, SPR:$Sm),			(outs SPR:$Sd), (ins SPR:$Sdin, SPR:$Sn, SPR:$Sm),
	IIC_fpMAC32, "vnmla", ".f32\t$Sd, $Sn, $Sm",			IIC_fpMAC32, "vnmla", ".f32\t$Sd, $Sn, $Sm",
	[(set SPR:$Sd, (fsub_mlx (fneg (fmul_su SPR:$Sn, SPR:$Sm)),			[(set SPR:$Sd, (fsub_mlx (fneg (fmul_su SPR:$Sn, SPR:$Sm)),
	SPR:$Sdin))]>,			SPR:$Sdin))]>,
	RegConstraint<"$Sdin = $Sd">,			RegConstraint<"$Sdin = $Sd">,
	Requires<[HasVFP2,DontUseNEONForFP,UseFPVMLx,DontUseFusedMAC]>,			Requires<[HasVFP2,DontUseNEONForFP,UseFPVMLx]>,
	Sched<[WriteFPMAC32, ReadFPMAC, ReadFPMUL, ReadFPMUL]> {			Sched<[WriteFPMAC32, ReadFPMAC, ReadFPMUL, ReadFPMUL]> {
	// Some single precision VFP instructions may be executed on both NEON and			// Some single precision VFP instructions may be executed on both NEON and
	// VFP pipelines on A8.			// VFP pipelines on A8.
	let D = VFPNeonA8Domain;			let D = VFPNeonA8Domain;
	}			}

	def VNMLAH : AHbI<0b11100, 0b01, 1, 0,			def VNMLAH : AHbI<0b11100, 0b01, 1, 0,
	(outs HPR:$Sd), (ins HPR:$Sdin, HPR:$Sn, HPR:$Sm),			(outs HPR:$Sd), (ins HPR:$Sdin, HPR:$Sn, HPR:$Sm),
	IIC_fpMAC16, "vnmla", ".f16\t$Sd, $Sn, $Sm",			IIC_fpMAC16, "vnmla", ".f16\t$Sd, $Sn, $Sm",
	[(set HPR:$Sd, (fsub_mlx (fneg (fmul_su HPR:$Sn, HPR:$Sm)),			[(set HPR:$Sd, (fsub_mlx (fneg (fmul_su HPR:$Sn, HPR:$Sm)),
	HPR:$Sdin))]>,			HPR:$Sdin))]>,
	RegConstraint<"$Sdin = $Sd">,			RegConstraint<"$Sdin = $Sd">,
	Requires<[HasFullFP16,UseFPVMLx,DontUseFusedMAC]>;			Requires<[HasFullFP16,UseFPVMLx]>;

	// (-(a * b) - dst) -> -(dst + (a * b))			// (-(a * b) - dst) -> -(dst + (a * b))
	def : Pat<(fsub_mlx (fneg (fmul_su DPR:$a, (f64 DPR:$b))), DPR:$dstin),			def : Pat<(fsub_mlx (fneg (fmul_su DPR:$a, (f64 DPR:$b))), DPR:$dstin),
	(VNMLAD DPR:$dstin, DPR:$a, DPR:$b)>,			(VNMLAD DPR:$dstin, DPR:$a, DPR:$b)>,
	Requires<[HasVFP2,HasDPVFP,UseFPVMLx,DontUseFusedMAC]>;			Requires<[HasVFP2,HasDPVFP,UseFPVMLx]>;
	def : Pat<(fsub_mlx (fneg (fmul_su SPR:$a, SPR:$b)), SPR:$dstin),			def : Pat<(fsub_mlx (fneg (fmul_su SPR:$a, SPR:$b)), SPR:$dstin),
	(VNMLAS SPR:$dstin, SPR:$a, SPR:$b)>,			(VNMLAS SPR:$dstin, SPR:$a, SPR:$b)>,
	Requires<[HasVFP2,DontUseNEONForFP,UseFPVMLx,DontUseFusedMAC]>;			Requires<[HasVFP2,DontUseNEONForFP,UseFPVMLx]>;
	def : Pat<(fsub_mlx (fneg (fmul_su HPR:$a, HPR:$b)), HPR:$dstin),			def : Pat<(fsub_mlx (fneg (fmul_su HPR:$a, HPR:$b)), HPR:$dstin),
	(VNMLAH HPR:$dstin, HPR:$a, HPR:$b)>,			(VNMLAH HPR:$dstin, HPR:$a, HPR:$b)>,
	Requires<[HasFullFP16,DontUseNEONForFP,UseFPVMLx,DontUseFusedMAC]>;			Requires<[HasFullFP16,DontUseNEONForFP,UseFPVMLx]>;

	// (-dst - (a * b)) -> -(dst + (a * b))			// (-dst - (a * b)) -> -(dst + (a * b))
	def : Pat<(fsub_mlx (fneg DPR:$dstin), (fmul_su DPR:$a, (f64 DPR:$b))),			def : Pat<(fsub_mlx (fneg DPR:$dstin), (fmul_su DPR:$a, (f64 DPR:$b))),
	(VNMLAD DPR:$dstin, DPR:$a, DPR:$b)>,			(VNMLAD DPR:$dstin, DPR:$a, DPR:$b)>,
	Requires<[HasVFP2,HasDPVFP,UseFPVMLx,DontUseFusedMAC]>;			Requires<[HasVFP2,HasDPVFP,UseFPVMLx]>;
	def : Pat<(fsub_mlx (fneg SPR:$dstin), (fmul_su SPR:$a, SPR:$b)),			def : Pat<(fsub_mlx (fneg SPR:$dstin), (fmul_su SPR:$a, SPR:$b)),
	(VNMLAS SPR:$dstin, SPR:$a, SPR:$b)>,			(VNMLAS SPR:$dstin, SPR:$a, SPR:$b)>,
	Requires<[HasVFP2,DontUseNEONForFP,UseFPVMLx,DontUseFusedMAC]>;			Requires<[HasVFP2,DontUseNEONForFP,UseFPVMLx]>;
	def : Pat<(fsub_mlx (fneg HPR:$dstin), (fmul_su HPR:$a, HPR:$b)),			def : Pat<(fsub_mlx (fneg HPR:$dstin), (fmul_su HPR:$a, HPR:$b)),
	(VNMLAH HPR:$dstin, HPR:$a, HPR:$b)>,			(VNMLAH HPR:$dstin, HPR:$a, HPR:$b)>,
	Requires<[HasFullFP16,DontUseNEONForFP,UseFPVMLx,DontUseFusedMAC]>;			Requires<[HasFullFP16,DontUseNEONForFP,UseFPVMLx]>;

	def VNMLSD : ADbI<0b11100, 0b01, 0, 0,			def VNMLSD : ADbI<0b11100, 0b01, 0, 0,
	(outs DPR:$Dd), (ins DPR:$Ddin, DPR:$Dn, DPR:$Dm),			(outs DPR:$Dd), (ins DPR:$Ddin, DPR:$Dn, DPR:$Dm),
	IIC_fpMAC64, "vnmls", ".f64\t$Dd, $Dn, $Dm",			IIC_fpMAC64, "vnmls", ".f64\t$Dd, $Dn, $Dm",
	[(set DPR:$Dd, (fsub_mlx (fmul_su DPR:$Dn, DPR:$Dm),			[(set DPR:$Dd, (fsub_mlx (fmul_su DPR:$Dn, DPR:$Dm),
	(f64 DPR:$Ddin)))]>,			(f64 DPR:$Ddin)))]>,
	RegConstraint<"$Ddin = $Dd">,			RegConstraint<"$Ddin = $Dd">,
	Requires<[HasVFP2,HasDPVFP,UseFPVMLx,DontUseFusedMAC]>,			Requires<[HasVFP2,HasDPVFP,UseFPVMLx]>,
	Sched<[WriteFPMAC64, ReadFPMAC, ReadFPMUL, ReadFPMUL]>;			Sched<[WriteFPMAC64, ReadFPMAC, ReadFPMUL, ReadFPMUL]>;

	def VNMLSS : ASbI<0b11100, 0b01, 0, 0,			def VNMLSS : ASbI<0b11100, 0b01, 0, 0,
	(outs SPR:$Sd), (ins SPR:$Sdin, SPR:$Sn, SPR:$Sm),			(outs SPR:$Sd), (ins SPR:$Sdin, SPR:$Sn, SPR:$Sm),
	IIC_fpMAC32, "vnmls", ".f32\t$Sd, $Sn, $Sm",			IIC_fpMAC32, "vnmls", ".f32\t$Sd, $Sn, $Sm",
	[(set SPR:$Sd, (fsub_mlx (fmul_su SPR:$Sn, SPR:$Sm), SPR:$Sdin))]>,			[(set SPR:$Sd, (fsub_mlx (fmul_su SPR:$Sn, SPR:$Sm), SPR:$Sdin))]>,
	RegConstraint<"$Sdin = $Sd">,			RegConstraint<"$Sdin = $Sd">,
	Requires<[HasVFP2,DontUseNEONForFP,UseFPVMLx,DontUseFusedMAC]>,			Requires<[HasVFP2,DontUseNEONForFP,UseFPVMLx]>,
	Sched<[WriteFPMAC32, ReadFPMAC, ReadFPMUL, ReadFPMUL]> {			Sched<[WriteFPMAC32, ReadFPMAC, ReadFPMUL, ReadFPMUL]> {
	// Some single precision VFP instructions may be executed on both NEON and			// Some single precision VFP instructions may be executed on both NEON and
	// VFP pipelines on A8.			// VFP pipelines on A8.
	let D = VFPNeonA8Domain;			let D = VFPNeonA8Domain;
	}			}

	def VNMLSH : AHbI<0b11100, 0b01, 0, 0,			def VNMLSH : AHbI<0b11100, 0b01, 0, 0,
	(outs HPR:$Sd), (ins HPR:$Sdin, HPR:$Sn, HPR:$Sm),			(outs HPR:$Sd), (ins HPR:$Sdin, HPR:$Sn, HPR:$Sm),
	IIC_fpMAC16, "vnmls", ".f16\t$Sd, $Sn, $Sm",			IIC_fpMAC16, "vnmls", ".f16\t$Sd, $Sn, $Sm",
	[(set HPR:$Sd, (fsub_mlx (fmul_su HPR:$Sn, HPR:$Sm), HPR:$Sdin))]>,			[(set HPR:$Sd, (fsub_mlx (fmul_su HPR:$Sn, HPR:$Sm), HPR:$Sdin))]>,
	RegConstraint<"$Sdin = $Sd">,			RegConstraint<"$Sdin = $Sd">,
	Requires<[HasFullFP16,UseFPVMLx,DontUseFusedMAC]>;			Requires<[HasFullFP16,UseFPVMLx]>;

	def : Pat<(fsub_mlx (fmul_su DPR:$a, (f64 DPR:$b)), DPR:$dstin),			def : Pat<(fsub_mlx (fmul_su DPR:$a, (f64 DPR:$b)), DPR:$dstin),
	(VNMLSD DPR:$dstin, DPR:$a, DPR:$b)>,			(VNMLSD DPR:$dstin, DPR:$a, DPR:$b)>,
	Requires<[HasVFP2,HasDPVFP,UseFPVMLx,DontUseFusedMAC]>;			Requires<[HasVFP2,HasDPVFP,UseFPVMLx]>;
	def : Pat<(fsub_mlx (fmul_su SPR:$a, SPR:$b), SPR:$dstin),			def : Pat<(fsub_mlx (fmul_su SPR:$a, SPR:$b), SPR:$dstin),
	(VNMLSS SPR:$dstin, SPR:$a, SPR:$b)>,			(VNMLSS SPR:$dstin, SPR:$a, SPR:$b)>,
	Requires<[HasVFP2,DontUseNEONForFP,UseFPVMLx,DontUseFusedMAC]>;			Requires<[HasVFP2,DontUseNEONForFP,UseFPVMLx]>;
	def : Pat<(fsub_mlx (fmul_su HPR:$a, HPR:$b), HPR:$dstin),			def : Pat<(fsub_mlx (fmul_su HPR:$a, HPR:$b), HPR:$dstin),
	(VNMLSH HPR:$dstin, HPR:$a, HPR:$b)>,			(VNMLSH HPR:$dstin, HPR:$a, HPR:$b)>,
	Requires<[HasFullFP16,DontUseNEONForFP,UseFPVMLx,DontUseFusedMAC]>;			Requires<[HasFullFP16,DontUseNEONForFP,UseFPVMLx]>;

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// Fused FP Multiply-Accumulate Operations.			// Fused FP Multiply-Accumulate Operations.
	//			//
	def VFMAD : ADbI<0b11101, 0b10, 0, 0,			def VFMAD : ADbI<0b11101, 0b10, 0, 0,
	(outs DPR:$Dd), (ins DPR:$Ddin, DPR:$Dn, DPR:$Dm),			(outs DPR:$Dd), (ins DPR:$Ddin, DPR:$Dn, DPR:$Dm),
	IIC_fpFMAC64, "vfma", ".f64\t$Dd, $Dn, $Dm",			IIC_fpFMAC64, "vfma", ".f64\t$Dd, $Dn, $Dm",
	[(set DPR:$Dd, (fadd_mlx (fmul_su DPR:$Dn, DPR:$Dm),			[(set DPR:$Dd, (fadd_mlx (fmul_su DPR:$Dn, DPR:$Dm),
	▲ Show 20 Lines • Show All 498 Lines • Show Last 20 Lines

test/CodeGen/ARM/fmacs.ll

	Show All 21 Lines
	; VMLA: vmul.f32			; VMLA: vmul.f32
	; VMLA-NEXT: vadd.f32			; VMLA-NEXT: vadd.f32

	%0 = fmul float %a, %b			%0 = fmul float %a, %b
	%1 = fadd float %acc, %0			%1 = fadd float %acc, %0
	ret float %1			ret float %1
	}			}

	define float @vlma_minsize(float %acc, float %a, float %b) #0 {			define float @vmla_minsize(float %acc, float %a, float %b) #0 {
	entry:			entry:
	; VMLA-LABEL: vlma_minsize:			; VMLA-LABEL: vmla_minsize:
	; VLMA: vmla.f32 s0, s1, s2			; VMLA: vmla.f32 s0, s1, s2
				; VMLA-NEXT: bx lr

	%0 = fmul float %a, %b			%0 = fmul float %a, %b
	%1 = fadd float %acc, %0			%1 = fadd float %acc, %0
	ret float %1			ret float %1
	}			}

	define double @t2(double %acc, double %a, double %b) {			define double @t2(double %acc, double %a, double %b) {
	entry:			entry:
	▲ Show 20 Lines • Show All 82 Lines • Show Last 20 Lines