Diff 375873

llvm/include/llvm/CodeGen/GlobalISel/CombinerHelper.h

Show First 20 Lines • Show All 408 Lines • ▼ Show 20 Lines	bool matchCombineFAddFpExtFMulToFMadOrFMAAggressive(
MachineInstr &MI,		MachineInstr &MI,
std::tuple<Register, Register, Register, Register,		std::tuple<Register, Register, Register, Register,
Register, unsigned> &MatchInfo);		Register, unsigned> &MatchInfo);
bool applyCombineFAddFpExtFMulToFMadOrFMAAggressive(		bool applyCombineFAddFpExtFMulToFMadOrFMAAggressive(
MachineInstr &MI,		MachineInstr &MI,
std::tuple<Register, Register, Register, Register,		std::tuple<Register, Register, Register, Register,
Register, unsigned> &MatchInfo);		Register, unsigned> &MatchInfo);

		/// Transform (fsub (fmul x, y), z) -> (fma x, y, -z)
		/// -> (fmad x, y, -z)
		bool matchCombineFSubFMulToFMadOrFMA(
		MachineInstr &MI,
		std::tuple<Register, Register, Register, unsigned, bool> &MatchInfo);
		bool applyCombineFSubFMulToFMadOrFMA(
		MachineInstr &MI,
		std::tuple<Register, Register, Register, unsigned, bool> &MatchInfo);

/// Transform trunc ([asz]ext x) to x or ([asz]ext x) or (trunc x).		/// Transform trunc ([asz]ext x) to x or ([asz]ext x) or (trunc x).
bool matchCombineTruncOfExt(MachineInstr &MI,		bool matchCombineTruncOfExt(MachineInstr &MI,
std::pair<Register, unsigned> &MatchInfo);		std::pair<Register, unsigned> &MatchInfo);
void applyCombineTruncOfExt(MachineInstr &MI,		void applyCombineTruncOfExt(MachineInstr &MI,
std::pair<Register, unsigned> &MatchInfo);		std::pair<Register, unsigned> &MatchInfo);

/// Transform trunc (shl x, K) to shl (trunc x),		/// Transform trunc (shl x, K) to shl (trunc x),
/// K => K < VT.getScalarSizeInBits().		/// K => K < VT.getScalarSizeInBits().
▲ Show 20 Lines • Show All 270 Lines • Show Last 20 Lines

llvm/include/llvm/Target/GlobalISel/Combine.td

Show First 20 Lines • Show All 653 Lines • ▼ Show 20 Lines
def combine_fadd_fpext_fma_fmul_to_fmad_or_fma: GICombineRule<		def combine_fadd_fpext_fma_fmul_to_fmad_or_fma: GICombineRule<
(defs root:$root, combine_fadd_fpext_fma_fmul_to_fmad_or_fma_info:$info),		(defs root:$root, combine_fadd_fpext_fma_fmul_to_fmad_or_fma_info:$info),
(match (wip_match_opcode G_FADD):$root,		(match (wip_match_opcode G_FADD):$root,
[{ return Helper.matchCombineFAddFpExtFMulToFMadOrFMAAggressive(		[{ return Helper.matchCombineFAddFpExtFMulToFMadOrFMAAggressive(
*${root}, ${info}); }]),		*${root}, ${info}); }]),
(apply [{ return Helper.applyCombineFAddFpExtFMulToFMadOrFMAAggressive(		(apply [{ return Helper.applyCombineFAddFpExtFMulToFMadOrFMAAggressive(
*${root}, ${info}); }])>;		*${root}, ${info}); }])>;

		// Transform (fsub (fmul x, y), z) -> (fma x, y, -z)
		def combine_fsub_fmul_to_fmad_or_fma_info :
		GIDefMatchData<"std::tuple<Register, Register, Register, unsigned, bool>">;
		def combine_fsub_fmul_to_fmad_or_fma: GICombineRule<
		(defs root:$root, combine_fsub_fmul_to_fmad_or_fma_info:$info),
		(match (wip_match_opcode G_FSUB):$root,
		[{ return Helper.matchCombineFSubFMulToFMadOrFMA(*${root},
		${info}); }]),
		(apply [{ return Helper.applyCombineFSubFMulToFMadOrFMA(*${root},
		${info}); }])>;

// Currently only the one combine above.		// Currently only the one combine above.
def insert_vec_elt_combines : GICombineGroup<		def insert_vec_elt_combines : GICombineGroup<
[combine_insert_vec_elts_build_vector]>;		[combine_insert_vec_elts_build_vector]>;

def extract_vec_elt_build_vec : GICombineRule<		def extract_vec_elt_build_vec : GICombineRule<
(defs root:$root, register_matchinfo:$matchinfo),		(defs root:$root, register_matchinfo:$matchinfo),
(match (wip_match_opcode G_EXTRACT_VECTOR_ELT):$root,		(match (wip_match_opcode G_EXTRACT_VECTOR_ELT):$root,
[{ return Helper.matchExtractVecEltBuildVec(*${root}, ${matchinfo}); }]),		[{ return Helper.matchExtractVecEltBuildVec(*${root}, ${matchinfo}); }]),
▲ Show 20 Lines • Show All 120 Lines • ▼ Show 20 Lines	def all_combines : GICombineGroup<[trivial_combines, insert_vec_elt_combines,
unmerge_merge, fabs_fabs_fold, unmerge_cst, unmerge_dead_to_trunc,		unmerge_merge, fabs_fabs_fold, unmerge_cst, unmerge_dead_to_trunc,
unmerge_zext_to_zext, merge_unmerge, trunc_ext_fold, trunc_shl,		unmerge_zext_to_zext, merge_unmerge, trunc_ext_fold, trunc_shl,
const_combines, xor_of_and_with_same_reg, ptr_add_with_zero,		const_combines, xor_of_and_with_same_reg, ptr_add_with_zero,
shift_immed_chain, shift_of_shifted_logic_chain, load_or_combine,		shift_immed_chain, shift_of_shifted_logic_chain, load_or_combine,
truncstore_merge, div_rem_to_divrem, funnel_shift_combines,		truncstore_merge, div_rem_to_divrem, funnel_shift_combines,
form_bitfield_extract, constant_fold, combine_fadd_fmul_to_fmad_or_fma,		form_bitfield_extract, constant_fold, combine_fadd_fmul_to_fmad_or_fma,
combine_fadd_fpext_fmul_to_fmad_or_fma,		combine_fadd_fpext_fmul_to_fmad_or_fma,
combine_fadd_fma_fmul_to_fmad_or_fma,		combine_fadd_fma_fmul_to_fmad_or_fma,
combine_fadd_fpext_fma_fmul_to_fmad_or_fma]>;		combine_fadd_fpext_fma_fmul_to_fmad_or_fma,
		combine_fsub_fmul_to_fmad_or_fma]>;

// A combine group used to for prelegalizer combiners at -O0. The combines in		// A combine group used to for prelegalizer combiners at -O0. The combines in
// this group have been selected based on experiments to balance code size and		// this group have been selected based on experiments to balance code size and
// compile time performance.		// compile time performance.
def optnone_combines : GICombineGroup<[trivial_combines,		def optnone_combines : GICombineGroup<[trivial_combines,
ptr_add_immed_chain, combines_for_extload,		ptr_add_immed_chain, combines_for_extload,
not_cmp_fold, opt_brcond_by_inverting_cond]>;		not_cmp_fold, opt_brcond_by_inverting_cond]>;

llvm/lib/CodeGen/GlobalISel/CombinerHelper.cpp

Show First 20 Lines • Show All 4,076 Lines • ▼ Show 20 Lines	Type *AccessTy =
getTypeForLLT(MRI.getType(ConvUseMI->getOperand(0).getReg()),		getTypeForLLT(MRI.getType(ConvUseMI->getOperand(0).getReg()),
PtrAdd.getMF()->getFunction().getContext());		PtrAdd.getMF()->getFunction().getContext());
const auto &TLI = *PtrAdd.getMF()->getSubtarget().getTargetLowering();		const auto &TLI = *PtrAdd.getMF()->getSubtarget().getTargetLowering();
if (!TLI.isLegalAddressingMode(PtrAdd.getMF()->getDataLayout(), AM,		if (!TLI.isLegalAddressingMode(PtrAdd.getMF()->getDataLayout(), AM,
AccessTy, AS))		AccessTy, AS))
continue;		continue;

// Would x[offset1+offset2] still be a legal addressing mode?		// Would x[offset1+offset2] still be a legal addressing mode?
AM.BaseOffs = CombinedValue;		AM.BaseOffs = CombinedValue;
if (!TLI.isLegalAddressingMode(PtrAdd.getMF()->getDataLayout(), AM,		if (!TLI.isLegalAddressingMode(PtrAdd.getMF()->getDataLayout(), AM,
		arsenmUnsubmitted Not Done Reply Inline Actions This should probably allow vectors we can break down later too arsenm: This should probably allow vectors we can break down later too
AccessTy, AS))		AccessTy, AS))
return true;		return true;
		arsenmUnsubmitted Not Done Reply Inline Actions Don't see where isFMADLegal is fedined arsenm: Don't see where isFMADLegal is fedined
		matejamAuthorUnsubmitted Done Reply Inline Actions In the other revision (the parent): D93305 matejam: In the other revision (the parent): [[ https://reviews.llvm.org/D93305 \| D93305 ]]
}		}

return false;		return false;
}		}

bool CombinerHelper::matchReassocPtrAdd(		bool CombinerHelper::matchReassocPtrAdd(
MachineInstr &MI, std::function<void(MachineIRBuilder &)> &MatchInfo) {		MachineInstr &MI, std::function<void(MachineIRBuilder &)> &MatchInfo) {
assert(MI.getOpcode() == TargetOpcode::G_PTR_ADD);		assert(MI.getOpcode() == TargetOpcode::G_PTR_ADD);
// We're trying to match a few pointer computation patterns here for		// We're trying to match a few pointer computation patterns here for
// re-association opportunities.		// re-association opportunities.
// 1) Isolating a constant operand to be on the RHS, e.g.:		// 1) Isolating a constant operand to be on the RHS, e.g.:
// G_PTR_ADD(BASE, G_ADD(X, C)) -> G_PTR_ADD(G_PTR_ADD(BASE, X), C)		// G_PTR_ADD(BASE, G_ADD(X, C)) -> G_PTR_ADD(G_PTR_ADD(BASE, X), C)
//		//
// 2) Folding two constants in each sub-tree as long as such folding		// 2) Folding two constants in each sub-tree as long as such folding
// doesn't break a legal addressing mode.		// doesn't break a legal addressing mode.
// G_PTR_ADD(G_PTR_ADD(BASE, C1), C2) -> G_PTR_ADD(BASE, C1+C2)		// G_PTR_ADD(G_PTR_ADD(BASE, C1), C2) -> G_PTR_ADD(BASE, C1+C2)
Register Src1Reg = MI.getOperand(1).getReg();		Register Src1Reg = MI.getOperand(1).getReg();
Register Src2Reg = MI.getOperand(2).getReg();		Register Src2Reg = MI.getOperand(2).getReg();
MachineInstr *LHS = MRI.getVRegDef(Src1Reg);		MachineInstr *LHS = MRI.getVRegDef(Src1Reg);
MachineInstr *RHS = MRI.getVRegDef(Src2Reg);		MachineInstr *RHS = MRI.getVRegDef(Src2Reg);

if (LHS->getOpcode() != TargetOpcode::G_PTR_ADD) {		if (LHS->getOpcode() != TargetOpcode::G_PTR_ADD) {
// Try to match example 1).		// Try to match example 1).
if (RHS->getOpcode() != TargetOpcode::G_ADD)		if (RHS->getOpcode() != TargetOpcode::G_ADD)
return false;		return false;
auto C2 = getConstantVRegVal(RHS->getOperand(2).getReg(), MRI);		auto C2 = getConstantVRegVal(RHS->getOperand(2).getReg(), MRI);
if (!C2)		if (!C2)
return false;		return false;

MatchInfo = [=,&MI](MachineIRBuilder &B) {		MatchInfo = [=,&MI](MachineIRBuilder &B) {
LLT PtrTy = MRI.getType(MI.getOperand(0).getReg());		LLT PtrTy = MRI.getType(MI.getOperand(0).getReg());
		arsenmUnsubmitted Not Done Reply Inline Actions I'm not sure I follow this heuristic, or what SwapPriority means arsenm: I'm not sure I follow this heuristic, or what SwapPriority means
		matejamAuthorUnsubmitted Done Reply Inline Actions If SwapPriority is equal to 0 that means that the first and second operands aren't both fmul instructions, if it's equal to 2 it means that both of the arguments are fmul and that the second arg has fewer uses so we pick him for folding, vice versa if it's equal to 1. I will make it more simple in the next version. matejam: If SwapPriority is equal to 0 that means that the first and second operands aren't both fmul…

auto NewBase =		auto NewBase =
Builder.buildPtrAdd(PtrTy, Src1Reg, RHS->getOperand(1).getReg());		Builder.buildPtrAdd(PtrTy, Src1Reg, RHS->getOperand(1).getReg());
Observer.changingInstr(MI);		Observer.changingInstr(MI);
MI.getOperand(1).setReg(NewBase.getReg(0));		MI.getOperand(1).setReg(NewBase.getReg(0));
MI.getOperand(2).setReg(RHS->getOperand(2).getReg());		MI.getOperand(2).setReg(RHS->getOperand(2).getReg());
Observer.changedInstr(MI);		Observer.changedInstr(MI);
};		};
Show All 24 Lines	bool CombinerHelper::matchConstantFold(MachineInstr &MI, APInt &MatchInfo) {
Register Op2 = MI.getOperand(2).getReg();		Register Op2 = MI.getOperand(2).getReg();
auto MaybeCst = ConstantFoldBinOp(MI.getOpcode(), Op1, Op2, MRI);		auto MaybeCst = ConstantFoldBinOp(MI.getOpcode(), Op1, Op2, MRI);
if (!MaybeCst)		if (!MaybeCst)
return false;		return false;
MatchInfo = *MaybeCst;		MatchInfo = *MaybeCst;
return true;		return true;
}		}

bool CombinerHelper::matchNarrowBinopFeedingAnd(		bool CombinerHelper::matchNarrowBinopFeedingAnd(
MachineInstr &MI, std::function<void(MachineIRBuilder &)> &MatchInfo) {		MachineInstr &MI, std::function<void(MachineIRBuilder &)> &MatchInfo) {
		arsenmUnsubmitted Not Done Reply Inline Actions The types are all identical, there's no reason to query every type arsenm: The types are all identical, there's no reason to query every type
// Look for a binop feeding into an AND with a mask:		// Look for a binop feeding into an AND with a mask:
//		//
// %add = G_ADD %lhs, %rhs		// %add = G_ADD %lhs, %rhs
		arsenmUnsubmitted Not Done Reply Inline Actions You can directly use the type and avoid the explicit createGenericVirtualRegister with auto Neg = B.buildFNeg(Ty, X) arsenm: You can directly use the type and avoid the explicit createGenericVirtualRegister with auto Neg…
// %and = G_AND %add, 000...11111111		// %and = G_AND %add, 000...11111111
//		//
// Check if it's possible to perform the binop at a narrower width and zext		// Check if it's possible to perform the binop at a narrower width and zext
// back to the original width like so:		// back to the original width like so:
//		//
// %narrow_lhs = G_TRUNC %lhs		// %narrow_lhs = G_TRUNC %lhs
// %narrow_rhs = G_TRUNC %rhs		// %narrow_rhs = G_TRUNC %rhs
// %narrow_add = G_ADD %narrow_lhs, %narrow_rhs		// %narrow_add = G_ADD %narrow_lhs, %narrow_rhs
▲ Show 20 Lines • Show All 257 Lines • ▼ Show 20 Lines	bool CombinerHelper::matchCombineFAddFMAFMulToFMadOrFMA(
assert(MI.getOpcode() == TargetOpcode::G_FADD);		assert(MI.getOpcode() == TargetOpcode::G_FADD);

bool AllowFusionGlobally, HasFMAD, Aggressive;		bool AllowFusionGlobally, HasFMAD, Aggressive;
if (!canCombineFMadOrFMA(MI, AllowFusionGlobally, HasFMAD, Aggressive, true))		if (!canCombineFMadOrFMA(MI, AllowFusionGlobally, HasFMAD, Aggressive, true))
return false;		return false;

MachineInstr *LHS = MRI.getVRegDef(MI.getOperand(1).getReg());		MachineInstr *LHS = MRI.getVRegDef(MI.getOperand(1).getReg());
MachineInstr *RHS = MRI.getVRegDef(MI.getOperand(2).getReg());		MachineInstr *RHS = MRI.getVRegDef(MI.getOperand(2).getReg());

		foadUnsubmitted Not Done Reply Inline Actions Typo "refers", and they're called MI0 and MI1. foad: Typo "refers", and they're called MI0 and MI1.
unsigned PreferredFusedOpcode =		unsigned PreferredFusedOpcode =
HasFMAD ? TargetOpcode::G_FMAD : TargetOpcode::G_FMA;		HasFMAD ? TargetOpcode::G_FMAD : TargetOpcode::G_FMA;

// If we have two choices trying to fold (fadd (fmul u, v), (fmul x, y)),		// If we have two choices trying to fold (fadd (fmul u, v), (fmul x, y)),
// prefer to fold the multiply with fewer uses.		// prefer to fold the multiply with fewer uses.
		foadUnsubmitted Not Done Reply Inline Actions Use hasMoreUses() from the previous patch. foad: Use hasMoreUses() from the previous patch.
if (Aggressive && isContractableFMul(*LHS, AllowFusionGlobally) &&		if (Aggressive && isContractableFMul(*LHS, AllowFusionGlobally) &&
isContractableFMul(*RHS, AllowFusionGlobally)) {		isContractableFMul(*RHS, AllowFusionGlobally)) {
if (std::distance(MRI.use_instr_nodbg_begin(LHS->getOperand(0).getReg()),		if (std::distance(MRI.use_instr_nodbg_begin(LHS->getOperand(0).getReg()),
MRI.use_instr_nodbg_end()) >		MRI.use_instr_nodbg_end()) >
std::distance(MRI.use_instr_nodbg_begin(RHS->getOperand(0).getReg()),		std::distance(MRI.use_instr_nodbg_begin(RHS->getOperand(0).getReg()),
MRI.use_instr_nodbg_end()))		MRI.use_instr_nodbg_end()))
std::swap(LHS, RHS);		std::swap(LHS, RHS);
}		}
▲ Show 20 Lines • Show All 173 Lines • ▼ Show 20 Lines	if (Ty1 != DstType && Ty2 != DstType) {
Y = Builder.buildFPExt(DstType, Y).getReg(0);		Y = Builder.buildFPExt(DstType, Y).getReg(0);
}		}

Builder.buildInstr(PreferredFusedOpcode, {MI.getOperand(0).getReg()},		Builder.buildInstr(PreferredFusedOpcode, {MI.getOperand(0).getReg()},
{X, Y, InnerFMA});		{X, Y, InnerFMA});
MI.eraseFromParent();		MI.eraseFromParent();

return true;		return true;
}		}

		bool CombinerHelper::matchCombineFSubFMulToFMadOrFMA(
		MachineInstr &MI,
		std::tuple<Register, Register, Register, unsigned, bool> &MatchInfo) {
		mbrkusaninUnsubmitted Not Done Reply Inline Actions Rename Src3 to NegZ so it matches the comment above. Use B not Builder. mbrkusanin: Rename Src3 to NegZ so it matches the comment above. Use B not Builder.
		assert(MI.getOpcode() == TargetOpcode::G_FSUB);

		bool AllowFusionGlobally, HasFMAD, Aggressive;
		if (!canCombineFMadOrFMA(MI, AllowFusionGlobally, HasFMAD, Aggressive))
		return false;

		MachineInstr *LHS = MRI.getVRegDef(MI.getOperand(1).getReg());
		MachineInstr *RHS = MRI.getVRegDef(MI.getOperand(2).getReg());

		// If we have two choices trying to fold (fadd (fmul u, v), (fmul x, y)),
		// prefer to fold the multiply with fewer uses.
		int FirstMulHasFewerUses = true;
		if (isContractableFMul(*LHS, AllowFusionGlobally) &&
		mbrkusaninUnsubmitted Not Done Reply Inline Actions Rename Src1 to NegY so it matches the comment above. Use B not Builder. mbrkusanin: Rename Src1 to NegY so it matches the comment above. Use B not Builder.
		isContractableFMul(*RHS, AllowFusionGlobally) &&
		hasMoreUses(LHS, RHS, MRI))
		FirstMulHasFewerUses = false;

		unsigned PreferredFusedOpcode =
		HasFMAD ? TargetOpcode::G_FMAD : TargetOpcode::G_FMA;

		// fold (fsub (fmul x, y), z) -> (fma x, y, -z)
		if (FirstMulHasFewerUses &&
		(isContractableFMul(*LHS, AllowFusionGlobally) &&
		(Aggressive \|\| MRI.hasOneNonDBGUse(LHS->getOperand(0).getReg())))) {
		MatchInfo = {LHS->getOperand(1).getReg(), LHS->getOperand(2).getReg(),
		RHS->getOperand(0).getReg(), PreferredFusedOpcode, true};
		return true;
		}
		// fold (fsub x, (fmul y, z)) -> (fma -y, z, x)
		else if ((isContractableFMul(*RHS, AllowFusionGlobally) &&
		(Aggressive \|\| MRI.hasOneNonDBGUse(RHS->getOperand(0).getReg())))) {
		MatchInfo = {RHS->getOperand(1).getReg(), RHS->getOperand(2).getReg(),
		LHS->getOperand(0).getReg(), PreferredFusedOpcode, false};
		return true;
		}

		return false;
		}

		bool CombinerHelper::applyCombineFSubFMulToFMadOrFMA(
		MachineInstr &MI,
		std::tuple<Register, Register, Register, unsigned, bool> &MatchInfo) {
		Register Src1, Src2, Src3;
		unsigned PreferredFusedOpcode;
		bool NegateLast;
		std::tie(Src1, Src2, Src3, PreferredFusedOpcode, NegateLast) = MatchInfo;

		Builder.setInstrAndDebugLoc(MI);

		LLT DstTy = MRI.getType(Src1);
		if (NegateLast)
		Src3 = Builder.buildFNeg(DstTy, Src3).getReg(0);
		else
		Src1 = Builder.buildFNeg(DstTy, Src1).getReg(0);

		Builder.buildInstr(PreferredFusedOpcode, {MI.getOperand(0).getReg()},
		{Src1, Src2, Src3});
		MI.eraseFromParent();
		return true;
		}

bool CombinerHelper::tryCombine(MachineInstr &MI) {		bool CombinerHelper::tryCombine(MachineInstr &MI) {
if (tryCombineCopy(MI))		if (tryCombineCopy(MI))
return true;		return true;
if (tryCombineExtendingLoads(MI))		if (tryCombineExtendingLoads(MI))
return true;		return true;
if (tryCombineIndexedLoadStore(MI))		if (tryCombineIndexedLoadStore(MI))
return true;		return true;
return false;		return false;
}		}
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - (Aggressive \|\| MRI.hasOneNonDBGUse(RHS->getOperand(0).getReg())))) { + (Aggressive \|\| MRI.hasOneNonDBGUse(RHS->getOperand(0).getReg())))) { Lint: Pre-merge checks: clang-format: please reformat the code ``` - (Aggressive \|\| MRI.hasOneNonDBGUse(RHS…
		Lint: Pre-merge checks Inline Actions clang-tidy: warning: do not use 'else' after 'return' [llvm-else-after-return] not useful Lint: Pre-merge checks: clang-tidy: warning: do not use 'else' after 'return' [llvm-else-after-return] [[https://github.

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-sub-mul.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -global-isel -march=amdgcn -mcpu=gfx900 < %s \| FileCheck -check-prefix=GFX9 %s
				; RUN: llc -global-isel -march=amdgcn -mcpu=gfx900 -fp-contract=fast < %s \| FileCheck -check-prefix=GFX9-CONTRACT %s
				; RUN: llc -global-isel -march=amdgcn -mcpu=gfx900 --denormal-fp-math=preserve-sign < %s \| FileCheck -check-prefix=GFX9-DENORM %s
				; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 < %s \| FileCheck -check-prefix=GFX10 %s
				; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 -fp-contract=fast < %s \| FileCheck -check-prefix=GFX10-CONTRACT %s
				; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 --denormal-fp-math=preserve-sign < %s \| FileCheck -check-prefix=GFX10-DENORM %s

				; fold (fsub (fmul x, y), z) -> (fma x, y, (fneg z))
				; fold (fsub x, (fmul y, z)) -> (fma (fneg y), z, x)

				define float @test_f32_sub_mul(float %x, float %y, float %z) {
				; GFX9-LABEL: test_f32_sub_mul:
				; GFX9: ; %bb.0: ; %.entry
				; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-NEXT: v_mul_f32_e32 v0, v0, v1
				; GFX9-NEXT: v_sub_f32_e32 v0, v0, v2
				; GFX9-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-CONTRACT-LABEL: test_f32_sub_mul:
				; GFX9-CONTRACT: ; %bb.0: ; %.entry
				; GFX9-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-CONTRACT-NEXT: v_fma_f32 v0, v0, v1, -v2
				; GFX9-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-DENORM-LABEL: test_f32_sub_mul:
				; GFX9-DENORM: ; %bb.0: ; %.entry
				; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-DENORM-NEXT: v_mad_f32 v0, v0, v1, -v2
				; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-LABEL: test_f32_sub_mul:
				; GFX10: ; %bb.0: ; %.entry
				; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: v_mul_f32_e32 v0, v0, v1
				; GFX10-NEXT: v_sub_f32_e32 v0, v0, v2
				; GFX10-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-CONTRACT-LABEL: test_f32_sub_mul:
				; GFX10-CONTRACT: ; %bb.0: ; %.entry
				; GFX10-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-CONTRACT-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-CONTRACT-NEXT: v_fma_f32 v0, v0, v1, -v2
				; GFX10-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-DENORM-LABEL: test_f32_sub_mul:
				; GFX10-DENORM: ; %bb.0: ; %.entry
				; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-DENORM-NEXT: v_mad_f32 v0, v0, v1, -v2
				; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]
				.entry:
				%a = fmul float %x, %y
				%b = fsub float %a, %z
				ret float %b
				}

				define float @test_f32_sub_mul_rhs(float %x, float %y, float %z) {
				; GFX9-LABEL: test_f32_sub_mul_rhs:
				; GFX9: ; %bb.0: ; %.entry
				; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-NEXT: v_mul_f32_e32 v0, v0, v1
				; GFX9-NEXT: v_sub_f32_e32 v0, v2, v0
				; GFX9-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-CONTRACT-LABEL: test_f32_sub_mul_rhs:
				; GFX9-CONTRACT: ; %bb.0: ; %.entry
				; GFX9-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-CONTRACT-NEXT: v_fma_f32 v0, -v0, v1, v2
				; GFX9-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-DENORM-LABEL: test_f32_sub_mul_rhs:
				; GFX9-DENORM: ; %bb.0: ; %.entry
				; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-DENORM-NEXT: v_mad_f32 v0, -v0, v1, v2
				; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-LABEL: test_f32_sub_mul_rhs:
				; GFX10: ; %bb.0: ; %.entry
				; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: v_mul_f32_e32 v0, v0, v1
				; GFX10-NEXT: v_sub_f32_e32 v0, v2, v0
				; GFX10-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-CONTRACT-LABEL: test_f32_sub_mul_rhs:
				; GFX10-CONTRACT: ; %bb.0: ; %.entry
				; GFX10-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-CONTRACT-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-CONTRACT-NEXT: v_fma_f32 v0, v1, -v0, v2
				; GFX10-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-DENORM-LABEL: test_f32_sub_mul_rhs:
				; GFX10-DENORM: ; %bb.0: ; %.entry
				; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-DENORM-NEXT: v_mad_f32 v0, -v0, v1, v2
				; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]
				.entry:
				%a = fmul float %x, %y
				%b = fsub float %z, %a
				ret float %b
				}

				define half @test_half_sub_mul(half %x, half %y, half %z) {
				; GFX9-LABEL: test_half_sub_mul:
				; GFX9: ; %bb.0: ; %.entry
				; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-NEXT: v_mul_f16_e32 v0, v0, v1
				; GFX9-NEXT: v_add_f16_e64 v0, v0, -v2
				; GFX9-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-CONTRACT-LABEL: test_half_sub_mul:
				; GFX9-CONTRACT: ; %bb.0: ; %.entry
				; GFX9-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-CONTRACT-NEXT: v_xor_b32_e32 v2, 0x8000, v2
				; GFX9-CONTRACT-NEXT: v_fma_f16 v0, v0, v1, v2
				; GFX9-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				arsenmUnsubmitted Not Done Reply Inline Actions Why did we fail to fold the modifier here? arsenm: Why did we fail to fold the modifier here?
				;
				; GFX9-DENORM-LABEL: test_half_sub_mul:
				; GFX9-DENORM: ; %bb.0: ; %.entry
				; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-DENORM-NEXT: v_mad_legacy_f16 v0, v0, v1, -v2
				; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-LABEL: test_half_sub_mul:
				; GFX10: ; %bb.0: ; %.entry
				; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: v_mul_f16_e32 v0, v0, v1
				; GFX10-NEXT: v_add_f16_e64 v0, v0, -v2
				; GFX10-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-CONTRACT-LABEL: test_half_sub_mul:
				; GFX10-CONTRACT: ; %bb.0: ; %.entry
				; GFX10-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-CONTRACT-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-CONTRACT-NEXT: v_xor_b32_e32 v2, 0x8000, v2
				; GFX10-CONTRACT-NEXT: v_fma_f16 v0, v0, v1, v2
				; GFX10-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-DENORM-LABEL: test_half_sub_mul:
				; GFX10-DENORM: ; %bb.0: ; %.entry
				; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-DENORM-NEXT: v_mul_f16_e32 v0, v0, v1
				; GFX10-DENORM-NEXT: v_add_f16_e64 v0, v0, -v2
				; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]
				.entry:
				%a = fmul half %x, %y
				%b = fsub half %a, %z
				ret half %b
				}

				define half @test_half_sub_mul_rhs(half %x, half %y, half %z) {
				; GFX9-LABEL: test_half_sub_mul_rhs:
				; GFX9: ; %bb.0: ; %.entry
				; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-NEXT: v_mul_f16_e32 v0, v0, v1
				; GFX9-NEXT: v_add_f16_e64 v0, v0, -v2
				; GFX9-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-CONTRACT-LABEL: test_half_sub_mul_rhs:
				; GFX9-CONTRACT: ; %bb.0: ; %.entry
				; GFX9-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-CONTRACT-NEXT: v_xor_b32_e32 v2, 0x8000, v2
				; GFX9-CONTRACT-NEXT: v_fma_f16 v0, v0, v1, v2
				; GFX9-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-DENORM-LABEL: test_half_sub_mul_rhs:
				; GFX9-DENORM: ; %bb.0: ; %.entry
				; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-DENORM-NEXT: v_mad_legacy_f16 v0, v0, v1, -v2
				; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-LABEL: test_half_sub_mul_rhs:
				; GFX10: ; %bb.0: ; %.entry
				; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: v_mul_f16_e32 v0, v0, v1
				; GFX10-NEXT: v_add_f16_e64 v0, v0, -v2
				; GFX10-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-CONTRACT-LABEL: test_half_sub_mul_rhs:
				; GFX10-CONTRACT: ; %bb.0: ; %.entry
				; GFX10-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-CONTRACT-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-CONTRACT-NEXT: v_xor_b32_e32 v2, 0x8000, v2
				; GFX10-CONTRACT-NEXT: v_fma_f16 v0, v0, v1, v2
				; GFX10-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-DENORM-LABEL: test_half_sub_mul_rhs:
				; GFX10-DENORM: ; %bb.0: ; %.entry
				; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-DENORM-NEXT: v_mul_f16_e32 v0, v0, v1
				; GFX10-DENORM-NEXT: v_add_f16_e64 v0, v0, -v2
				; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]
				.entry:
				%a = fmul half %x, %y
				%b = fsub half %a, %z
				ret half %b
				mbrkusaninUnsubmitted Done Reply Inline Actions %a and %z should be swapped here, otherwise this is the same test as the one above. Also combiner fails for this test for -mcpu=gfx900 --denormal-fp-math=preserve-sign. Same for test above (test_half_sub_mul). It produces correct result only because fsub is replaced by fadd + fneg in legalizer and then is probably matched by one of other combiners that start from fadd. mbrkusanin: %a and %z should be swapped here, otherwise this is the same test as the one above. Also…
				}

				define double @test_double_sub_mul(double %x, double %y, double %z) {
				; GFX9-LABEL: test_double_sub_mul:
				; GFX9: ; %bb.0: ; %.entry
				; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-NEXT: v_mul_f64 v[0:1], v[0:1], v[2:3]
				; GFX9-NEXT: v_add_f64 v[0:1], v[0:1], -v[4:5]
				; GFX9-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-CONTRACT-LABEL: test_double_sub_mul:
				; GFX9-CONTRACT: ; %bb.0: ; %.entry
				; GFX9-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-CONTRACT-NEXT: v_fma_f64 v[0:1], v[0:1], v[2:3], -v[4:5]
				; GFX9-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-DENORM-LABEL: test_double_sub_mul:
				; GFX9-DENORM: ; %bb.0: ; %.entry
				; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-DENORM-NEXT: v_mul_f64 v[0:1], v[0:1], v[2:3]
				; GFX9-DENORM-NEXT: v_add_f64 v[0:1], v[0:1], -v[4:5]
				; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-LABEL: test_double_sub_mul:
				; GFX10: ; %bb.0: ; %.entry
				; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: v_mul_f64 v[0:1], v[0:1], v[2:3]
				; GFX10-NEXT: v_add_f64 v[0:1], v[0:1], -v[4:5]
				; GFX10-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-CONTRACT-LABEL: test_double_sub_mul:
				; GFX10-CONTRACT: ; %bb.0: ; %.entry
				; GFX10-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-CONTRACT-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-CONTRACT-NEXT: v_fma_f64 v[0:1], v[0:1], v[2:3], -v[4:5]
				; GFX10-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-DENORM-LABEL: test_double_sub_mul:
				; GFX10-DENORM: ; %bb.0: ; %.entry
				; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-DENORM-NEXT: v_mul_f64 v[0:1], v[0:1], v[2:3]
				; GFX10-DENORM-NEXT: v_add_f64 v[0:1], v[0:1], -v[4:5]
				; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]
				.entry:
				%a = fmul double %x, %y
				%b = fsub double %a, %z
				ret double %b
				}

				define double @test_double_sub_mul_rhs(double %x, double %y, double %z) {
				; GFX9-LABEL: test_double_sub_mul_rhs:
				; GFX9: ; %bb.0: ; %.entry
				; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-NEXT: v_mul_f64 v[0:1], v[0:1], v[2:3]
				; GFX9-NEXT: v_add_f64 v[0:1], v[4:5], -v[0:1]
				; GFX9-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-CONTRACT-LABEL: test_double_sub_mul_rhs:
				; GFX9-CONTRACT: ; %bb.0: ; %.entry
				; GFX9-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-CONTRACT-NEXT: v_fma_f64 v[0:1], -v[0:1], v[2:3], v[4:5]
				; GFX9-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-DENORM-LABEL: test_double_sub_mul_rhs:
				; GFX9-DENORM: ; %bb.0: ; %.entry
				; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-DENORM-NEXT: v_mul_f64 v[0:1], v[0:1], v[2:3]
				; GFX9-DENORM-NEXT: v_add_f64 v[0:1], v[4:5], -v[0:1]
				; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-LABEL: test_double_sub_mul_rhs:
				; GFX10: ; %bb.0: ; %.entry
				; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: v_mul_f64 v[0:1], v[0:1], v[2:3]
				; GFX10-NEXT: v_add_f64 v[0:1], v[4:5], -v[0:1]
				; GFX10-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-CONTRACT-LABEL: test_double_sub_mul_rhs:
				; GFX10-CONTRACT: ; %bb.0: ; %.entry
				; GFX10-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-CONTRACT-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-CONTRACT-NEXT: v_fma_f64 v[0:1], -v[0:1], v[2:3], v[4:5]
				; GFX10-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-DENORM-LABEL: test_double_sub_mul_rhs:
				; GFX10-DENORM: ; %bb.0: ; %.entry
				; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-DENORM-NEXT: v_mul_f64 v[0:1], v[0:1], v[2:3]
				; GFX10-DENORM-NEXT: v_add_f64 v[0:1], v[4:5], -v[0:1]
				; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]
				.entry:
				%a = fmul double %x, %y
				%b = fsub double %z, %a
				ret double %b
				}

				define <4 x float> @test_v4f32_sub_mul(<4 x float> %x, <4 x float> %y, <4 x float> %z) {
				; GFX9-LABEL: test_v4f32_sub_mul:
				; GFX9: ; %bb.0: ; %.entry
				; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-NEXT: v_mul_f32_e32 v0, v0, v4
				; GFX9-NEXT: v_mul_f32_e32 v1, v1, v5
				; GFX9-NEXT: v_mul_f32_e32 v2, v2, v6
				; GFX9-NEXT: v_mul_f32_e32 v3, v3, v7
				; GFX9-NEXT: v_sub_f32_e32 v0, v0, v8
				; GFX9-NEXT: v_sub_f32_e32 v1, v1, v9
				; GFX9-NEXT: v_sub_f32_e32 v2, v2, v10
				; GFX9-NEXT: v_sub_f32_e32 v3, v3, v11
				; GFX9-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-CONTRACT-LABEL: test_v4f32_sub_mul:
				; GFX9-CONTRACT: ; %bb.0: ; %.entry
				; GFX9-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-CONTRACT-NEXT: v_fma_f32 v0, v0, v4, -v8
				; GFX9-CONTRACT-NEXT: v_fma_f32 v1, v1, v5, -v9
				; GFX9-CONTRACT-NEXT: v_fma_f32 v2, v2, v6, -v10
				; GFX9-CONTRACT-NEXT: v_fma_f32 v3, v3, v7, -v11
				; GFX9-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-DENORM-LABEL: test_v4f32_sub_mul:
				; GFX9-DENORM: ; %bb.0: ; %.entry
				; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-DENORM-NEXT: v_mad_f32 v0, v0, v4, -v8
				; GFX9-DENORM-NEXT: v_mad_f32 v1, v1, v5, -v9
				; GFX9-DENORM-NEXT: v_mad_f32 v2, v2, v6, -v10
				; GFX9-DENORM-NEXT: v_mad_f32 v3, v3, v7, -v11
				; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-LABEL: test_v4f32_sub_mul:
				; GFX10: ; %bb.0: ; %.entry
				; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: v_mul_f32_e32 v0, v0, v4
				; GFX10-NEXT: v_mul_f32_e32 v1, v1, v5
				; GFX10-NEXT: v_mul_f32_e32 v2, v2, v6
				; GFX10-NEXT: v_mul_f32_e32 v3, v3, v7
				; GFX10-NEXT: v_sub_f32_e32 v0, v0, v8
				; GFX10-NEXT: v_sub_f32_e32 v1, v1, v9
				; GFX10-NEXT: v_sub_f32_e32 v2, v2, v10
				; GFX10-NEXT: v_sub_f32_e32 v3, v3, v11
				; GFX10-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-CONTRACT-LABEL: test_v4f32_sub_mul:
				; GFX10-CONTRACT: ; %bb.0: ; %.entry
				; GFX10-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-CONTRACT-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-CONTRACT-NEXT: v_fma_f32 v0, v0, v4, -v8
				; GFX10-CONTRACT-NEXT: v_fma_f32 v1, v1, v5, -v9
				; GFX10-CONTRACT-NEXT: v_fma_f32 v2, v2, v6, -v10
				; GFX10-CONTRACT-NEXT: v_fma_f32 v3, v3, v7, -v11
				; GFX10-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-DENORM-LABEL: test_v4f32_sub_mul:
				; GFX10-DENORM: ; %bb.0: ; %.entry
				; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-DENORM-NEXT: v_mad_f32 v0, v0, v4, -v8
				; GFX10-DENORM-NEXT: v_mad_f32 v1, v1, v5, -v9
				; GFX10-DENORM-NEXT: v_mad_f32 v2, v2, v6, -v10
				; GFX10-DENORM-NEXT: v_mad_f32 v3, v3, v7, -v11
				; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]
				.entry:
				%a = fmul <4 x float> %x, %y
				%b = fsub <4 x float> %a, %z
				ret <4 x float> %b
				}

				define <4 x float> @test_v4f32_sub_mul_rhs(<4 x float> %x, <4 x float> %y, <4 x float> %z) {
				; GFX9-LABEL: test_v4f32_sub_mul_rhs:
				; GFX9: ; %bb.0: ; %.entry
				; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-NEXT: v_mul_f32_e32 v0, v0, v4
				; GFX9-NEXT: v_mul_f32_e32 v1, v1, v5
				; GFX9-NEXT: v_mul_f32_e32 v2, v2, v6
				; GFX9-NEXT: v_mul_f32_e32 v3, v3, v7
				; GFX9-NEXT: v_sub_f32_e32 v0, v8, v0
				; GFX9-NEXT: v_sub_f32_e32 v1, v9, v1
				; GFX9-NEXT: v_sub_f32_e32 v2, v10, v2
				; GFX9-NEXT: v_sub_f32_e32 v3, v11, v3
				; GFX9-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-CONTRACT-LABEL: test_v4f32_sub_mul_rhs:
				; GFX9-CONTRACT: ; %bb.0: ; %.entry
				; GFX9-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-CONTRACT-NEXT: v_fma_f32 v0, -v0, v4, v8
				; GFX9-CONTRACT-NEXT: v_fma_f32 v1, -v1, v5, v9
				; GFX9-CONTRACT-NEXT: v_fma_f32 v2, -v2, v6, v10
				; GFX9-CONTRACT-NEXT: v_fma_f32 v3, -v3, v7, v11
				; GFX9-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-DENORM-LABEL: test_v4f32_sub_mul_rhs:
				; GFX9-DENORM: ; %bb.0: ; %.entry
				; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-DENORM-NEXT: v_mad_f32 v0, -v0, v4, v8
				; GFX9-DENORM-NEXT: v_mad_f32 v1, -v1, v5, v9
				; GFX9-DENORM-NEXT: v_mad_f32 v2, -v2, v6, v10
				; GFX9-DENORM-NEXT: v_mad_f32 v3, -v3, v7, v11
				; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-LABEL: test_v4f32_sub_mul_rhs:
				; GFX10: ; %bb.0: ; %.entry
				; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: v_mul_f32_e32 v0, v0, v4
				; GFX10-NEXT: v_mul_f32_e32 v1, v1, v5
				; GFX10-NEXT: v_mul_f32_e32 v2, v2, v6
				; GFX10-NEXT: v_mul_f32_e32 v3, v3, v7
				; GFX10-NEXT: v_sub_f32_e32 v0, v8, v0
				; GFX10-NEXT: v_sub_f32_e32 v1, v9, v1
				; GFX10-NEXT: v_sub_f32_e32 v2, v10, v2
				; GFX10-NEXT: v_sub_f32_e32 v3, v11, v3
				; GFX10-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-CONTRACT-LABEL: test_v4f32_sub_mul_rhs:
				; GFX10-CONTRACT: ; %bb.0: ; %.entry
				; GFX10-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-CONTRACT-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-CONTRACT-NEXT: v_fma_f32 v0, v4, -v0, v8
				; GFX10-CONTRACT-NEXT: v_fma_f32 v1, v5, -v1, v9
				; GFX10-CONTRACT-NEXT: v_fma_f32 v2, v6, -v2, v10
				; GFX10-CONTRACT-NEXT: v_fma_f32 v3, v7, -v3, v11
				; GFX10-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-DENORM-LABEL: test_v4f32_sub_mul_rhs:
				; GFX10-DENORM: ; %bb.0: ; %.entry
				; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-DENORM-NEXT: v_mad_f32 v0, -v0, v4, v8
				; GFX10-DENORM-NEXT: v_mad_f32 v1, -v1, v5, v9
				; GFX10-DENORM-NEXT: v_mad_f32 v2, -v2, v6, v10
				; GFX10-DENORM-NEXT: v_mad_f32 v3, -v3, v7, v11
				; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]
				.entry:
				%a = fmul <4 x float> %x, %y
				%b = fsub <4 x float> %z, %a
				ret <4 x float> %b
				}

				define <4 x half> @test_v4f16_sub_mul(<4 x half> %x, <4 x half> %y, <4 x half> %z) {
				; GFX9-LABEL: test_v4f16_sub_mul:
				; GFX9: ; %bb.0: ; %.entry
				; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-NEXT: v_pk_mul_f16 v0, v0, v2
				; GFX9-NEXT: v_pk_mul_f16 v1, v1, v3
				; GFX9-NEXT: v_add_f16_e64 v2, v0, -v4
				; GFX9-NEXT: v_add_f16_sdwa v0, v0, -v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX9-NEXT: v_add_f16_e64 v3, v1, -v5
				; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
				; GFX9-NEXT: v_add_f16_sdwa v1, v1, -v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX9-NEXT: v_and_or_b32 v0, v2, v4, v0
				; GFX9-NEXT: v_and_or_b32 v1, v3, v4, v1
				; GFX9-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-CONTRACT-LABEL: test_v4f16_sub_mul:
				; GFX9-CONTRACT: ; %bb.0: ; %.entry
				; GFX9-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-CONTRACT-NEXT: v_pk_fma_f16 v0, v0, v2, v4 neg_lo:[0,0,1] neg_hi:[0,0,1]
				; GFX9-CONTRACT-NEXT: v_pk_fma_f16 v1, v1, v3, v5 neg_lo:[0,0,1] neg_hi:[0,0,1]
				; GFX9-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-DENORM-LABEL: test_v4f16_sub_mul:
				; GFX9-DENORM: ; %bb.0: ; %.entry
				; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2
				; GFX9-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3
				; GFX9-DENORM-NEXT: v_add_f16_e64 v2, v0, -v4
				; GFX9-DENORM-NEXT: v_add_f16_sdwa v0, v0, -v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX9-DENORM-NEXT: v_add_f16_e64 v3, v1, -v5
				; GFX9-DENORM-NEXT: v_mov_b32_e32 v4, 0xffff
				; GFX9-DENORM-NEXT: v_add_f16_sdwa v1, v1, -v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX9-DENORM-NEXT: v_and_or_b32 v0, v2, v4, v0
				; GFX9-DENORM-NEXT: v_and_or_b32 v1, v3, v4, v1
				; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-LABEL: test_v4f16_sub_mul:
				; GFX10: ; %bb.0: ; %.entry
				; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: v_pk_mul_f16 v0, v0, v2
				; GFX10-NEXT: v_pk_mul_f16 v1, v1, v3
				; GFX10-NEXT: v_add_f16_e64 v2, v0, -v4
				; GFX10-NEXT: v_add_f16_sdwa v0, v0, -v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX10-NEXT: v_add_f16_e64 v3, v1, -v5
				; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
				; GFX10-NEXT: v_add_f16_sdwa v1, v1, -v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX10-NEXT: v_and_or_b32 v0, v2, v4, v0
				; GFX10-NEXT: v_and_or_b32 v1, v3, v4, v1
				; GFX10-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-CONTRACT-LABEL: test_v4f16_sub_mul:
				; GFX10-CONTRACT: ; %bb.0: ; %.entry
				; GFX10-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-CONTRACT-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-CONTRACT-NEXT: v_pk_fma_f16 v0, v0, v2, v4 neg_lo:[0,0,1] neg_hi:[0,0,1]
				; GFX10-CONTRACT-NEXT: v_pk_fma_f16 v1, v1, v3, v5 neg_lo:[0,0,1] neg_hi:[0,0,1]
				; GFX10-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-DENORM-LABEL: test_v4f16_sub_mul:
				; GFX10-DENORM: ; %bb.0: ; %.entry
				; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2
				; GFX10-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3
				; GFX10-DENORM-NEXT: v_add_f16_e64 v2, v0, -v4
				; GFX10-DENORM-NEXT: v_add_f16_sdwa v0, v0, -v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX10-DENORM-NEXT: v_add_f16_e64 v3, v1, -v5
				; GFX10-DENORM-NEXT: v_mov_b32_e32 v4, 0xffff
				; GFX10-DENORM-NEXT: v_add_f16_sdwa v1, v1, -v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX10-DENORM-NEXT: v_and_or_b32 v0, v2, v4, v0
				; GFX10-DENORM-NEXT: v_and_or_b32 v1, v3, v4, v1
				; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]
				.entry:
				%a = fmul <4 x half> %x, %y
				%b = fsub <4 x half> %a, %z
				ret <4 x half> %b
				}

				define <4 x half> @test_v4f16_sub_mul_rhs(<4 x half> %x, <4 x half> %y, <4 x half> %z) {
				; GFX9-LABEL: test_v4f16_sub_mul_rhs:
				; GFX9: ; %bb.0: ; %.entry
				; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-NEXT: v_pk_mul_f16 v0, v0, v2
				; GFX9-NEXT: v_pk_mul_f16 v1, v1, v3
				; GFX9-NEXT: v_add_f16_e64 v2, v0, -v4
				; GFX9-NEXT: v_add_f16_sdwa v0, v0, -v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX9-NEXT: v_add_f16_e64 v3, v1, -v5
				; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
				; GFX9-NEXT: v_add_f16_sdwa v1, v1, -v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX9-NEXT: v_and_or_b32 v0, v2, v4, v0
				; GFX9-NEXT: v_and_or_b32 v1, v3, v4, v1
				; GFX9-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-CONTRACT-LABEL: test_v4f16_sub_mul_rhs:
				; GFX9-CONTRACT: ; %bb.0: ; %.entry
				; GFX9-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-CONTRACT-NEXT: v_pk_fma_f16 v0, v0, v2, v4 neg_lo:[0,0,1] neg_hi:[0,0,1]
				; GFX9-CONTRACT-NEXT: v_pk_fma_f16 v1, v1, v3, v5 neg_lo:[0,0,1] neg_hi:[0,0,1]
				; GFX9-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-DENORM-LABEL: test_v4f16_sub_mul_rhs:
				; GFX9-DENORM: ; %bb.0: ; %.entry
				; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2
				; GFX9-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3
				; GFX9-DENORM-NEXT: v_add_f16_e64 v2, v0, -v4
				; GFX9-DENORM-NEXT: v_add_f16_sdwa v0, v0, -v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX9-DENORM-NEXT: v_add_f16_e64 v3, v1, -v5
				; GFX9-DENORM-NEXT: v_mov_b32_e32 v4, 0xffff
				; GFX9-DENORM-NEXT: v_add_f16_sdwa v1, v1, -v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX9-DENORM-NEXT: v_and_or_b32 v0, v2, v4, v0
				; GFX9-DENORM-NEXT: v_and_or_b32 v1, v3, v4, v1
				; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-LABEL: test_v4f16_sub_mul_rhs:
				; GFX10: ; %bb.0: ; %.entry
				; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: v_pk_mul_f16 v0, v0, v2
				; GFX10-NEXT: v_pk_mul_f16 v1, v1, v3
				; GFX10-NEXT: v_add_f16_e64 v2, v0, -v4
				; GFX10-NEXT: v_add_f16_sdwa v0, v0, -v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX10-NEXT: v_add_f16_e64 v3, v1, -v5
				; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
				; GFX10-NEXT: v_add_f16_sdwa v1, v1, -v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX10-NEXT: v_and_or_b32 v0, v2, v4, v0
				; GFX10-NEXT: v_and_or_b32 v1, v3, v4, v1
				; GFX10-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-CONTRACT-LABEL: test_v4f16_sub_mul_rhs:
				; GFX10-CONTRACT: ; %bb.0: ; %.entry
				; GFX10-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-CONTRACT-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-CONTRACT-NEXT: v_pk_fma_f16 v0, v0, v2, v4 neg_lo:[0,0,1] neg_hi:[0,0,1]
				; GFX10-CONTRACT-NEXT: v_pk_fma_f16 v1, v1, v3, v5 neg_lo:[0,0,1] neg_hi:[0,0,1]
				; GFX10-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-DENORM-LABEL: test_v4f16_sub_mul_rhs:
				; GFX10-DENORM: ; %bb.0: ; %.entry
				; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2
				; GFX10-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3
				; GFX10-DENORM-NEXT: v_add_f16_e64 v2, v0, -v4
				; GFX10-DENORM-NEXT: v_add_f16_sdwa v0, v0, -v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX10-DENORM-NEXT: v_add_f16_e64 v3, v1, -v5
				; GFX10-DENORM-NEXT: v_mov_b32_e32 v4, 0xffff
				; GFX10-DENORM-NEXT: v_add_f16_sdwa v1, v1, -v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
				; GFX10-DENORM-NEXT: v_and_or_b32 v0, v2, v4, v0
				; GFX10-DENORM-NEXT: v_and_or_b32 v1, v3, v4, v1
				; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]
				.entry:
				%a = fmul <4 x half> %x, %y
				%b = fsub <4 x half> %a, %z
				ret <4 x half> %b
				}

				define <4 x double> @test_v4f64_sub_mul(<4 x double> %x, <4 x double> %y, <4 x double> %z) {
				; GFX9-LABEL: test_v4f64_sub_mul:
				; GFX9: ; %bb.0: ; %.entry
				; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-NEXT: v_mul_f64 v[0:1], v[0:1], v[8:9]
				; GFX9-NEXT: v_mul_f64 v[2:3], v[2:3], v[10:11]
				; GFX9-NEXT: v_mul_f64 v[4:5], v[4:5], v[12:13]
				; GFX9-NEXT: v_mul_f64 v[6:7], v[6:7], v[14:15]
				; GFX9-NEXT: v_add_f64 v[0:1], v[0:1], -v[16:17]
				; GFX9-NEXT: v_add_f64 v[2:3], v[2:3], -v[18:19]
				; GFX9-NEXT: v_add_f64 v[4:5], v[4:5], -v[20:21]
				; GFX9-NEXT: v_add_f64 v[6:7], v[6:7], -v[22:23]
				; GFX9-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-CONTRACT-LABEL: test_v4f64_sub_mul:
				; GFX9-CONTRACT: ; %bb.0: ; %.entry
				; GFX9-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-CONTRACT-NEXT: v_fma_f64 v[0:1], v[0:1], v[8:9], -v[16:17]
				; GFX9-CONTRACT-NEXT: v_fma_f64 v[2:3], v[2:3], v[10:11], -v[18:19]
				; GFX9-CONTRACT-NEXT: v_fma_f64 v[4:5], v[4:5], v[12:13], -v[20:21]
				; GFX9-CONTRACT-NEXT: v_fma_f64 v[6:7], v[6:7], v[14:15], -v[22:23]
				; GFX9-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-DENORM-LABEL: test_v4f64_sub_mul:
				; GFX9-DENORM: ; %bb.0: ; %.entry
				; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-DENORM-NEXT: v_mul_f64 v[0:1], v[0:1], v[8:9]
				; GFX9-DENORM-NEXT: v_mul_f64 v[2:3], v[2:3], v[10:11]
				; GFX9-DENORM-NEXT: v_mul_f64 v[4:5], v[4:5], v[12:13]
				; GFX9-DENORM-NEXT: v_mul_f64 v[6:7], v[6:7], v[14:15]
				; GFX9-DENORM-NEXT: v_add_f64 v[0:1], v[0:1], -v[16:17]
				; GFX9-DENORM-NEXT: v_add_f64 v[2:3], v[2:3], -v[18:19]
				; GFX9-DENORM-NEXT: v_add_f64 v[4:5], v[4:5], -v[20:21]
				; GFX9-DENORM-NEXT: v_add_f64 v[6:7], v[6:7], -v[22:23]
				; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-LABEL: test_v4f64_sub_mul:
				; GFX10: ; %bb.0: ; %.entry
				; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: v_mul_f64 v[0:1], v[0:1], v[8:9]
				; GFX10-NEXT: v_mul_f64 v[2:3], v[2:3], v[10:11]
				; GFX10-NEXT: v_mul_f64 v[4:5], v[4:5], v[12:13]
				; GFX10-NEXT: v_mul_f64 v[6:7], v[6:7], v[14:15]
				; GFX10-NEXT: v_add_f64 v[0:1], v[0:1], -v[16:17]
				; GFX10-NEXT: v_add_f64 v[2:3], v[2:3], -v[18:19]
				; GFX10-NEXT: v_add_f64 v[4:5], v[4:5], -v[20:21]
				; GFX10-NEXT: v_add_f64 v[6:7], v[6:7], -v[22:23]
				; GFX10-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-CONTRACT-LABEL: test_v4f64_sub_mul:
				; GFX10-CONTRACT: ; %bb.0: ; %.entry
				; GFX10-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-CONTRACT-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-CONTRACT-NEXT: v_fma_f64 v[0:1], v[0:1], v[8:9], -v[16:17]
				; GFX10-CONTRACT-NEXT: v_fma_f64 v[2:3], v[2:3], v[10:11], -v[18:19]
				; GFX10-CONTRACT-NEXT: v_fma_f64 v[4:5], v[4:5], v[12:13], -v[20:21]
				; GFX10-CONTRACT-NEXT: v_fma_f64 v[6:7], v[6:7], v[14:15], -v[22:23]
				; GFX10-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-DENORM-LABEL: test_v4f64_sub_mul:
				; GFX10-DENORM: ; %bb.0: ; %.entry
				; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-DENORM-NEXT: v_mul_f64 v[0:1], v[0:1], v[8:9]
				; GFX10-DENORM-NEXT: v_mul_f64 v[2:3], v[2:3], v[10:11]
				; GFX10-DENORM-NEXT: v_mul_f64 v[4:5], v[4:5], v[12:13]
				; GFX10-DENORM-NEXT: v_mul_f64 v[6:7], v[6:7], v[14:15]
				; GFX10-DENORM-NEXT: v_add_f64 v[0:1], v[0:1], -v[16:17]
				; GFX10-DENORM-NEXT: v_add_f64 v[2:3], v[2:3], -v[18:19]
				; GFX10-DENORM-NEXT: v_add_f64 v[4:5], v[4:5], -v[20:21]
				; GFX10-DENORM-NEXT: v_add_f64 v[6:7], v[6:7], -v[22:23]
				; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]
				.entry:
				%a = fmul <4 x double> %x, %y
				%b = fsub <4 x double> %a, %z
				ret <4 x double> %b
				mbrkusaninUnsubmitted Done Reply Inline Actions Same here, swap %a and %z. mbrkusanin: Same here, swap %a and %z.
				}

				define <4 x double> @test_v4f64_sub_mul_rhs(<4 x double> %x, <4 x double> %y, <4 x double> %z) {
				; GFX9-LABEL: test_v4f64_sub_mul_rhs:
				; GFX9: ; %bb.0: ; %.entry
				; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-NEXT: v_mul_f64 v[0:1], v[0:1], v[8:9]
				; GFX9-NEXT: v_mul_f64 v[2:3], v[2:3], v[10:11]
				; GFX9-NEXT: v_mul_f64 v[4:5], v[4:5], v[12:13]
				; GFX9-NEXT: v_mul_f64 v[6:7], v[6:7], v[14:15]
				; GFX9-NEXT: v_add_f64 v[0:1], v[16:17], -v[0:1]
				; GFX9-NEXT: v_add_f64 v[2:3], v[18:19], -v[2:3]
				; GFX9-NEXT: v_add_f64 v[4:5], v[20:21], -v[4:5]
				; GFX9-NEXT: v_add_f64 v[6:7], v[22:23], -v[6:7]
				; GFX9-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-CONTRACT-LABEL: test_v4f64_sub_mul_rhs:
				; GFX9-CONTRACT: ; %bb.0: ; %.entry
				; GFX9-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-CONTRACT-NEXT: v_fma_f64 v[0:1], -v[0:1], v[8:9], v[16:17]
				; GFX9-CONTRACT-NEXT: v_fma_f64 v[2:3], -v[2:3], v[10:11], v[18:19]
				; GFX9-CONTRACT-NEXT: v_fma_f64 v[4:5], -v[4:5], v[12:13], v[20:21]
				; GFX9-CONTRACT-NEXT: v_fma_f64 v[6:7], -v[6:7], v[14:15], v[22:23]
				; GFX9-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX9-DENORM-LABEL: test_v4f64_sub_mul_rhs:
				; GFX9-DENORM: ; %bb.0: ; %.entry
				; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX9-DENORM-NEXT: v_mul_f64 v[0:1], v[0:1], v[8:9]
				; GFX9-DENORM-NEXT: v_mul_f64 v[2:3], v[2:3], v[10:11]
				; GFX9-DENORM-NEXT: v_mul_f64 v[4:5], v[4:5], v[12:13]
				; GFX9-DENORM-NEXT: v_mul_f64 v[6:7], v[6:7], v[14:15]
				; GFX9-DENORM-NEXT: v_add_f64 v[0:1], v[16:17], -v[0:1]
				; GFX9-DENORM-NEXT: v_add_f64 v[2:3], v[18:19], -v[2:3]
				; GFX9-DENORM-NEXT: v_add_f64 v[4:5], v[20:21], -v[4:5]
				; GFX9-DENORM-NEXT: v_add_f64 v[6:7], v[22:23], -v[6:7]
				; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-LABEL: test_v4f64_sub_mul_rhs:
				; GFX10: ; %bb.0: ; %.entry
				; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-NEXT: v_mul_f64 v[0:1], v[0:1], v[8:9]
				; GFX10-NEXT: v_mul_f64 v[2:3], v[2:3], v[10:11]
				; GFX10-NEXT: v_mul_f64 v[4:5], v[4:5], v[12:13]
				; GFX10-NEXT: v_mul_f64 v[6:7], v[6:7], v[14:15]
				; GFX10-NEXT: v_add_f64 v[0:1], v[16:17], -v[0:1]
				; GFX10-NEXT: v_add_f64 v[2:3], v[18:19], -v[2:3]
				; GFX10-NEXT: v_add_f64 v[4:5], v[20:21], -v[4:5]
				; GFX10-NEXT: v_add_f64 v[6:7], v[22:23], -v[6:7]
				; GFX10-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-CONTRACT-LABEL: test_v4f64_sub_mul_rhs:
				; GFX10-CONTRACT: ; %bb.0: ; %.entry
				; GFX10-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-CONTRACT-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-CONTRACT-NEXT: v_fma_f64 v[0:1], -v[0:1], v[8:9], v[16:17]
				; GFX10-CONTRACT-NEXT: v_fma_f64 v[2:3], -v[2:3], v[10:11], v[18:19]
				; GFX10-CONTRACT-NEXT: v_fma_f64 v[4:5], -v[4:5], v[12:13], v[20:21]
				; GFX10-CONTRACT-NEXT: v_fma_f64 v[6:7], -v[6:7], v[14:15], v[22:23]
				; GFX10-CONTRACT-NEXT: s_setpc_b64 s[30:31]
				;
				; GFX10-DENORM-LABEL: test_v4f64_sub_mul_rhs:
				; GFX10-DENORM: ; %bb.0: ; %.entry
				; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
				; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0
				; GFX10-DENORM-NEXT: v_mul_f64 v[0:1], v[0:1], v[8:9]
				; GFX10-DENORM-NEXT: v_mul_f64 v[2:3], v[2:3], v[10:11]
				; GFX10-DENORM-NEXT: v_mul_f64 v[4:5], v[4:5], v[12:13]
				; GFX10-DENORM-NEXT: v_mul_f64 v[6:7], v[6:7], v[14:15]
				; GFX10-DENORM-NEXT: v_add_f64 v[0:1], v[16:17], -v[0:1]
				; GFX10-DENORM-NEXT: v_add_f64 v[2:3], v[18:19], -v[2:3]
				; GFX10-DENORM-NEXT: v_add_f64 v[4:5], v[20:21], -v[4:5]
				; GFX10-DENORM-NEXT: v_add_f64 v[6:7], v[22:23], -v[6:7]
				; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]
				.entry:
				%a = fmul <4 x double> %x, %y
				%b = fsub <4 x double> %z, %a
				ret <4 x double> %b
				}

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU][GlobalISel] Transform (fsub (fmul x, y), z) -> (fma x, y, -z)
ClosedPublic

Details

Diff Detail

Unit TestsFailed

Event Timeline

Revision Contents

Diff 375873

llvm/include/llvm/CodeGen/GlobalISel/CombinerHelper.h

llvm/include/llvm/Target/GlobalISel/Combine.td

llvm/lib/CodeGen/GlobalISel/CombinerHelper.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-sub-mul.ll

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU][GlobalISel] Transform (fsub (fmul x, y), z) -> (fma x, y, -z)ClosedPublic

Details

Diff Detail

Unit TestsFailed

Event Timeline

Revision Contents

Diff 375873

llvm/include/llvm/CodeGen/GlobalISel/CombinerHelper.h

llvm/include/llvm/Target/GlobalISel/Combine.td

llvm/lib/CodeGen/GlobalISel/CombinerHelper.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-sub-mul.ll

[AMDGPU][GlobalISel] Transform (fsub (fmul x, y), z) -> (fma x, y, -z)
ClosedPublic