This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/trunk/
-
trunk/
-
lib/CodeGen/SelectionDAG/
-
CodeGen/
-
SelectionDAG/
-
DAGCombiner.cpp
-
test/CodeGen/
-
CodeGen/
-
AMDGPU/
-
fma-combine.ll
-
X86/
-
fma_patterns.ll
-
fma_patterns_wide.ll

Differential D26602

[DAGCombiner] do not fold (fmul (fadd X, 1), Y) -> (fmad X, Y, Y) by default
ClosedPublic

Authored by nhaehnle on Nov 14 2016, 3:34 AM.

Download Raw Diff

Details

Reviewers

spatel
RKSimon
• tstellarAMD
arsenm
hfinkel

Commits

rG33ca182c91b4: [DAGCombiner] do not fold (fmul (fadd X, 1), Y) -> (fmad X, Y, Y) by default
rL288506: [DAGCombiner] do not fold (fmul (fadd X, 1), Y) -> (fmad X, Y, Y) by default

Summary

When X = 0 and Y = inf, the original code produces inf, but the transformed
code produces nan. So this transform (and its relatives) should only be
used when the no-infs-fp-math flag is explicitly enabled.

Bugzilla: https://bugs.freedesktop.org/show_bug.cgi?id=98578

Diff Detail

Repository: rL LLVM

Event Timeline

nhaehnle updated this revision to Diff 77787.Nov 14 2016, 3:34 AM

nhaehnle retitled this revision from to [DAGCombiner] do not fold (fmul (fadd X, 1), Y) -> (fmad X, Y, Y) by default.

nhaehnle updated this object.

nhaehnle added reviewers: RKSimon, spatel, arsenm, • tstellarAMD.

nhaehnle added a subscriber: llvm-commits.

Herald edited edge metadata. · View Herald TranscriptNov 14 2016, 3:34 AM

Herald added a subscriber: wdng. · View Herald Transcript

RKSimon added a reviewer: hfinkel.Nov 14 2016, 5:45 AM

Please correct me if I'm not understanding, but I think we have to answer: what is the expected behavior if someone uses -fassociative-math and -fno-finite-math-only together?

[I'm purposely using the clang flags here because the implementation just gets muddier/broken as we proceed down to the DAG between IR FMF/SDNodeFlags vs. target options vs. function-level attributes. Never mind that the clang flags may not work as intended ( https://llvm.org/bugs/show_bug.cgi?id=27372 )]

So what does it mean if the user told us to do reassociation transforms but also told us that we should respect INF/NAN?

As this patch is written, the respect for INF/NAN should override the ability to reassociate?

The optimization makes use of the distributive law, not the associative law. As such I don't think there should be an immediate connection to a flag named -fassociative-math. But maybe that just means that the flag is badly named :-)

Personally, I don't care about Clang flags since I'm worried about our OpenGL frontend which uses LLVM directly, but it seems to me that there are meaningful associativity transforms that can be done even when infs are possible. Are (a + b) + c --> a + (b + c) and (a * b) * c --> a * (b * c) problematic if any of the variables are inf or nan? I don't think so, but perhaps I'm missing something.

In D26602#594424, @nhaehnle wrote:

The optimization makes use of the distributive law, not the associative law. As such I don't think there should be an immediate connection to a flag named -fassociative-math. But maybe that just means that the flag is badly named :-)

Personally, I don't care about Clang flags since I'm worried about our OpenGL frontend which uses LLVM directly, but it seems to me that there are meaningful associativity transforms that can be done even when infs are possible. Are (a + b) + c --> a + (b + c) and (a * b) * c --> a * (b * c) problematic if any of the variables are inf or nan? I don't think so, but perhaps I'm missing something.

Good points. At the very least, we should rename this function (visitFMULForFMACombine) and/or add code comments to make it clear that we're only dealing with the case of a '+/-1.0' FADD/FSUB operand. I think that should be done ahead of this patch as an NFC commit.

So let's use the codegen definitions since there's no hope of sorting out the connection to the higher-level definitions in this patch. :)

FPOpFusion::Fast - Enable fusion of FP ops wherever it's profitable.

UnsafeFPMath - This flag is enabled when the -enable-unsafe-fp-math flag is specified on the command line. When this flag is off (the default), the code generator is not allowed to produce results that are "less precise" than IEEE allows...UnsafeFPMath implies LessPreciseFPMAD.

LessPreciseFPMADOption - This flag is enabled when the -enable-fp-mad is specified on the command line. When this flag is off (the default), the code generator is not allowed to generate mad (multiply add) if the result is "less precise" than doing those operations individually.

NoInfsFPMath - This flag is enabled when the -enable-no-infs-fp-math flag is specified on the command line. When this flag is off (the default), the code generator is not allowed to assume the FP arithmetic arguments and results are never +-Infs.

Does NoInfsFPMath override FPOpFusionFast? Or do we need another enum value/flag to answer that question? Are there other transforms that need to be aware of this interaction?

I mentioned this patch in the context of a larger llvm-dev discussion about how to specify relaxed FP:
http://lists.llvm.org/pipermail/llvm-dev/2016-November/107140.html

In D26602#594518, @spatel wrote:

So let's use the codegen definitions since there's no hope of sorting out the connection to the higher-level definitions in this patch. :)

FPOpFusion::Fast - Enable fusion of FP ops wherever it's profitable.

UnsafeFPMath - This flag is enabled when the -enable-unsafe-fp-math flag is specified on the command line. When this flag is off (the default), the code generator is not allowed to produce results that are "less precise" than IEEE allows...UnsafeFPMath implies LessPreciseFPMAD.

LessPreciseFPMADOption - This flag is enabled when the -enable-fp-mad is specified on the command line. When this flag is off (the default), the code generator is not allowed to generate mad (multiply add) if the result is "less precise" than doing those operations individually.

NoInfsFPMath - This flag is enabled when the -enable-no-infs-fp-math flag is specified on the command line. When this flag is off (the default), the code generator is not allowed to assume the FP arithmetic arguments and results are never +-Infs.

Does NoInfsFPMath override FPOpFusionFast? Or do we need another enum value/flag to answer that question? Are there other transforms that need to be aware of this interaction?

No, I think they're somewhat orthogonal and supplement each other in this particular case.

As I understand it, FPOpFusion::Fast says: enable fusion wherever it's profitable *even if rounding is slightly changed* (in practice, the intermediate rounding step is skipped) -- this should be documented.

Generally, whenever something comes with the tradeoff of less or slightly changed precision, you don't expect massive changes in behaviour with inf/nans.

And there are plenty of practical optimizations that FPOpFusion::Fast enables (mul + add --> fma), just this particular case here should require the user to say both "I'm fine with slightly different precision" and "I'm fine with massively different behavior in the face of +/-Inf".

I started an llvm-dev thread specifically for this case:
http://lists.llvm.org/pipermail/llvm-dev/2016-November/107276.html

The consensus is that we cannot do this transform: x * (y + 1) --> x * y + x ...using just FPOpFusion::Fast, so we're confident that the current codegen is buggy.

I think everyone agrees that we can do the transform if we have both TargetOptions::UnsafeFPMath and TargetOptions::NoInfsFPMath.

There's an unanswered question of whether we can do this with FPOpFusion::Fast with TargetOptions::NoInfsFPMath. That depends on whether x * y + x is always more precise than the original x * (y + 1).

In D26602#606673, @spatel wrote:

There's an unanswered question of whether we can do this with FPOpFusion::Fast with TargetOptions::NoInfsFPMath. That depends on whether x * y + x is always more precise than the original x * (y + 1).

Here's an example with binary floating point numbers with two bits of mantissa.

x = 1.01
y = 111

x * (y + 1) = 1.01 * 1000 = 1010 (this is the exact result; no rounding occurs at any step)

x * y + x = 1000.11 + 1.01 =r 1000 + 1.01 = 1001.01 =r 1000 (with rounding towards zero)

The example relies on rounding towards zero at least in the second step, but it does seem to disqualify the transform at least for FMAD (i.e. with an intermediate rounding step). I suspect FMA (without intermediate rounding) is fine, but I have no proof.

nhaehnle mentioned this in D27260: [SelectionDAG] Rename and clarify visitFMULForFMADCombine (NFC).Nov 30 2016, 8:43 AM

Rebased on D27260.

Tentatively disable the FMAD variant unless unsafe-math is enabled. I
haven't yet checked/updated the tests, will follow up if the change in
general is agreed on.

Herald edited edge metadata. · View Herald TranscriptNov 30 2016, 8:52 AM

In D26602#609222, @nhaehnle wrote:

Rebased on D27260.

Tentatively disable the FMAD variant unless unsafe-math is enabled. I
haven't yet checked/updated the tests, will follow up if the change in
general is agreed on.

The logic looks correct to me, but I'd change the code to make it (hopefully) clearer:

// Floating-point multiply-add without intermediate rounding.
bool UseFMA = (Options.UnsafeFPMath || Options.AllowFPOpFusion == FPOpFusion::Fast) && 
                                  TLI.isFMAFasterThanFMulAndFAdd(VT) &&
                                  (!LegalOperations || TLI.isOperationLegalOrCustom(ISD::FMA, VT));

// Floating-point multiply-add with intermediate rounding. This can result
// in a less precise result due to the changed rounding order.
bool UseFMAD = Options.UnsafeFPMath && 
                                     (LegalOperations && TLI.isOperationLegal(ISD::FMAD, VT));

Depending on the formatting, maybe that's even harder to read though...

If we can't prove that the FMA (without intermediate rounding) version is safe, then we should conservatively disable its FPOpFusion::Fast option for now.

Diffusion mentioned this in rL288336: [SelectionDAG] Rename and clarify visitFMULForFMADCombine (NFC).Dec 1 2016, 6:14 AM

Rearrange the logic. It looks quite readable to me this way, and
clang-format-diff agrees with the formatting.

Thinking about the FMA case again, isn't it actually obvious? At least today
I'm quite convinced by the following argument:

The mathematically exact result of x * (y + 1) is equal to that of `x * y +
x`. FMA produces the best rounding of this mathematically exact result. So
whatever happens to the rounding in (fmul x (fadd y 1.0)), the FMA variant
can only be more accurate.

Not sure why I didn't think of that before...

Tests are all passing with the changes from this patch, except one
unfortunate code quality regression in AMDGPU that I think should be
discussed separately.

Herald edited edge metadata. · View Herald TranscriptDec 1 2016, 7:30 AM

In D26602#610545, @nhaehnle wrote:

Rearrange the logic. It looks quite readable to me this way, and
clang-format-diff agrees with the formatting.

Thinking about the FMA case again, isn't it actually obvious? At least today
I'm quite convinced by the following argument:

The mathematically exact result of x * (y + 1) is equal to that of `x * y +
x`. FMA produces the best rounding of this mathematically exact result. So
whatever happens to the rounding in (fmul x (fadd y 1.0)), the FMA variant
can only be more accurate.

That sounds good to me. Is that quoted from a different thread?

As a follow-up patch, we'll want to add RUN lines to the x86 test files to add coverage back for the hoped-for FMA codegen (cc'ing @craig.topper and @delena because I think they may have added those tests).

LGTM.

This revision is now accepted and ready to land.Dec 1 2016, 8:28 AM

Closed by commit rL288506: [DAGCombiner] do not fold (fmul (fadd X, 1), Y) -> (fmad X, Y, Y) by default (authored by nha). · Explain WhyDec 2 2016, 8:16 AM

This revision was automatically updated to reflect the committed changes.

spatel mentioned this in D28675: [DAGCombine] require UnsafeFPMath for re-association of addition.Jan 17 2017, 7:41 AM

Revision Contents

Path

Size

llvm/

trunk/

lib/

CodeGen/

SelectionDAG/

DAGCombiner.cpp

16 lines

test/

CodeGen/

AMDGPU/

fma-combine.ll

85 lines

X86/

fma_patterns.ll

192 lines

fma_patterns_wide.ll

244 lines

Diff 80072

llvm/trunk/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 8,386 Lines • ▼ Show 20 Lines	SDValue DAGCombiner::visitFMULForFMADistributiveCombine(SDNode *N) {
SDValue N0 = N->getOperand(0);		SDValue N0 = N->getOperand(0);
SDValue N1 = N->getOperand(1);		SDValue N1 = N->getOperand(1);
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);
SDLoc SL(N);		SDLoc SL(N);

assert(N->getOpcode() == ISD::FMUL && "Expected FMUL Operation");		assert(N->getOpcode() == ISD::FMUL && "Expected FMUL Operation");

const TargetOptions &Options = DAG.getTarget().Options;		const TargetOptions &Options = DAG.getTarget().Options;
bool AllowFusion =
(Options.AllowFPOpFusion == FPOpFusion::Fast \|\| Options.UnsafeFPMath);

// Floating-point multiply-add with intermediate rounding.		// The transforms below are incorrect when x == 0 and y == inf, because the
bool HasFMAD = (LegalOperations && TLI.isOperationLegal(ISD::FMAD, VT));		// intermediate multiplication produces a nan.
		if (!Options.NoInfsFPMath)
		return SDValue();

// Floating-point multiply-add without intermediate rounding.		// Floating-point multiply-add without intermediate rounding.
bool HasFMA =		bool HasFMA =
AllowFusion && TLI.isFMAFasterThanFMulAndFAdd(VT) &&		(Options.AllowFPOpFusion == FPOpFusion::Fast \|\| Options.UnsafeFPMath) &&
		TLI.isFMAFasterThanFMulAndFAdd(VT) &&
(!LegalOperations \|\| TLI.isOperationLegalOrCustom(ISD::FMA, VT));		(!LegalOperations \|\| TLI.isOperationLegalOrCustom(ISD::FMA, VT));

		// Floating-point multiply-add with intermediate rounding. This can result
		// in a less precise result due to the changed rounding order.
		bool HasFMAD = Options.UnsafeFPMath &&
		(LegalOperations && TLI.isOperationLegal(ISD::FMAD, VT));

// No valid opcode, do not combine.		// No valid opcode, do not combine.
if (!HasFMAD && !HasFMA)		if (!HasFMAD && !HasFMA)
return SDValue();		return SDValue();

// Always prefer FMAD to FMA for precision.		// Always prefer FMAD to FMA for precision.
unsigned PreferredFusedOpcode = HasFMAD ? ISD::FMAD : ISD::FMA;		unsigned PreferredFusedOpcode = HasFMAD ? ISD::FMAD : ISD::FMA;
bool Aggressive = TLI.enableAggressiveFMAFusion(VT);		bool Aggressive = TLI.enableAggressiveFMAFusion(VT);

▲ Show 20 Lines • Show All 7,064 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/fma-combine.ll

; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs -fp-contract=fast < %s \| FileCheck -check-prefix=SI-FASTFMAF -check-prefix=SI -check-prefix=FUNC %s		; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs -fp-contract=fast < %s \| FileCheck -check-prefix=SI-NOFMA -check-prefix=SI -check-prefix=FUNC %s
; RUN: llc -march=amdgcn -mcpu=verde -verify-machineinstrs -fp-contract=fast < %s \| FileCheck -check-prefix=SI-SLOWFMAF -check-prefix=SI -check-prefix=FUNC %s		; RUN: llc -march=amdgcn -mcpu=verde -verify-machineinstrs -fp-contract=fast < %s \| FileCheck -check-prefix=SI-NOFMA -check-prefix=SI -check-prefix=FUNC %s
		; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs -fp-contract=fast -enable-no-infs-fp-math -mattr=+fp32-denormals < %s \| FileCheck -check-prefix=SI-FMA -check-prefix=SI -check-prefix=FUNC %s

		; Note: The SI-FMA conversions of type x * (y + 1) --> x * y + x would be
		; beneficial even without fp32 denormals, but they do require no-infs-fp-math
		; for correctness.

declare i32 @llvm.amdgcn.workitem.id.x() #0		declare i32 @llvm.amdgcn.workitem.id.x() #0
declare double @llvm.fabs.f64(double) #0		declare double @llvm.fabs.f64(double) #0
declare double @llvm.fma.f64(double, double, double) #0		declare double @llvm.fma.f64(double, double, double) #0
declare float @llvm.fma.f32(float, float, float) #0		declare float @llvm.fma.f32(float, float, float) #0

; (fadd (fmul x, y), z) -> (fma x, y, z)		; (fadd (fmul x, y), z) -> (fma x, y, z)
; FUNC-LABEL: {{^}}combine_to_fma_f64_0:		; FUNC-LABEL: {{^}}combine_to_fma_f64_0:
▲ Show 20 Lines • Show All 353 Lines • ▼ Show 20 Lines	define void @aggressive_combine_to_fma_fsub_1_f64(double addrspace(1)* noalias %out, double addrspace(1)* noalias %in) #1 {
ret void		ret void
}		}

;		;
; Patterns (+ fneg variants): mul(add(1.0,x),y), mul(sub(1.0,x),y), mul(sub(x,1.0),y)		; Patterns (+ fneg variants): mul(add(1.0,x),y), mul(sub(1.0,x),y), mul(sub(x,1.0),y)
;		;

; FUNC-LABEL: {{^}}test_f32_mul_add_x_one_y:		; FUNC-LABEL: {{^}}test_f32_mul_add_x_one_y:
; SI: v_mac_f32_e32 [[VY:v[0-9]]], [[VY:v[0-9]]], [[VX:v[0-9]]]		; SI-NOFMA: v_add_f32_e32 [[VS:v[0-9]]], 1.0, [[VX:v[0-9]]]
		; SI-NOFMA: v_mul_f32_e32 {{v[0-9]}}, [[VY:v[0-9]]], [[VS]]
		;
		; SI-FMA: v_fma_f32 {{v[0-9]}}, [[VX:v[0-9]]], [[VY:v[0-9]]], [[VY:v[0-9]]]
define void @test_f32_mul_add_x_one_y(float addrspace(1)* %out,		define void @test_f32_mul_add_x_one_y(float addrspace(1)* %out,
float addrspace(1)* %in1,		float addrspace(1)* %in1,
float addrspace(1)* %in2) {		float addrspace(1)* %in2) {
%x = load volatile float, float addrspace(1)* %in1		%x = load volatile float, float addrspace(1)* %in1
%y = load volatile float, float addrspace(1)* %in2		%y = load volatile float, float addrspace(1)* %in2
%a = fadd float %x, 1.0		%a = fadd float %x, 1.0
%m = fmul float %a, %y		%m = fmul float %a, %y
store float %m, float addrspace(1)* %out		store float %m, float addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}test_f32_mul_y_add_x_one:		; FUNC-LABEL: {{^}}test_f32_mul_y_add_x_one:
; SI: v_mac_f32_e32 [[VY:v[0-9]]], [[VY:v[0-9]]], [[VX:v[0-9]]]		; SI-NOFMA: v_add_f32_e32 [[VS:v[0-9]]], 1.0, [[VX:v[0-9]]]
		; SI-NOFMA: v_mul_f32_e32 {{v[0-9]}}, [[VS]], [[VY:v[0-9]]]
		;
		; SI-FMA: v_fma_f32 {{v[0-9]}}, [[VX:v[0-9]]], [[VY:v[0-9]]], [[VY:v[0-9]]]
define void @test_f32_mul_y_add_x_one(float addrspace(1)* %out,		define void @test_f32_mul_y_add_x_one(float addrspace(1)* %out,
float addrspace(1)* %in1,		float addrspace(1)* %in1,
float addrspace(1)* %in2) {		float addrspace(1)* %in2) {
%x = load volatile float, float addrspace(1)* %in1		%x = load volatile float, float addrspace(1)* %in1
%y = load volatile float, float addrspace(1)* %in2		%y = load volatile float, float addrspace(1)* %in2
%a = fadd float %x, 1.0		%a = fadd float %x, 1.0
%m = fmul float %y, %a		%m = fmul float %y, %a
store float %m, float addrspace(1)* %out		store float %m, float addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}test_f32_mul_add_x_negone_y:		; FUNC-LABEL: {{^}}test_f32_mul_add_x_negone_y:
; SI: v_mad_f32 [[VX:v[0-9]]], [[VX]], [[VY:v[0-9]]], -[[VY]]		; SI-NOFMA: v_add_f32_e32 [[VS:v[0-9]]], -1.0, [[VX:v[0-9]]]
		; SI-NOFMA: v_mul_f32_e32 {{v[0-9]}}, [[VY:v[0-9]]], [[VS]]
		;
		; SI-FMA: v_fma_f32 {{v[0-9]}}, [[VX:v[0-9]]], [[VY:v[0-9]]], -[[VY:v[0-9]]]
define void @test_f32_mul_add_x_negone_y(float addrspace(1)* %out,		define void @test_f32_mul_add_x_negone_y(float addrspace(1)* %out,
float addrspace(1)* %in1,		float addrspace(1)* %in1,
float addrspace(1)* %in2) {		float addrspace(1)* %in2) {
%x = load float, float addrspace(1)* %in1		%x = load float, float addrspace(1)* %in1
%y = load float, float addrspace(1)* %in2		%y = load float, float addrspace(1)* %in2
%a = fadd float %x, -1.0		%a = fadd float %x, -1.0
%m = fmul float %a, %y		%m = fmul float %a, %y
store float %m, float addrspace(1)* %out		store float %m, float addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}test_f32_mul_y_add_x_negone:		; FUNC-LABEL: {{^}}test_f32_mul_y_add_x_negone:
; SI: v_mad_f32 [[VX:v[0-9]]], [[VX]], [[VY:v[0-9]]], -[[VY]]		; SI-NOFMA: v_add_f32_e32 [[VS:v[0-9]]], -1.0, [[VX:v[0-9]]]
		; SI-NOFMA: v_mul_f32_e32 {{v[0-9]}}, [[VS]], [[VY:v[0-9]]]
		;
		; SI-FMA: v_fma_f32 {{v[0-9]}}, [[VX:v[0-9]]], [[VY:v[0-9]]], -[[VY:v[0-9]]]
define void @test_f32_mul_y_add_x_negone(float addrspace(1)* %out,		define void @test_f32_mul_y_add_x_negone(float addrspace(1)* %out,
float addrspace(1)* %in1,		float addrspace(1)* %in1,
float addrspace(1)* %in2) {		float addrspace(1)* %in2) {
%x = load float, float addrspace(1)* %in1		%x = load float, float addrspace(1)* %in1
%y = load float, float addrspace(1)* %in2		%y = load float, float addrspace(1)* %in2
%a = fadd float %x, -1.0		%a = fadd float %x, -1.0
%m = fmul float %y, %a		%m = fmul float %y, %a
store float %m, float addrspace(1)* %out		store float %m, float addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}test_f32_mul_sub_one_x_y:		; FUNC-LABEL: {{^}}test_f32_mul_sub_one_x_y:
; SI: v_mad_f32 [[VX:v[0-9]]], -[[VX]], [[VY:v[0-9]]], [[VY]]		; SI-NOFMA: v_sub_f32_e32 [[VS:v[0-9]]], 1.0, [[VX:v[0-9]]]
		; SI-NOFMA: v_mul_f32_e32 {{v[0-9]}}, [[VY:v[0-9]]], [[VS]]
		;
		; SI-FMA: v_fma_f32 {{v[0-9]}}, -[[VX:v[0-9]]], [[VY:v[0-9]]], [[VY:v[0-9]]]
define void @test_f32_mul_sub_one_x_y(float addrspace(1)* %out,		define void @test_f32_mul_sub_one_x_y(float addrspace(1)* %out,
float addrspace(1)* %in1,		float addrspace(1)* %in1,
float addrspace(1)* %in2) {		float addrspace(1)* %in2) {
%x = load float, float addrspace(1)* %in1		%x = load float, float addrspace(1)* %in1
%y = load float, float addrspace(1)* %in2		%y = load float, float addrspace(1)* %in2
%s = fsub float 1.0, %x		%s = fsub float 1.0, %x
%m = fmul float %s, %y		%m = fmul float %s, %y
store float %m, float addrspace(1)* %out		store float %m, float addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}test_f32_mul_y_sub_one_x:		; FUNC-LABEL: {{^}}test_f32_mul_y_sub_one_x:
; SI: v_mad_f32 [[VX:v[0-9]]], -[[VX]], [[VY:v[0-9]]], [[VY]]		; SI-NOFMA: v_sub_f32_e32 [[VS:v[0-9]]], 1.0, [[VX:v[0-9]]]
		; SI-NOFMA: v_mul_f32_e32 {{v[0-9]}}, [[VS]], [[VY:v[0-9]]]
		;
		; SI-FMA: v_fma_f32 {{v[0-9]}}, -[[VX:v[0-9]]], [[VY:v[0-9]]], [[VY:v[0-9]]]
define void @test_f32_mul_y_sub_one_x(float addrspace(1)* %out,		define void @test_f32_mul_y_sub_one_x(float addrspace(1)* %out,
float addrspace(1)* %in1,		float addrspace(1)* %in1,
float addrspace(1)* %in2) {		float addrspace(1)* %in2) {
%x = load float, float addrspace(1)* %in1		%x = load float, float addrspace(1)* %in1
%y = load float, float addrspace(1)* %in2		%y = load float, float addrspace(1)* %in2
%s = fsub float 1.0, %x		%s = fsub float 1.0, %x
%m = fmul float %y, %s		%m = fmul float %y, %s
store float %m, float addrspace(1)* %out		store float %m, float addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}test_f32_mul_sub_negone_x_y:		; FUNC-LABEL: {{^}}test_f32_mul_sub_negone_x_y:
; SI: v_mad_f32 [[VX:v[0-9]]], -[[VX]], [[VY:v[0-9]]], -[[VY]]		; SI-NOFMA: v_sub_f32_e32 [[VS:v[0-9]]], -1.0, [[VX:v[0-9]]]
		; SI-NOFMA: v_mul_f32_e32 {{v[0-9]}}, [[VY:v[0-9]]], [[VS]]
		;
		; SI-FMA: v_fma_f32 {{v[0-9]}}, -[[VX:v[0-9]]], [[VY:v[0-9]]], -[[VY:v[0-9]]]
define void @test_f32_mul_sub_negone_x_y(float addrspace(1)* %out,		define void @test_f32_mul_sub_negone_x_y(float addrspace(1)* %out,
float addrspace(1)* %in1,		float addrspace(1)* %in1,
float addrspace(1)* %in2) {		float addrspace(1)* %in2) {
%x = load float, float addrspace(1)* %in1		%x = load float, float addrspace(1)* %in1
%y = load float, float addrspace(1)* %in2		%y = load float, float addrspace(1)* %in2
%s = fsub float -1.0, %x		%s = fsub float -1.0, %x
%m = fmul float %s, %y		%m = fmul float %s, %y
store float %m, float addrspace(1)* %out		store float %m, float addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}test_f32_mul_y_sub_negone_x:		; FUNC-LABEL: {{^}}test_f32_mul_y_sub_negone_x:
; SI: v_mad_f32 [[VX:v[0-9]]], -[[VX]], [[VY:v[0-9]]], -[[VY]]		; SI-NOFMA: v_sub_f32_e32 [[VS:v[0-9]]], -1.0, [[VX:v[0-9]]]
		; SI-NOFMA: v_mul_f32_e32 {{v[0-9]}}, [[VS]], [[VY:v[0-9]]]
		;
		; SI-FMA: v_fma_f32 {{v[0-9]}}, -[[VX:v[0-9]]], [[VY:v[0-9]]], -[[VY:v[0-9]]]
define void @test_f32_mul_y_sub_negone_x(float addrspace(1)* %out,		define void @test_f32_mul_y_sub_negone_x(float addrspace(1)* %out,
float addrspace(1)* %in1,		float addrspace(1)* %in1,
float addrspace(1)* %in2) {		float addrspace(1)* %in2) {
%x = load float, float addrspace(1)* %in1		%x = load float, float addrspace(1)* %in1
%y = load float, float addrspace(1)* %in2		%y = load float, float addrspace(1)* %in2
%s = fsub float -1.0, %x		%s = fsub float -1.0, %x
%m = fmul float %y, %s		%m = fmul float %y, %s
store float %m, float addrspace(1)* %out		store float %m, float addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}test_f32_mul_sub_x_one_y:		; FUNC-LABEL: {{^}}test_f32_mul_sub_x_one_y:
; SI: v_mad_f32 [[VX:v[0-9]]], [[VX]], [[VY:v[0-9]]], -[[VY]]		; SI-NOFMA: v_add_f32_e32 [[VS:v[0-9]]], -1.0, [[VX:v[0-9]]]
		; SI-NOFMA: v_mul_f32_e32 {{v[0-9]}}, [[VY:v[0-9]]], [[VS]]
		;
		; SI-FMA: v_fma_f32 {{v[0-9]}}, [[VX:v[0-9]]], [[VY:v[0-9]]], -[[VY:v[0-9]]]
define void @test_f32_mul_sub_x_one_y(float addrspace(1)* %out,		define void @test_f32_mul_sub_x_one_y(float addrspace(1)* %out,
float addrspace(1)* %in1,		float addrspace(1)* %in1,
float addrspace(1)* %in2) {		float addrspace(1)* %in2) {
%x = load float, float addrspace(1)* %in1		%x = load float, float addrspace(1)* %in1
%y = load float, float addrspace(1)* %in2		%y = load float, float addrspace(1)* %in2
%s = fsub float %x, 1.0		%s = fsub float %x, 1.0
%m = fmul float %s, %y		%m = fmul float %s, %y
store float %m, float addrspace(1)* %out		store float %m, float addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}test_f32_mul_y_sub_x_one:		; FUNC-LABEL: {{^}}test_f32_mul_y_sub_x_one:
; SI: v_mad_f32 [[VX:v[0-9]]], [[VX]], [[VY:v[0-9]]], -[[VY]]		; SI-NOFMA: v_add_f32_e32 [[VS:v[0-9]]], -1.0, [[VX:v[0-9]]]
		; SI-NOFMA: v_mul_f32_e32 {{v[0-9]}}, [[VS]], [[VY:v[0-9]]]
		;
		; SI-FMA: v_fma_f32 {{v[0-9]}}, [[VX:v[0-9]]], [[VY:v[0-9]]], -[[VY:v[0-9]]]
define void @test_f32_mul_y_sub_x_one(float addrspace(1)* %out,		define void @test_f32_mul_y_sub_x_one(float addrspace(1)* %out,
float addrspace(1)* %in1,		float addrspace(1)* %in1,
float addrspace(1)* %in2) {		float addrspace(1)* %in2) {
%x = load float, float addrspace(1)* %in1		%x = load float, float addrspace(1)* %in1
%y = load float, float addrspace(1)* %in2		%y = load float, float addrspace(1)* %in2
%s = fsub float %x, 1.0		%s = fsub float %x, 1.0
%m = fmul float %y, %s		%m = fmul float %y, %s
store float %m, float addrspace(1)* %out		store float %m, float addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}test_f32_mul_sub_x_negone_y:		; FUNC-LABEL: {{^}}test_f32_mul_sub_x_negone_y:
; SI: v_mac_f32_e32 [[VY:v[0-9]]], [[VY]], [[VX:v[0-9]]]		; SI-NOFMA: v_add_f32_e32 [[VS:v[0-9]]], 1.0, [[VX:v[0-9]]]
		; SI-NOFMA: v_mul_f32_e32 {{v[0-9]}}, [[VY:v[0-9]]], [[VS]]
		;
		; SI-FMA: v_fma_f32 {{v[0-9]}}, [[VX:v[0-9]]], [[VY:v[0-9]]], [[VY:v[0-9]]]
define void @test_f32_mul_sub_x_negone_y(float addrspace(1)* %out,		define void @test_f32_mul_sub_x_negone_y(float addrspace(1)* %out,
float addrspace(1)* %in1,		float addrspace(1)* %in1,
float addrspace(1)* %in2) {		float addrspace(1)* %in2) {
%x = load float, float addrspace(1)* %in1		%x = load float, float addrspace(1)* %in1
%y = load float, float addrspace(1)* %in2		%y = load float, float addrspace(1)* %in2
%s = fsub float %x, -1.0		%s = fsub float %x, -1.0
%m = fmul float %s, %y		%m = fmul float %s, %y
store float %m, float addrspace(1)* %out		store float %m, float addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}test_f32_mul_y_sub_x_negone:		; FUNC-LABEL: {{^}}test_f32_mul_y_sub_x_negone:
; SI: v_mac_f32_e32 [[VY:v[0-9]]], [[VY]], [[VX:v[0-9]]]		; SI-NOFMA: v_add_f32_e32 [[VS:v[0-9]]], 1.0, [[VX:v[0-9]]]
		; SI-NOFMA: v_mul_f32_e32 {{v[0-9]}}, [[VS]], [[VY:v[0-9]]]
		;
		; SI-FMA: v_fma_f32 {{v[0-9]}}, [[VX:v[0-9]]], [[VY:v[0-9]]], [[VY:v[0-9]]]
define void @test_f32_mul_y_sub_x_negone(float addrspace(1)* %out,		define void @test_f32_mul_y_sub_x_negone(float addrspace(1)* %out,
float addrspace(1)* %in1,		float addrspace(1)* %in1,
float addrspace(1)* %in2) {		float addrspace(1)* %in2) {
%x = load float, float addrspace(1)* %in1		%x = load float, float addrspace(1)* %in1
%y = load float, float addrspace(1)* %in2		%y = load float, float addrspace(1)* %in2
%s = fsub float %x, -1.0		%s = fsub float %x, -1.0
%m = fmul float %y, %s		%m = fmul float %y, %s
store float %m, float addrspace(1)* %out		store float %m, float addrspace(1)* %out
ret void		ret void
}		}

;		;
; Interpolation Patterns: add(mul(x,t),mul(sub(1.0,t),y))		; Interpolation Patterns: add(mul(x,t),mul(sub(1.0,t),y))
;		;

; FUNC-LABEL: {{^}}test_f32_interp:		; FUNC-LABEL: {{^}}test_f32_interp:
; SI: v_mad_f32 [[VR:v[0-9]]], -[[VT:v[0-9]]], [[VY:v[0-9]]], [[VY]]		; SI-NOFMA: v_sub_f32_e32 [[VT1:v[0-9]]], 1.0, [[VT:v[0-9]]]
; SI: v_mac_f32_e32 [[VR]], [[VT]], [[VX:v[0-9]]]		; SI-NOFMA: v_mul_f32_e32 [[VTY:v[0-9]]], [[VT1]], [[VY:v[0-9]]]
		; SI-NOFMA: v_mac_f32_e32 [[VTY]], [[VT]], [[VX:v[0-9]]]
		;
		; SI-FMA: v_fma_f32 [[VR:v[0-9]]], -[[VT:v[0-9]]], [[VY:v[0-9]]], [[VY]]
		; SI-FMA: v_fma_f32 {{v[0-9]}}, [[VX:v[0-9]]], [[VT]], [[VR]]
define void @test_f32_interp(float addrspace(1)* %out,		define void @test_f32_interp(float addrspace(1)* %out,
float addrspace(1)* %in1,		float addrspace(1)* %in1,
float addrspace(1)* %in2,		float addrspace(1)* %in2,
float addrspace(1)* %in3) {		float addrspace(1)* %in3) {
%x = load float, float addrspace(1)* %in1		%x = load float, float addrspace(1)* %in1
%y = load float, float addrspace(1)* %in2		%y = load float, float addrspace(1)* %in2
%t = load float, float addrspace(1)* %in3		%t = load float, float addrspace(1)* %in3
%t1 = fsub float 1.0, %t		%t1 = fsub float 1.0, %t
%tx = fmul float %x, %t		%tx = fmul float %x, %t
%ty = fmul float %y, %t1		%ty = fmul float %y, %t1
%r = fadd float %tx, %ty		%r = fadd float %tx, %ty
store float %r, float addrspace(1)* %out		store float %r, float addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}test_f64_interp:		; FUNC-LABEL: {{^}}test_f64_interp:
; SI: v_fma_f64 [[VR:v\[[0-9]+:[0-9]+\]]], -[[VT:v\[[0-9]+:[0-9]+\]]], [[VY:v\[[0-9]+:[0-9]+\]]], [[VY]]		; SI-NOFMA: v_add_f64 [[VT1:v\[[0-9]+:[0-9]+\]]], -[[VT:v\[[0-9]+:[0-9]+\]]], 1.0
; SI: v_fma_f64 v{{\[[0-9]+:[0-9]+\]}}, [[VX:v\[[0-9]+:[0-9]+\]]], [[VT]], [[VR]]		; SI-NOFMA: v_mul_f64 [[VTY:v\[[0-9]+:[0-9]+\]]], [[VY:v\[[0-9]+:[0-9]+\]]], [[VT1]]
		; SI-NOFMA: v_fma_f64 v{{\[[0-9]+:[0-9]+\]}}, [[VX:v\[[0-9]+:[0-9]+\]]], [[VT]], [[VTY]]
		;
		; SI-FMA: v_fma_f64 [[VR:v\[[0-9]+:[0-9]+\]]], -[[VT:v\[[0-9]+:[0-9]+\]]], [[VY:v\[[0-9]+:[0-9]+\]]], [[VY]]
		; SI-FMA: v_fma_f64 v{{\[[0-9]+:[0-9]+\]}}, [[VX:v\[[0-9]+:[0-9]+\]]], [[VT]], [[VR]]
define void @test_f64_interp(double addrspace(1)* %out,		define void @test_f64_interp(double addrspace(1)* %out,
double addrspace(1)* %in1,		double addrspace(1)* %in1,
double addrspace(1)* %in2,		double addrspace(1)* %in2,
double addrspace(1)* %in3) {		double addrspace(1)* %in3) {
%x = load double, double addrspace(1)* %in1		%x = load double, double addrspace(1)* %in1
%y = load double, double addrspace(1)* %in2		%y = load double, double addrspace(1)* %in2
%t = load double, double addrspace(1)* %in3		%t = load double, double addrspace(1)* %in3
%t1 = fsub double 1.0, %t		%t1 = fsub double 1.0, %t
Show All 9 Lines

llvm/trunk/test/CodeGen/X86/fma_patterns.ll

	Show First 20 Lines • Show All 554 Lines • ▼ Show 20 Lines

	;			;
	; Patterns (+ fneg variants): mul(add(1.0,x),y), mul(sub(1.0,x),y), mul(sub(x,1.0),y)			; Patterns (+ fneg variants): mul(add(1.0,x),y), mul(sub(1.0,x),y), mul(sub(x,1.0),y)
	;			;

	define <4 x float> @test_v4f32_mul_add_x_one_y(<4 x float> %x, <4 x float> %y) {			define <4 x float> @test_v4f32_mul_add_x_one_y(<4 x float> %x, <4 x float> %y) {
	; FMA-LABEL: test_v4f32_mul_add_x_one_y:			; FMA-LABEL: test_v4f32_mul_add_x_one_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfmadd213ps %xmm1, %xmm1, %xmm0			; FMA-NEXT: vaddps {{.*}}(%rip), %xmm0, %xmm0
				; FMA-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v4f32_mul_add_x_one_y:			; FMA4-LABEL: test_v4f32_mul_add_x_one_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfmaddps %xmm1, %xmm1, %xmm0, %xmm0			; FMA4-NEXT: vaddps {{.*}}(%rip), %xmm0, %xmm0
				; FMA4-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_mul_add_x_one_y:			; AVX512-LABEL: test_v4f32_mul_add_x_one_y:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfmadd213ps %xmm1, %xmm1, %xmm0			; AVX512-NEXT: vaddps {{.*}}(%rip){1to4}, %xmm0, %xmm0
				; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%a = fadd <4 x float> %x, <float 1.0, float 1.0, float 1.0, float 1.0>			%a = fadd <4 x float> %x, <float 1.0, float 1.0, float 1.0, float 1.0>
	%m = fmul <4 x float> %a, %y			%m = fmul <4 x float> %a, %y
	ret <4 x float> %m			ret <4 x float> %m
	}			}

	define <4 x float> @test_v4f32_mul_y_add_x_one(<4 x float> %x, <4 x float> %y) {			define <4 x float> @test_v4f32_mul_y_add_x_one(<4 x float> %x, <4 x float> %y) {
	; FMA-LABEL: test_v4f32_mul_y_add_x_one:			; FMA-LABEL: test_v4f32_mul_y_add_x_one:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfmadd213ps %xmm1, %xmm1, %xmm0			; FMA-NEXT: vaddps {{.*}}(%rip), %xmm0, %xmm0
				; FMA-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v4f32_mul_y_add_x_one:			; FMA4-LABEL: test_v4f32_mul_y_add_x_one:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfmaddps %xmm1, %xmm1, %xmm0, %xmm0			; FMA4-NEXT: vaddps {{.*}}(%rip), %xmm0, %xmm0
				; FMA4-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_mul_y_add_x_one:			; AVX512-LABEL: test_v4f32_mul_y_add_x_one:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfmadd213ps %xmm1, %xmm1, %xmm0			; AVX512-NEXT: vaddps {{.*}}(%rip){1to4}, %xmm0, %xmm0
				; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%a = fadd <4 x float> %x, <float 1.0, float 1.0, float 1.0, float 1.0>			%a = fadd <4 x float> %x, <float 1.0, float 1.0, float 1.0, float 1.0>
	%m = fmul <4 x float> %y, %a			%m = fmul <4 x float> %y, %a
	ret <4 x float> %m			ret <4 x float> %m
	}			}

	define <4 x float> @test_v4f32_mul_add_x_negone_y(<4 x float> %x, <4 x float> %y) {			define <4 x float> @test_v4f32_mul_add_x_negone_y(<4 x float> %x, <4 x float> %y) {
	; FMA-LABEL: test_v4f32_mul_add_x_negone_y:			; FMA-LABEL: test_v4f32_mul_add_x_negone_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfmsub213ps %xmm1, %xmm1, %xmm0			; FMA-NEXT: vaddps {{.*}}(%rip), %xmm0, %xmm0
				; FMA-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v4f32_mul_add_x_negone_y:			; FMA4-LABEL: test_v4f32_mul_add_x_negone_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfmsubps %xmm1, %xmm1, %xmm0, %xmm0			; FMA4-NEXT: vaddps {{.*}}(%rip), %xmm0, %xmm0
				; FMA4-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_mul_add_x_negone_y:			; AVX512-LABEL: test_v4f32_mul_add_x_negone_y:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfmsub213ps %xmm1, %xmm1, %xmm0			; AVX512-NEXT: vaddps {{.*}}(%rip){1to4}, %xmm0, %xmm0
				; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%a = fadd <4 x float> %x, <float -1.0, float -1.0, float -1.0, float -1.0>			%a = fadd <4 x float> %x, <float -1.0, float -1.0, float -1.0, float -1.0>
	%m = fmul <4 x float> %a, %y			%m = fmul <4 x float> %a, %y
	ret <4 x float> %m			ret <4 x float> %m
	}			}

	define <4 x float> @test_v4f32_mul_y_add_x_negone(<4 x float> %x, <4 x float> %y) {			define <4 x float> @test_v4f32_mul_y_add_x_negone(<4 x float> %x, <4 x float> %y) {
	; FMA-LABEL: test_v4f32_mul_y_add_x_negone:			; FMA-LABEL: test_v4f32_mul_y_add_x_negone:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfmsub213ps %xmm1, %xmm1, %xmm0			; FMA-NEXT: vaddps {{.*}}(%rip), %xmm0, %xmm0
				; FMA-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v4f32_mul_y_add_x_negone:			; FMA4-LABEL: test_v4f32_mul_y_add_x_negone:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfmsubps %xmm1, %xmm1, %xmm0, %xmm0			; FMA4-NEXT: vaddps {{.*}}(%rip), %xmm0, %xmm0
				; FMA4-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_mul_y_add_x_negone:			; AVX512-LABEL: test_v4f32_mul_y_add_x_negone:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfmsub213ps %xmm1, %xmm1, %xmm0			; AVX512-NEXT: vaddps {{.*}}(%rip){1to4}, %xmm0, %xmm0
				; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%a = fadd <4 x float> %x, <float -1.0, float -1.0, float -1.0, float -1.0>			%a = fadd <4 x float> %x, <float -1.0, float -1.0, float -1.0, float -1.0>
	%m = fmul <4 x float> %y, %a			%m = fmul <4 x float> %y, %a
	ret <4 x float> %m			ret <4 x float> %m
	}			}

	define <4 x float> @test_v4f32_mul_sub_one_x_y(<4 x float> %x, <4 x float> %y) {			define <4 x float> @test_v4f32_mul_sub_one_x_y(<4 x float> %x, <4 x float> %y) {
	; FMA-LABEL: test_v4f32_mul_sub_one_x_y:			; FMA-LABEL: test_v4f32_mul_sub_one_x_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfnmadd213ps %xmm1, %xmm1, %xmm0			; FMA-NEXT: vmovaps {{.*#+}} xmm2 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
				; FMA-NEXT: vsubps %xmm0, %xmm2, %xmm0
				; FMA-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v4f32_mul_sub_one_x_y:			; FMA4-LABEL: test_v4f32_mul_sub_one_x_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfnmaddps %xmm1, %xmm1, %xmm0, %xmm0			; FMA4-NEXT: vmovaps {{.*#+}} xmm2 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
				; FMA4-NEXT: vsubps %xmm0, %xmm2, %xmm0
				; FMA4-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_mul_sub_one_x_y:			; AVX512-LABEL: test_v4f32_mul_sub_one_x_y:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfnmadd213ps %xmm1, %xmm1, %xmm0			; AVX512-NEXT: vbroadcastss {{.*}}(%rip), %xmm2
				; AVX512-NEXT: vsubps %xmm0, %xmm2, %xmm0
				; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%s = fsub <4 x float> <float 1.0, float 1.0, float 1.0, float 1.0>, %x			%s = fsub <4 x float> <float 1.0, float 1.0, float 1.0, float 1.0>, %x
	%m = fmul <4 x float> %s, %y			%m = fmul <4 x float> %s, %y
	ret <4 x float> %m			ret <4 x float> %m
	}			}

	define <4 x float> @test_v4f32_mul_y_sub_one_x(<4 x float> %x, <4 x float> %y) {			define <4 x float> @test_v4f32_mul_y_sub_one_x(<4 x float> %x, <4 x float> %y) {
	; FMA-LABEL: test_v4f32_mul_y_sub_one_x:			; FMA-LABEL: test_v4f32_mul_y_sub_one_x:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfnmadd213ps %xmm1, %xmm1, %xmm0			; FMA-NEXT: vmovaps {{.*#+}} xmm2 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
				; FMA-NEXT: vsubps %xmm0, %xmm2, %xmm0
				; FMA-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v4f32_mul_y_sub_one_x:			; FMA4-LABEL: test_v4f32_mul_y_sub_one_x:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfnmaddps %xmm1, %xmm1, %xmm0, %xmm0			; FMA4-NEXT: vmovaps {{.*#+}} xmm2 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
				; FMA4-NEXT: vsubps %xmm0, %xmm2, %xmm0
				; FMA4-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_mul_y_sub_one_x:			; AVX512-LABEL: test_v4f32_mul_y_sub_one_x:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfnmadd213ps %xmm1, %xmm1, %xmm0			; AVX512-NEXT: vbroadcastss {{.*}}(%rip), %xmm2
				; AVX512-NEXT: vsubps %xmm0, %xmm2, %xmm0
				; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%s = fsub <4 x float> <float 1.0, float 1.0, float 1.0, float 1.0>, %x			%s = fsub <4 x float> <float 1.0, float 1.0, float 1.0, float 1.0>, %x
	%m = fmul <4 x float> %y, %s			%m = fmul <4 x float> %y, %s
	ret <4 x float> %m			ret <4 x float> %m
	}			}

	define <4 x float> @test_v4f32_mul_sub_negone_x_y(<4 x float> %x, <4 x float> %y) {			define <4 x float> @test_v4f32_mul_sub_negone_x_y(<4 x float> %x, <4 x float> %y) {
	; FMA-LABEL: test_v4f32_mul_sub_negone_x_y:			; FMA-LABEL: test_v4f32_mul_sub_negone_x_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfnmsub213ps %xmm1, %xmm1, %xmm0			; FMA-NEXT: vmovaps {{.*#+}} xmm2 = [-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00]
				; FMA-NEXT: vsubps %xmm0, %xmm2, %xmm0
				; FMA-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v4f32_mul_sub_negone_x_y:			; FMA4-LABEL: test_v4f32_mul_sub_negone_x_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfnmsubps %xmm1, %xmm1, %xmm0, %xmm0			; FMA4-NEXT: vmovaps {{.*#+}} xmm2 = [-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00]
				; FMA4-NEXT: vsubps %xmm0, %xmm2, %xmm0
				; FMA4-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_mul_sub_negone_x_y:			; AVX512-LABEL: test_v4f32_mul_sub_negone_x_y:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfnmsub213ps %xmm1, %xmm1, %xmm0			; AVX512-NEXT: vbroadcastss {{.*}}(%rip), %xmm2
				; AVX512-NEXT: vsubps %xmm0, %xmm2, %xmm0
				; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%s = fsub <4 x float> <float -1.0, float -1.0, float -1.0, float -1.0>, %x			%s = fsub <4 x float> <float -1.0, float -1.0, float -1.0, float -1.0>, %x
	%m = fmul <4 x float> %s, %y			%m = fmul <4 x float> %s, %y
	ret <4 x float> %m			ret <4 x float> %m
	}			}

	define <4 x float> @test_v4f32_mul_y_sub_negone_x(<4 x float> %x, <4 x float> %y) {			define <4 x float> @test_v4f32_mul_y_sub_negone_x(<4 x float> %x, <4 x float> %y) {
	; FMA-LABEL: test_v4f32_mul_y_sub_negone_x:			; FMA-LABEL: test_v4f32_mul_y_sub_negone_x:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfnmsub213ps %xmm1, %xmm1, %xmm0			; FMA-NEXT: vmovaps {{.*#+}} xmm2 = [-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00]
				; FMA-NEXT: vsubps %xmm0, %xmm2, %xmm0
				; FMA-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v4f32_mul_y_sub_negone_x:			; FMA4-LABEL: test_v4f32_mul_y_sub_negone_x:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfnmsubps %xmm1, %xmm1, %xmm0, %xmm0			; FMA4-NEXT: vmovaps {{.*#+}} xmm2 = [-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00]
				; FMA4-NEXT: vsubps %xmm0, %xmm2, %xmm0
				; FMA4-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_mul_y_sub_negone_x:			; AVX512-LABEL: test_v4f32_mul_y_sub_negone_x:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfnmsub213ps %xmm1, %xmm1, %xmm0			; AVX512-NEXT: vbroadcastss {{.*}}(%rip), %xmm2
				; AVX512-NEXT: vsubps %xmm0, %xmm2, %xmm0
				; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%s = fsub <4 x float> <float -1.0, float -1.0, float -1.0, float -1.0>, %x			%s = fsub <4 x float> <float -1.0, float -1.0, float -1.0, float -1.0>, %x
	%m = fmul <4 x float> %y, %s			%m = fmul <4 x float> %y, %s
	ret <4 x float> %m			ret <4 x float> %m
	}			}

	define <4 x float> @test_v4f32_mul_sub_x_one_y(<4 x float> %x, <4 x float> %y) {			define <4 x float> @test_v4f32_mul_sub_x_one_y(<4 x float> %x, <4 x float> %y) {
	; FMA-LABEL: test_v4f32_mul_sub_x_one_y:			; FMA-LABEL: test_v4f32_mul_sub_x_one_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfmsub213ps %xmm1, %xmm1, %xmm0			; FMA-NEXT: vsubps {{.*}}(%rip), %xmm0, %xmm0
				; FMA-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v4f32_mul_sub_x_one_y:			; FMA4-LABEL: test_v4f32_mul_sub_x_one_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfmsubps %xmm1, %xmm1, %xmm0, %xmm0			; FMA4-NEXT: vsubps {{.*}}(%rip), %xmm0, %xmm0
				; FMA4-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_mul_sub_x_one_y:			; AVX512-LABEL: test_v4f32_mul_sub_x_one_y:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfmsub213ps %xmm1, %xmm1, %xmm0			; AVX512-NEXT: vsubps {{.*}}(%rip){1to4}, %xmm0, %xmm0
				; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%s = fsub <4 x float> %x, <float 1.0, float 1.0, float 1.0, float 1.0>			%s = fsub <4 x float> %x, <float 1.0, float 1.0, float 1.0, float 1.0>
	%m = fmul <4 x float> %s, %y			%m = fmul <4 x float> %s, %y
	ret <4 x float> %m			ret <4 x float> %m
	}			}

	define <4 x float> @test_v4f32_mul_y_sub_x_one(<4 x float> %x, <4 x float> %y) {			define <4 x float> @test_v4f32_mul_y_sub_x_one(<4 x float> %x, <4 x float> %y) {
	; FMA-LABEL: test_v4f32_mul_y_sub_x_one:			; FMA-LABEL: test_v4f32_mul_y_sub_x_one:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfmsub213ps %xmm1, %xmm1, %xmm0			; FMA-NEXT: vsubps {{.*}}(%rip), %xmm0, %xmm0
				; FMA-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v4f32_mul_y_sub_x_one:			; FMA4-LABEL: test_v4f32_mul_y_sub_x_one:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfmsubps %xmm1, %xmm1, %xmm0, %xmm0			; FMA4-NEXT: vsubps {{.*}}(%rip), %xmm0, %xmm0
				; FMA4-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_mul_y_sub_x_one:			; AVX512-LABEL: test_v4f32_mul_y_sub_x_one:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfmsub213ps %xmm1, %xmm1, %xmm0			; AVX512-NEXT: vsubps {{.*}}(%rip){1to4}, %xmm0, %xmm0
				; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%s = fsub <4 x float> %x, <float 1.0, float 1.0, float 1.0, float 1.0>			%s = fsub <4 x float> %x, <float 1.0, float 1.0, float 1.0, float 1.0>
	%m = fmul <4 x float> %y, %s			%m = fmul <4 x float> %y, %s
	ret <4 x float> %m			ret <4 x float> %m
	}			}

	define <4 x float> @test_v4f32_mul_sub_x_negone_y(<4 x float> %x, <4 x float> %y) {			define <4 x float> @test_v4f32_mul_sub_x_negone_y(<4 x float> %x, <4 x float> %y) {
	; FMA-LABEL: test_v4f32_mul_sub_x_negone_y:			; FMA-LABEL: test_v4f32_mul_sub_x_negone_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfmadd213ps %xmm1, %xmm1, %xmm0			; FMA-NEXT: vsubps {{.*}}(%rip), %xmm0, %xmm0
				; FMA-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v4f32_mul_sub_x_negone_y:			; FMA4-LABEL: test_v4f32_mul_sub_x_negone_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfmaddps %xmm1, %xmm1, %xmm0, %xmm0			; FMA4-NEXT: vsubps {{.*}}(%rip), %xmm0, %xmm0
				; FMA4-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_mul_sub_x_negone_y:			; AVX512-LABEL: test_v4f32_mul_sub_x_negone_y:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfmadd213ps %xmm1, %xmm1, %xmm0			; AVX512-NEXT: vsubps {{.*}}(%rip){1to4}, %xmm0, %xmm0
				; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%s = fsub <4 x float> %x, <float -1.0, float -1.0, float -1.0, float -1.0>			%s = fsub <4 x float> %x, <float -1.0, float -1.0, float -1.0, float -1.0>
	%m = fmul <4 x float> %s, %y			%m = fmul <4 x float> %s, %y
	ret <4 x float> %m			ret <4 x float> %m
	}			}

	define <4 x float> @test_v4f32_mul_y_sub_x_negone(<4 x float> %x, <4 x float> %y) {			define <4 x float> @test_v4f32_mul_y_sub_x_negone(<4 x float> %x, <4 x float> %y) {
	; FMA-LABEL: test_v4f32_mul_y_sub_x_negone:			; FMA-LABEL: test_v4f32_mul_y_sub_x_negone:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfmadd213ps %xmm1, %xmm1, %xmm0			; FMA-NEXT: vsubps {{.*}}(%rip), %xmm0, %xmm0
				; FMA-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v4f32_mul_y_sub_x_negone:			; FMA4-LABEL: test_v4f32_mul_y_sub_x_negone:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfmaddps %xmm1, %xmm1, %xmm0, %xmm0			; FMA4-NEXT: vsubps {{.*}}(%rip), %xmm0, %xmm0
				; FMA4-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_mul_y_sub_x_negone:			; AVX512-LABEL: test_v4f32_mul_y_sub_x_negone:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfmadd213ps %xmm1, %xmm1, %xmm0			; AVX512-NEXT: vsubps {{.*}}(%rip){1to4}, %xmm0, %xmm0
				; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%s = fsub <4 x float> %x, <float -1.0, float -1.0, float -1.0, float -1.0>			%s = fsub <4 x float> %x, <float -1.0, float -1.0, float -1.0, float -1.0>
	%m = fmul <4 x float> %y, %s			%m = fmul <4 x float> %y, %s
	ret <4 x float> %m			ret <4 x float> %m
	}			}

	;			;
	; Interpolation Patterns: add(mul(x,t),mul(sub(1.0,t),y))			; Interpolation Patterns: add(mul(x,t),mul(sub(1.0,t),y))
	;			;

	define float @test_f32_interp(float %x, float %y, float %t) {			define float @test_f32_interp(float %x, float %y, float %t) {
	; FMA-LABEL: test_f32_interp:			; FMA-LABEL: test_f32_interp:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfnmadd213ss %xmm1, %xmm2, %xmm1			; FMA-NEXT: vmovss {{.*#+}} xmm3 = mem[0],zero,zero,zero
				; FMA-NEXT: vsubss %xmm2, %xmm3, %xmm3
				; FMA-NEXT: vmulss %xmm3, %xmm1, %xmm1
	; FMA-NEXT: vfmadd213ss %xmm1, %xmm2, %xmm0			; FMA-NEXT: vfmadd213ss %xmm1, %xmm2, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_f32_interp:			; FMA4-LABEL: test_f32_interp:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfnmaddss %xmm1, %xmm1, %xmm2, %xmm1			; FMA4-NEXT: vmovss {{.*#+}} xmm3 = mem[0],zero,zero,zero
				; FMA4-NEXT: vsubss %xmm2, %xmm3, %xmm3
				; FMA4-NEXT: vmulss %xmm3, %xmm1, %xmm1
	; FMA4-NEXT: vfmaddss %xmm1, %xmm2, %xmm0, %xmm0			; FMA4-NEXT: vfmaddss %xmm1, %xmm2, %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_f32_interp:			; AVX512-LABEL: test_f32_interp:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfnmadd213ss %xmm1, %xmm2, %xmm1			; AVX512-NEXT: vmovss {{.*#+}} xmm3 = mem[0],zero,zero,zero
				; AVX512-NEXT: vsubss %xmm2, %xmm3, %xmm3
				; AVX512-NEXT: vmulss %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vfmadd213ss %xmm1, %xmm2, %xmm0			; AVX512-NEXT: vfmadd213ss %xmm1, %xmm2, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%t1 = fsub float 1.0, %t			%t1 = fsub float 1.0, %t
	%tx = fmul float %x, %t			%tx = fmul float %x, %t
	%ty = fmul float %y, %t1			%ty = fmul float %y, %t1
	%r = fadd float %tx, %ty			%r = fadd float %tx, %ty
	ret float %r			ret float %r
	}			}

	define <4 x float> @test_v4f32_interp(<4 x float> %x, <4 x float> %y, <4 x float> %t) {			define <4 x float> @test_v4f32_interp(<4 x float> %x, <4 x float> %y, <4 x float> %t) {
	; FMA-LABEL: test_v4f32_interp:			; FMA-LABEL: test_v4f32_interp:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfnmadd213ps %xmm1, %xmm2, %xmm1			; FMA-NEXT: vmovaps {{.*#+}} xmm3 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
				; FMA-NEXT: vsubps %xmm2, %xmm3, %xmm3
				; FMA-NEXT: vmulps %xmm3, %xmm1, %xmm1
	; FMA-NEXT: vfmadd213ps %xmm1, %xmm2, %xmm0			; FMA-NEXT: vfmadd213ps %xmm1, %xmm2, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v4f32_interp:			; FMA4-LABEL: test_v4f32_interp:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfnmaddps %xmm1, %xmm1, %xmm2, %xmm1			; FMA4-NEXT: vmovaps {{.*#+}} xmm3 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
				; FMA4-NEXT: vsubps %xmm2, %xmm3, %xmm3
				; FMA4-NEXT: vmulps %xmm3, %xmm1, %xmm1
	; FMA4-NEXT: vfmaddps %xmm1, %xmm2, %xmm0, %xmm0			; FMA4-NEXT: vfmaddps %xmm1, %xmm2, %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_interp:			; AVX512-LABEL: test_v4f32_interp:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfnmadd213ps %xmm1, %xmm2, %xmm1			; AVX512-NEXT: vbroadcastss {{.*}}(%rip), %xmm3
				; AVX512-NEXT: vsubps %xmm2, %xmm3, %xmm3
				; AVX512-NEXT: vmulps %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vfmadd213ps %xmm1, %xmm2, %xmm0			; AVX512-NEXT: vfmadd213ps %xmm1, %xmm2, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%t1 = fsub <4 x float> <float 1.0, float 1.0, float 1.0, float 1.0>, %t			%t1 = fsub <4 x float> <float 1.0, float 1.0, float 1.0, float 1.0>, %t
	%tx = fmul <4 x float> %x, %t			%tx = fmul <4 x float> %x, %t
	%ty = fmul <4 x float> %y, %t1			%ty = fmul <4 x float> %y, %t1
	%r = fadd <4 x float> %tx, %ty			%r = fadd <4 x float> %tx, %ty
	ret <4 x float> %r			ret <4 x float> %r
	}			}

	define <8 x float> @test_v8f32_interp(<8 x float> %x, <8 x float> %y, <8 x float> %t) {			define <8 x float> @test_v8f32_interp(<8 x float> %x, <8 x float> %y, <8 x float> %t) {
	; FMA-LABEL: test_v8f32_interp:			; FMA-LABEL: test_v8f32_interp:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfnmadd213ps %ymm1, %ymm2, %ymm1			; FMA-NEXT: vmovaps {{.*#+}} ymm3 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
				; FMA-NEXT: vsubps %ymm2, %ymm3, %ymm3
				; FMA-NEXT: vmulps %ymm3, %ymm1, %ymm1
	; FMA-NEXT: vfmadd213ps %ymm1, %ymm2, %ymm0			; FMA-NEXT: vfmadd213ps %ymm1, %ymm2, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v8f32_interp:			; FMA4-LABEL: test_v8f32_interp:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfnmaddps %ymm1, %ymm1, %ymm2, %ymm1			; FMA4-NEXT: vmovaps {{.*#+}} ymm3 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
				; FMA4-NEXT: vsubps %ymm2, %ymm3, %ymm3
				; FMA4-NEXT: vmulps %ymm3, %ymm1, %ymm1
	; FMA4-NEXT: vfmaddps %ymm1, %ymm2, %ymm0, %ymm0			; FMA4-NEXT: vfmaddps %ymm1, %ymm2, %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_interp:			; AVX512-LABEL: test_v8f32_interp:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfnmadd213ps %ymm1, %ymm2, %ymm1			; AVX512-NEXT: vbroadcastss {{.*}}(%rip), %ymm3
				; AVX512-NEXT: vsubps %ymm2, %ymm3, %ymm3
				; AVX512-NEXT: vmulps %ymm3, %ymm1, %ymm1
	; AVX512-NEXT: vfmadd213ps %ymm1, %ymm2, %ymm0			; AVX512-NEXT: vfmadd213ps %ymm1, %ymm2, %ymm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%t1 = fsub <8 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %t			%t1 = fsub <8 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %t
	%tx = fmul <8 x float> %x, %t			%tx = fmul <8 x float> %x, %t
	%ty = fmul <8 x float> %y, %t1			%ty = fmul <8 x float> %y, %t1
	%r = fadd <8 x float> %tx, %ty			%r = fadd <8 x float> %tx, %ty
	ret <8 x float> %r			ret <8 x float> %r
	}			}

	define double @test_f64_interp(double %x, double %y, double %t) {			define double @test_f64_interp(double %x, double %y, double %t) {
	; FMA-LABEL: test_f64_interp:			; FMA-LABEL: test_f64_interp:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfnmadd213sd %xmm1, %xmm2, %xmm1			; FMA-NEXT: vmovsd {{.*#+}} xmm3 = mem[0],zero
				; FMA-NEXT: vsubsd %xmm2, %xmm3, %xmm3
				; FMA-NEXT: vmulsd %xmm3, %xmm1, %xmm1
	; FMA-NEXT: vfmadd213sd %xmm1, %xmm2, %xmm0			; FMA-NEXT: vfmadd213sd %xmm1, %xmm2, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_f64_interp:			; FMA4-LABEL: test_f64_interp:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfnmaddsd %xmm1, %xmm1, %xmm2, %xmm1			; FMA4-NEXT: vmovsd {{.*#+}} xmm3 = mem[0],zero
				; FMA4-NEXT: vsubsd %xmm2, %xmm3, %xmm3
				; FMA4-NEXT: vmulsd %xmm3, %xmm1, %xmm1
	; FMA4-NEXT: vfmaddsd %xmm1, %xmm2, %xmm0, %xmm0			; FMA4-NEXT: vfmaddsd %xmm1, %xmm2, %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_f64_interp:			; AVX512-LABEL: test_f64_interp:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfnmadd213sd %xmm1, %xmm2, %xmm1			; AVX512-NEXT: vmovsd {{.*#+}} xmm3 = mem[0],zero
				; AVX512-NEXT: vsubsd %xmm2, %xmm3, %xmm3
				; AVX512-NEXT: vmulsd %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vfmadd213sd %xmm1, %xmm2, %xmm0			; AVX512-NEXT: vfmadd213sd %xmm1, %xmm2, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%t1 = fsub double 1.0, %t			%t1 = fsub double 1.0, %t
	%tx = fmul double %x, %t			%tx = fmul double %x, %t
	%ty = fmul double %y, %t1			%ty = fmul double %y, %t1
	%r = fadd double %tx, %ty			%r = fadd double %tx, %ty
	ret double %r			ret double %r
	}			}

	define <2 x double> @test_v2f64_interp(<2 x double> %x, <2 x double> %y, <2 x double> %t) {			define <2 x double> @test_v2f64_interp(<2 x double> %x, <2 x double> %y, <2 x double> %t) {
	; FMA-LABEL: test_v2f64_interp:			; FMA-LABEL: test_v2f64_interp:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfnmadd213pd %xmm1, %xmm2, %xmm1			; FMA-NEXT: vmovapd {{.*#+}} xmm3 = [1.000000e+00,1.000000e+00]
				; FMA-NEXT: vsubpd %xmm2, %xmm3, %xmm3
				; FMA-NEXT: vmulpd %xmm3, %xmm1, %xmm1
	; FMA-NEXT: vfmadd213pd %xmm1, %xmm2, %xmm0			; FMA-NEXT: vfmadd213pd %xmm1, %xmm2, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v2f64_interp:			; FMA4-LABEL: test_v2f64_interp:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfnmaddpd %xmm1, %xmm1, %xmm2, %xmm1			; FMA4-NEXT: vmovapd {{.*#+}} xmm3 = [1.000000e+00,1.000000e+00]
				; FMA4-NEXT: vsubpd %xmm2, %xmm3, %xmm3
				; FMA4-NEXT: vmulpd %xmm3, %xmm1, %xmm1
	; FMA4-NEXT: vfmaddpd %xmm1, %xmm2, %xmm0, %xmm0			; FMA4-NEXT: vfmaddpd %xmm1, %xmm2, %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_interp:			; AVX512-LABEL: test_v2f64_interp:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfnmadd213pd %xmm1, %xmm2, %xmm1			; AVX512-NEXT: vmovapd {{.*#+}} xmm3 = [1.000000e+00,1.000000e+00]
				; AVX512-NEXT: vsubpd %xmm2, %xmm3, %xmm3
				; AVX512-NEXT: vmulpd %xmm3, %xmm1, %xmm1
	; AVX512-NEXT: vfmadd213pd %xmm1, %xmm2, %xmm0			; AVX512-NEXT: vfmadd213pd %xmm1, %xmm2, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%t1 = fsub <2 x double> <double 1.0, double 1.0>, %t			%t1 = fsub <2 x double> <double 1.0, double 1.0>, %t
	%tx = fmul <2 x double> %x, %t			%tx = fmul <2 x double> %x, %t
	%ty = fmul <2 x double> %y, %t1			%ty = fmul <2 x double> %y, %t1
	%r = fadd <2 x double> %tx, %ty			%r = fadd <2 x double> %tx, %ty
	ret <2 x double> %r			ret <2 x double> %r
	}			}

	define <4 x double> @test_v4f64_interp(<4 x double> %x, <4 x double> %y, <4 x double> %t) {			define <4 x double> @test_v4f64_interp(<4 x double> %x, <4 x double> %y, <4 x double> %t) {
	; FMA-LABEL: test_v4f64_interp:			; FMA-LABEL: test_v4f64_interp:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfnmadd213pd %ymm1, %ymm2, %ymm1			; FMA-NEXT: vmovapd {{.*#+}} ymm3 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
				; FMA-NEXT: vsubpd %ymm2, %ymm3, %ymm3
				; FMA-NEXT: vmulpd %ymm3, %ymm1, %ymm1
	; FMA-NEXT: vfmadd213pd %ymm1, %ymm2, %ymm0			; FMA-NEXT: vfmadd213pd %ymm1, %ymm2, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v4f64_interp:			; FMA4-LABEL: test_v4f64_interp:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfnmaddpd %ymm1, %ymm1, %ymm2, %ymm1			; FMA4-NEXT: vmovapd {{.*#+}} ymm3 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
				; FMA4-NEXT: vsubpd %ymm2, %ymm3, %ymm3
				; FMA4-NEXT: vmulpd %ymm3, %ymm1, %ymm1
	; FMA4-NEXT: vfmaddpd %ymm1, %ymm2, %ymm0, %ymm0			; FMA4-NEXT: vfmaddpd %ymm1, %ymm2, %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_interp:			; AVX512-LABEL: test_v4f64_interp:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfnmadd213pd %ymm1, %ymm2, %ymm1			; AVX512-NEXT: vbroadcastsd {{.*}}(%rip), %ymm3
				; AVX512-NEXT: vsubpd %ymm2, %ymm3, %ymm3
				; AVX512-NEXT: vmulpd %ymm3, %ymm1, %ymm1
	; AVX512-NEXT: vfmadd213pd %ymm1, %ymm2, %ymm0			; AVX512-NEXT: vfmadd213pd %ymm1, %ymm2, %ymm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%t1 = fsub <4 x double> <double 1.0, double 1.0, double 1.0, double 1.0>, %t			%t1 = fsub <4 x double> <double 1.0, double 1.0, double 1.0, double 1.0>, %t
	%tx = fmul <4 x double> %x, %t			%tx = fmul <4 x double> %x, %t
	%ty = fmul <4 x double> %y, %t1			%ty = fmul <4 x double> %y, %t1
	%r = fadd <4 x double> %tx, %ty			%r = fadd <4 x double> %tx, %ty
	ret <4 x double> %r			ret <4 x double> %r
	}			}
	▲ Show 20 Lines • Show All 236 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/fma_patterns_wide.ll

	Show First 20 Lines • Show All 249 Lines • ▼ Show 20 Lines

	;			;
	; Patterns (+ fneg variants): mul(add(1.0,x),y), mul(sub(1.0,x),y), mul(sub(x,1.0),y)			; Patterns (+ fneg variants): mul(add(1.0,x),y), mul(sub(1.0,x),y), mul(sub(x,1.0),y)
	;			;

	define <16 x float> @test_v16f32_mul_add_x_one_y(<16 x float> %x, <16 x float> %y) {			define <16 x float> @test_v16f32_mul_add_x_one_y(<16 x float> %x, <16 x float> %y) {
	; FMA-LABEL: test_v16f32_mul_add_x_one_y:			; FMA-LABEL: test_v16f32_mul_add_x_one_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfmadd213ps %ymm2, %ymm2, %ymm0			; FMA-NEXT: vmovaps {{.*#+}} ymm4 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
	; FMA-NEXT: vfmadd213ps %ymm3, %ymm3, %ymm1			; FMA-NEXT: vaddps %ymm4, %ymm1, %ymm1
				; FMA-NEXT: vaddps %ymm4, %ymm0, %ymm0
				; FMA-NEXT: vmulps %ymm2, %ymm0, %ymm0
				; FMA-NEXT: vmulps %ymm3, %ymm1, %ymm1
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v16f32_mul_add_x_one_y:			; FMA4-LABEL: test_v16f32_mul_add_x_one_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfmaddps %ymm2, %ymm2, %ymm0, %ymm0			; FMA4-NEXT: vmovaps {{.*#+}} ymm4 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
	; FMA4-NEXT: vfmaddps %ymm3, %ymm3, %ymm1, %ymm1			; FMA4-NEXT: vaddps %ymm4, %ymm1, %ymm1
				; FMA4-NEXT: vaddps %ymm4, %ymm0, %ymm0
				; FMA4-NEXT: vmulps %ymm2, %ymm0, %ymm0
				; FMA4-NEXT: vmulps %ymm3, %ymm1, %ymm1
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_mul_add_x_one_y:			; AVX512-LABEL: test_v16f32_mul_add_x_one_y:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfmadd213ps %zmm1, %zmm1, %zmm0			; AVX512-NEXT: vaddps {{.*}}(%rip){1to16}, %zmm0, %zmm0
				; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%a = fadd <16 x float> %x, <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>			%a = fadd <16 x float> %x, <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>
	%m = fmul <16 x float> %a, %y			%m = fmul <16 x float> %a, %y
	ret <16 x float> %m			ret <16 x float> %m
	}			}

	define <8 x double> @test_v8f64_mul_y_add_x_one(<8 x double> %x, <8 x double> %y) {			define <8 x double> @test_v8f64_mul_y_add_x_one(<8 x double> %x, <8 x double> %y) {
	; FMA-LABEL: test_v8f64_mul_y_add_x_one:			; FMA-LABEL: test_v8f64_mul_y_add_x_one:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfmadd213pd %ymm2, %ymm2, %ymm0			; FMA-NEXT: vmovapd {{.*#+}} ymm4 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
	; FMA-NEXT: vfmadd213pd %ymm3, %ymm3, %ymm1			; FMA-NEXT: vaddpd %ymm4, %ymm1, %ymm1
				; FMA-NEXT: vaddpd %ymm4, %ymm0, %ymm0
				; FMA-NEXT: vmulpd %ymm0, %ymm2, %ymm0
				; FMA-NEXT: vmulpd %ymm1, %ymm3, %ymm1
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v8f64_mul_y_add_x_one:			; FMA4-LABEL: test_v8f64_mul_y_add_x_one:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfmaddpd %ymm2, %ymm2, %ymm0, %ymm0			; FMA4-NEXT: vmovapd {{.*#+}} ymm4 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
	; FMA4-NEXT: vfmaddpd %ymm3, %ymm3, %ymm1, %ymm1			; FMA4-NEXT: vaddpd %ymm4, %ymm1, %ymm1
				; FMA4-NEXT: vaddpd %ymm4, %ymm0, %ymm0
				; FMA4-NEXT: vmulpd %ymm0, %ymm2, %ymm0
				; FMA4-NEXT: vmulpd %ymm1, %ymm3, %ymm1
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_mul_y_add_x_one:			; AVX512-LABEL: test_v8f64_mul_y_add_x_one:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfmadd213pd %zmm1, %zmm1, %zmm0			; AVX512-NEXT: vaddpd {{.*}}(%rip){1to8}, %zmm0, %zmm0
				; AVX512-NEXT: vmulpd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%a = fadd <8 x double> %x, <double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0>			%a = fadd <8 x double> %x, <double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0>
	%m = fmul <8 x double> %y, %a			%m = fmul <8 x double> %y, %a
	ret <8 x double> %m			ret <8 x double> %m
	}			}

	define <16 x float> @test_v16f32_mul_add_x_negone_y(<16 x float> %x, <16 x float> %y) {			define <16 x float> @test_v16f32_mul_add_x_negone_y(<16 x float> %x, <16 x float> %y) {
	; FMA-LABEL: test_v16f32_mul_add_x_negone_y:			; FMA-LABEL: test_v16f32_mul_add_x_negone_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfmsub213ps %ymm2, %ymm2, %ymm0			; FMA-NEXT: vmovaps {{.*#+}} ymm4 = [-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00]
	; FMA-NEXT: vfmsub213ps %ymm3, %ymm3, %ymm1			; FMA-NEXT: vaddps %ymm4, %ymm1, %ymm1
				; FMA-NEXT: vaddps %ymm4, %ymm0, %ymm0
				; FMA-NEXT: vmulps %ymm2, %ymm0, %ymm0
				; FMA-NEXT: vmulps %ymm3, %ymm1, %ymm1
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v16f32_mul_add_x_negone_y:			; FMA4-LABEL: test_v16f32_mul_add_x_negone_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfmsubps %ymm2, %ymm2, %ymm0, %ymm0			; FMA4-NEXT: vmovaps {{.*#+}} ymm4 = [-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00]
	; FMA4-NEXT: vfmsubps %ymm3, %ymm3, %ymm1, %ymm1			; FMA4-NEXT: vaddps %ymm4, %ymm1, %ymm1
				; FMA4-NEXT: vaddps %ymm4, %ymm0, %ymm0
				; FMA4-NEXT: vmulps %ymm2, %ymm0, %ymm0
				; FMA4-NEXT: vmulps %ymm3, %ymm1, %ymm1
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_mul_add_x_negone_y:			; AVX512-LABEL: test_v16f32_mul_add_x_negone_y:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfmsub213ps %zmm1, %zmm1, %zmm0			; AVX512-NEXT: vaddps {{.*}}(%rip){1to16}, %zmm0, %zmm0
				; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%a = fadd <16 x float> %x, <float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0>			%a = fadd <16 x float> %x, <float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0>
	%m = fmul <16 x float> %a, %y			%m = fmul <16 x float> %a, %y
	ret <16 x float> %m			ret <16 x float> %m
	}			}

	define <8 x double> @test_v8f64_mul_y_add_x_negone(<8 x double> %x, <8 x double> %y) {			define <8 x double> @test_v8f64_mul_y_add_x_negone(<8 x double> %x, <8 x double> %y) {
	; FMA-LABEL: test_v8f64_mul_y_add_x_negone:			; FMA-LABEL: test_v8f64_mul_y_add_x_negone:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfmsub213pd %ymm2, %ymm2, %ymm0			; FMA-NEXT: vmovapd {{.*#+}} ymm4 = [-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00]
	; FMA-NEXT: vfmsub213pd %ymm3, %ymm3, %ymm1			; FMA-NEXT: vaddpd %ymm4, %ymm1, %ymm1
				; FMA-NEXT: vaddpd %ymm4, %ymm0, %ymm0
				; FMA-NEXT: vmulpd %ymm0, %ymm2, %ymm0
				; FMA-NEXT: vmulpd %ymm1, %ymm3, %ymm1
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v8f64_mul_y_add_x_negone:			; FMA4-LABEL: test_v8f64_mul_y_add_x_negone:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfmsubpd %ymm2, %ymm2, %ymm0, %ymm0			; FMA4-NEXT: vmovapd {{.*#+}} ymm4 = [-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00]
	; FMA4-NEXT: vfmsubpd %ymm3, %ymm3, %ymm1, %ymm1			; FMA4-NEXT: vaddpd %ymm4, %ymm1, %ymm1
				; FMA4-NEXT: vaddpd %ymm4, %ymm0, %ymm0
				; FMA4-NEXT: vmulpd %ymm0, %ymm2, %ymm0
				; FMA4-NEXT: vmulpd %ymm1, %ymm3, %ymm1
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_mul_y_add_x_negone:			; AVX512-LABEL: test_v8f64_mul_y_add_x_negone:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfmsub213pd %zmm1, %zmm1, %zmm0			; AVX512-NEXT: vaddpd {{.*}}(%rip){1to8}, %zmm0, %zmm0
				; AVX512-NEXT: vmulpd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%a = fadd <8 x double> %x, <double -1.0, double -1.0, double -1.0, double -1.0, double -1.0, double -1.0, double -1.0, double -1.0>			%a = fadd <8 x double> %x, <double -1.0, double -1.0, double -1.0, double -1.0, double -1.0, double -1.0, double -1.0, double -1.0>
	%m = fmul <8 x double> %y, %a			%m = fmul <8 x double> %y, %a
	ret <8 x double> %m			ret <8 x double> %m
	}			}

	define <16 x float> @test_v16f32_mul_sub_one_x_y(<16 x float> %x, <16 x float> %y) {			define <16 x float> @test_v16f32_mul_sub_one_x_y(<16 x float> %x, <16 x float> %y) {
	; FMA-LABEL: test_v16f32_mul_sub_one_x_y:			; FMA-LABEL: test_v16f32_mul_sub_one_x_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfnmadd213ps %ymm2, %ymm2, %ymm0			; FMA-NEXT: vmovaps {{.*#+}} ymm4 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
	; FMA-NEXT: vfnmadd213ps %ymm3, %ymm3, %ymm1			; FMA-NEXT: vsubps %ymm1, %ymm4, %ymm1
				; FMA-NEXT: vsubps %ymm0, %ymm4, %ymm0
				; FMA-NEXT: vmulps %ymm2, %ymm0, %ymm0
				; FMA-NEXT: vmulps %ymm3, %ymm1, %ymm1
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v16f32_mul_sub_one_x_y:			; FMA4-LABEL: test_v16f32_mul_sub_one_x_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfnmaddps %ymm2, %ymm2, %ymm0, %ymm0			; FMA4-NEXT: vmovaps {{.*#+}} ymm4 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
	; FMA4-NEXT: vfnmaddps %ymm3, %ymm3, %ymm1, %ymm1			; FMA4-NEXT: vsubps %ymm1, %ymm4, %ymm1
				; FMA4-NEXT: vsubps %ymm0, %ymm4, %ymm0
				; FMA4-NEXT: vmulps %ymm2, %ymm0, %ymm0
				; FMA4-NEXT: vmulps %ymm3, %ymm1, %ymm1
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_mul_sub_one_x_y:			; AVX512-LABEL: test_v16f32_mul_sub_one_x_y:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfnmadd213ps %zmm1, %zmm1, %zmm0			; AVX512-NEXT: vbroadcastss {{.*}}(%rip), %zmm2
				; AVX512-NEXT: vsubps %zmm0, %zmm2, %zmm0
				; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%s = fsub <16 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %x			%s = fsub <16 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %x
	%m = fmul <16 x float> %s, %y			%m = fmul <16 x float> %s, %y
	ret <16 x float> %m			ret <16 x float> %m
	}			}

	define <8 x double> @test_v8f64_mul_y_sub_one_x(<8 x double> %x, <8 x double> %y) {			define <8 x double> @test_v8f64_mul_y_sub_one_x(<8 x double> %x, <8 x double> %y) {
	; FMA-LABEL: test_v8f64_mul_y_sub_one_x:			; FMA-LABEL: test_v8f64_mul_y_sub_one_x:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfnmadd213pd %ymm2, %ymm2, %ymm0			; FMA-NEXT: vmovapd {{.*#+}} ymm4 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
	; FMA-NEXT: vfnmadd213pd %ymm3, %ymm3, %ymm1			; FMA-NEXT: vsubpd %ymm1, %ymm4, %ymm1
				; FMA-NEXT: vsubpd %ymm0, %ymm4, %ymm0
				; FMA-NEXT: vmulpd %ymm0, %ymm2, %ymm0
				; FMA-NEXT: vmulpd %ymm1, %ymm3, %ymm1
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v8f64_mul_y_sub_one_x:			; FMA4-LABEL: test_v8f64_mul_y_sub_one_x:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfnmaddpd %ymm2, %ymm2, %ymm0, %ymm0			; FMA4-NEXT: vmovapd {{.*#+}} ymm4 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
	; FMA4-NEXT: vfnmaddpd %ymm3, %ymm3, %ymm1, %ymm1			; FMA4-NEXT: vsubpd %ymm1, %ymm4, %ymm1
				; FMA4-NEXT: vsubpd %ymm0, %ymm4, %ymm0
				; FMA4-NEXT: vmulpd %ymm0, %ymm2, %ymm0
				; FMA4-NEXT: vmulpd %ymm1, %ymm3, %ymm1
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_mul_y_sub_one_x:			; AVX512-LABEL: test_v8f64_mul_y_sub_one_x:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfnmadd213pd %zmm1, %zmm1, %zmm0			; AVX512-NEXT: vbroadcastsd {{.*}}(%rip), %zmm2
				; AVX512-NEXT: vsubpd %zmm0, %zmm2, %zmm0
				; AVX512-NEXT: vmulpd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%s = fsub <8 x double> <double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0>, %x			%s = fsub <8 x double> <double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0>, %x
	%m = fmul <8 x double> %y, %s			%m = fmul <8 x double> %y, %s
	ret <8 x double> %m			ret <8 x double> %m
	}			}

	define <16 x float> @test_v16f32_mul_sub_negone_x_y(<16 x float> %x, <16 x float> %y) {			define <16 x float> @test_v16f32_mul_sub_negone_x_y(<16 x float> %x, <16 x float> %y) {
	; FMA-LABEL: test_v16f32_mul_sub_negone_x_y:			; FMA-LABEL: test_v16f32_mul_sub_negone_x_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfnmsub213ps %ymm2, %ymm2, %ymm0			; FMA-NEXT: vmovaps {{.*#+}} ymm4 = [-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00]
	; FMA-NEXT: vfnmsub213ps %ymm3, %ymm3, %ymm1			; FMA-NEXT: vsubps %ymm1, %ymm4, %ymm1
				; FMA-NEXT: vsubps %ymm0, %ymm4, %ymm0
				; FMA-NEXT: vmulps %ymm2, %ymm0, %ymm0
				; FMA-NEXT: vmulps %ymm3, %ymm1, %ymm1
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v16f32_mul_sub_negone_x_y:			; FMA4-LABEL: test_v16f32_mul_sub_negone_x_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfnmsubps %ymm2, %ymm2, %ymm0, %ymm0			; FMA4-NEXT: vmovaps {{.*#+}} ymm4 = [-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00]
	; FMA4-NEXT: vfnmsubps %ymm3, %ymm3, %ymm1, %ymm1			; FMA4-NEXT: vsubps %ymm1, %ymm4, %ymm1
				; FMA4-NEXT: vsubps %ymm0, %ymm4, %ymm0
				; FMA4-NEXT: vmulps %ymm2, %ymm0, %ymm0
				; FMA4-NEXT: vmulps %ymm3, %ymm1, %ymm1
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_mul_sub_negone_x_y:			; AVX512-LABEL: test_v16f32_mul_sub_negone_x_y:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfnmsub213ps %zmm1, %zmm1, %zmm0			; AVX512-NEXT: vbroadcastss {{.*}}(%rip), %zmm2
				; AVX512-NEXT: vsubps %zmm0, %zmm2, %zmm0
				; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%s = fsub <16 x float> <float -1.0, float -1.0, float -1.0, float -1.0,float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0>, %x			%s = fsub <16 x float> <float -1.0, float -1.0, float -1.0, float -1.0,float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0>, %x
	%m = fmul <16 x float> %s, %y			%m = fmul <16 x float> %s, %y
	ret <16 x float> %m			ret <16 x float> %m
	}			}

	define <8 x double> @test_v8f64_mul_y_sub_negone_x(<8 x double> %x, <8 x double> %y) {			define <8 x double> @test_v8f64_mul_y_sub_negone_x(<8 x double> %x, <8 x double> %y) {
	; FMA-LABEL: test_v8f64_mul_y_sub_negone_x:			; FMA-LABEL: test_v8f64_mul_y_sub_negone_x:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfnmsub213pd %ymm2, %ymm2, %ymm0			; FMA-NEXT: vmovapd {{.*#+}} ymm4 = [-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00]
	; FMA-NEXT: vfnmsub213pd %ymm3, %ymm3, %ymm1			; FMA-NEXT: vsubpd %ymm1, %ymm4, %ymm1
				; FMA-NEXT: vsubpd %ymm0, %ymm4, %ymm0
				; FMA-NEXT: vmulpd %ymm0, %ymm2, %ymm0
				; FMA-NEXT: vmulpd %ymm1, %ymm3, %ymm1
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v8f64_mul_y_sub_negone_x:			; FMA4-LABEL: test_v8f64_mul_y_sub_negone_x:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfnmsubpd %ymm2, %ymm2, %ymm0, %ymm0			; FMA4-NEXT: vmovapd {{.*#+}} ymm4 = [-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00]
	; FMA4-NEXT: vfnmsubpd %ymm3, %ymm3, %ymm1, %ymm1			; FMA4-NEXT: vsubpd %ymm1, %ymm4, %ymm1
				; FMA4-NEXT: vsubpd %ymm0, %ymm4, %ymm0
				; FMA4-NEXT: vmulpd %ymm0, %ymm2, %ymm0
				; FMA4-NEXT: vmulpd %ymm1, %ymm3, %ymm1
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_mul_y_sub_negone_x:			; AVX512-LABEL: test_v8f64_mul_y_sub_negone_x:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfnmsub213pd %zmm1, %zmm1, %zmm0			; AVX512-NEXT: vbroadcastsd {{.*}}(%rip), %zmm2
				; AVX512-NEXT: vsubpd %zmm0, %zmm2, %zmm0
				; AVX512-NEXT: vmulpd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%s = fsub <8 x double> <double -1.0, double -1.0, double -1.0, double -1.0, double -1.0, double -1.0, double -1.0, double -1.0>, %x			%s = fsub <8 x double> <double -1.0, double -1.0, double -1.0, double -1.0, double -1.0, double -1.0, double -1.0, double -1.0>, %x
	%m = fmul <8 x double> %y, %s			%m = fmul <8 x double> %y, %s
	ret <8 x double> %m			ret <8 x double> %m
	}			}

	define <16 x float> @test_v16f32_mul_sub_x_one_y(<16 x float> %x, <16 x float> %y) {			define <16 x float> @test_v16f32_mul_sub_x_one_y(<16 x float> %x, <16 x float> %y) {
	; FMA-LABEL: test_v16f32_mul_sub_x_one_y:			; FMA-LABEL: test_v16f32_mul_sub_x_one_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfmsub213ps %ymm2, %ymm2, %ymm0			; FMA-NEXT: vmovaps {{.*#+}} ymm4 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
	; FMA-NEXT: vfmsub213ps %ymm3, %ymm3, %ymm1			; FMA-NEXT: vsubps %ymm4, %ymm1, %ymm1
				; FMA-NEXT: vsubps %ymm4, %ymm0, %ymm0
				; FMA-NEXT: vmulps %ymm2, %ymm0, %ymm0
				; FMA-NEXT: vmulps %ymm3, %ymm1, %ymm1
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v16f32_mul_sub_x_one_y:			; FMA4-LABEL: test_v16f32_mul_sub_x_one_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfmsubps %ymm2, %ymm2, %ymm0, %ymm0			; FMA4-NEXT: vmovaps {{.*#+}} ymm4 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
	; FMA4-NEXT: vfmsubps %ymm3, %ymm3, %ymm1, %ymm1			; FMA4-NEXT: vsubps %ymm4, %ymm1, %ymm1
				; FMA4-NEXT: vsubps %ymm4, %ymm0, %ymm0
				; FMA4-NEXT: vmulps %ymm2, %ymm0, %ymm0
				; FMA4-NEXT: vmulps %ymm3, %ymm1, %ymm1
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_mul_sub_x_one_y:			; AVX512-LABEL: test_v16f32_mul_sub_x_one_y:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfmsub213ps %zmm1, %zmm1, %zmm0			; AVX512-NEXT: vsubps {{.*}}(%rip){1to16}, %zmm0, %zmm0
				; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%s = fsub <16 x float> %x, <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>			%s = fsub <16 x float> %x, <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>
	%m = fmul <16 x float> %s, %y			%m = fmul <16 x float> %s, %y
	ret <16 x float> %m			ret <16 x float> %m
	}			}

	define <8 x double> @test_v8f64_mul_y_sub_x_one(<8 x double> %x, <8 x double> %y) {			define <8 x double> @test_v8f64_mul_y_sub_x_one(<8 x double> %x, <8 x double> %y) {
	; FMA-LABEL: test_v8f64_mul_y_sub_x_one:			; FMA-LABEL: test_v8f64_mul_y_sub_x_one:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfmsub213pd %ymm2, %ymm2, %ymm0			; FMA-NEXT: vmovapd {{.*#+}} ymm4 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
	; FMA-NEXT: vfmsub213pd %ymm3, %ymm3, %ymm1			; FMA-NEXT: vsubpd %ymm4, %ymm1, %ymm1
				; FMA-NEXT: vsubpd %ymm4, %ymm0, %ymm0
				; FMA-NEXT: vmulpd %ymm0, %ymm2, %ymm0
				; FMA-NEXT: vmulpd %ymm1, %ymm3, %ymm1
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v8f64_mul_y_sub_x_one:			; FMA4-LABEL: test_v8f64_mul_y_sub_x_one:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfmsubpd %ymm2, %ymm2, %ymm0, %ymm0			; FMA4-NEXT: vmovapd {{.*#+}} ymm4 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
	; FMA4-NEXT: vfmsubpd %ymm3, %ymm3, %ymm1, %ymm1			; FMA4-NEXT: vsubpd %ymm4, %ymm1, %ymm1
				; FMA4-NEXT: vsubpd %ymm4, %ymm0, %ymm0
				; FMA4-NEXT: vmulpd %ymm0, %ymm2, %ymm0
				; FMA4-NEXT: vmulpd %ymm1, %ymm3, %ymm1
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_mul_y_sub_x_one:			; AVX512-LABEL: test_v8f64_mul_y_sub_x_one:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfmsub213pd %zmm1, %zmm1, %zmm0			; AVX512-NEXT: vsubpd {{.*}}(%rip){1to8}, %zmm0, %zmm0
				; AVX512-NEXT: vmulpd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%s = fsub <8 x double> %x, <double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0>			%s = fsub <8 x double> %x, <double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0>
	%m = fmul <8 x double> %y, %s			%m = fmul <8 x double> %y, %s
	ret <8 x double> %m			ret <8 x double> %m
	}			}

	define <16 x float> @test_v16f32_mul_sub_x_negone_y(<16 x float> %x, <16 x float> %y) {			define <16 x float> @test_v16f32_mul_sub_x_negone_y(<16 x float> %x, <16 x float> %y) {
	; FMA-LABEL: test_v16f32_mul_sub_x_negone_y:			; FMA-LABEL: test_v16f32_mul_sub_x_negone_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfmadd213ps %ymm2, %ymm2, %ymm0			; FMA-NEXT: vmovaps {{.*#+}} ymm4 = [-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00]
	; FMA-NEXT: vfmadd213ps %ymm3, %ymm3, %ymm1			; FMA-NEXT: vsubps %ymm4, %ymm1, %ymm1
				; FMA-NEXT: vsubps %ymm4, %ymm0, %ymm0
				; FMA-NEXT: vmulps %ymm2, %ymm0, %ymm0
				; FMA-NEXT: vmulps %ymm3, %ymm1, %ymm1
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v16f32_mul_sub_x_negone_y:			; FMA4-LABEL: test_v16f32_mul_sub_x_negone_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfmaddps %ymm2, %ymm2, %ymm0, %ymm0			; FMA4-NEXT: vmovaps {{.*#+}} ymm4 = [-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00]
	; FMA4-NEXT: vfmaddps %ymm3, %ymm3, %ymm1, %ymm1			; FMA4-NEXT: vsubps %ymm4, %ymm1, %ymm1
				; FMA4-NEXT: vsubps %ymm4, %ymm0, %ymm0
				; FMA4-NEXT: vmulps %ymm2, %ymm0, %ymm0
				; FMA4-NEXT: vmulps %ymm3, %ymm1, %ymm1
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_mul_sub_x_negone_y:			; AVX512-LABEL: test_v16f32_mul_sub_x_negone_y:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfmadd213ps %zmm1, %zmm1, %zmm0			; AVX512-NEXT: vsubps {{.*}}(%rip){1to16}, %zmm0, %zmm0
				; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%s = fsub <16 x float> %x, <float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0>			%s = fsub <16 x float> %x, <float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0, float -1.0>
	%m = fmul <16 x float> %s, %y			%m = fmul <16 x float> %s, %y
	ret <16 x float> %m			ret <16 x float> %m
	}			}

	define <8 x double> @test_v8f64_mul_y_sub_x_negone(<8 x double> %x, <8 x double> %y) {			define <8 x double> @test_v8f64_mul_y_sub_x_negone(<8 x double> %x, <8 x double> %y) {
	; FMA-LABEL: test_v8f64_mul_y_sub_x_negone:			; FMA-LABEL: test_v8f64_mul_y_sub_x_negone:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfmadd213pd %ymm2, %ymm2, %ymm0			; FMA-NEXT: vmovapd {{.*#+}} ymm4 = [-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00]
	; FMA-NEXT: vfmadd213pd %ymm3, %ymm3, %ymm1			; FMA-NEXT: vsubpd %ymm4, %ymm1, %ymm1
				; FMA-NEXT: vsubpd %ymm4, %ymm0, %ymm0
				; FMA-NEXT: vmulpd %ymm0, %ymm2, %ymm0
				; FMA-NEXT: vmulpd %ymm1, %ymm3, %ymm1
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v8f64_mul_y_sub_x_negone:			; FMA4-LABEL: test_v8f64_mul_y_sub_x_negone:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfmaddpd %ymm2, %ymm2, %ymm0, %ymm0			; FMA4-NEXT: vmovapd {{.*#+}} ymm4 = [-1.000000e+00,-1.000000e+00,-1.000000e+00,-1.000000e+00]
	; FMA4-NEXT: vfmaddpd %ymm3, %ymm3, %ymm1, %ymm1			; FMA4-NEXT: vsubpd %ymm4, %ymm1, %ymm1
				; FMA4-NEXT: vsubpd %ymm4, %ymm0, %ymm0
				; FMA4-NEXT: vmulpd %ymm0, %ymm2, %ymm0
				; FMA4-NEXT: vmulpd %ymm1, %ymm3, %ymm1
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_mul_y_sub_x_negone:			; AVX512-LABEL: test_v8f64_mul_y_sub_x_negone:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfmadd213pd %zmm1, %zmm1, %zmm0			; AVX512-NEXT: vsubpd {{.*}}(%rip){1to8}, %zmm0, %zmm0
				; AVX512-NEXT: vmulpd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%s = fsub <8 x double> %x, <double -1.0, double -1.0, double -1.0, double -1.0, double -1.0, double -1.0, double -1.0, double -1.0>			%s = fsub <8 x double> %x, <double -1.0, double -1.0, double -1.0, double -1.0, double -1.0, double -1.0, double -1.0, double -1.0>
	%m = fmul <8 x double> %y, %s			%m = fmul <8 x double> %y, %s
	ret <8 x double> %m			ret <8 x double> %m
	}			}

	;			;
	; Interpolation Patterns: add(mul(x,t),mul(sub(1.0,t),y))			; Interpolation Patterns: add(mul(x,t),mul(sub(1.0,t),y))
	;			;

	define <16 x float> @test_v16f32_interp(<16 x float> %x, <16 x float> %y, <16 x float> %t) {			define <16 x float> @test_v16f32_interp(<16 x float> %x, <16 x float> %y, <16 x float> %t) {
	; FMA-LABEL: test_v16f32_interp:			; FMA-LABEL: test_v16f32_interp:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfnmadd213ps %ymm3, %ymm5, %ymm3			; FMA-NEXT: vmovaps {{.*#+}} ymm6 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
	; FMA-NEXT: vfnmadd213ps %ymm2, %ymm4, %ymm2			; FMA-NEXT: vsubps %ymm4, %ymm6, %ymm7
				; FMA-NEXT: vsubps %ymm5, %ymm6, %ymm6
				; FMA-NEXT: vmulps %ymm6, %ymm3, %ymm3
				; FMA-NEXT: vmulps %ymm7, %ymm2, %ymm2
	; FMA-NEXT: vfmadd213ps %ymm2, %ymm4, %ymm0			; FMA-NEXT: vfmadd213ps %ymm2, %ymm4, %ymm0
	; FMA-NEXT: vfmadd213ps %ymm3, %ymm5, %ymm1			; FMA-NEXT: vfmadd213ps %ymm3, %ymm5, %ymm1
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v16f32_interp:			; FMA4-LABEL: test_v16f32_interp:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfnmaddps %ymm3, %ymm3, %ymm5, %ymm3			; FMA4-NEXT: vmovaps {{.*#+}} ymm6 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
	; FMA4-NEXT: vfnmaddps %ymm2, %ymm2, %ymm4, %ymm2			; FMA4-NEXT: vsubps %ymm4, %ymm6, %ymm7
				; FMA4-NEXT: vsubps %ymm5, %ymm6, %ymm6
				; FMA4-NEXT: vmulps %ymm6, %ymm3, %ymm3
				; FMA4-NEXT: vmulps %ymm7, %ymm2, %ymm2
	; FMA4-NEXT: vfmaddps %ymm2, %ymm4, %ymm0, %ymm0			; FMA4-NEXT: vfmaddps %ymm2, %ymm4, %ymm0, %ymm0
	; FMA4-NEXT: vfmaddps %ymm3, %ymm5, %ymm1, %ymm1			; FMA4-NEXT: vfmaddps %ymm3, %ymm5, %ymm1, %ymm1
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_interp:			; AVX512-LABEL: test_v16f32_interp:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfnmadd213ps %zmm1, %zmm2, %zmm1			; AVX512-NEXT: vbroadcastss {{.*}}(%rip), %zmm3
				; AVX512-NEXT: vsubps %zmm2, %zmm3, %zmm3
				; AVX512-NEXT: vmulps %zmm3, %zmm1, %zmm1
	; AVX512-NEXT: vfmadd213ps %zmm1, %zmm2, %zmm0			; AVX512-NEXT: vfmadd213ps %zmm1, %zmm2, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%t1 = fsub <16 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %t			%t1 = fsub <16 x float> <float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0, float 1.0>, %t
	%tx = fmul <16 x float> %x, %t			%tx = fmul <16 x float> %x, %t
	%ty = fmul <16 x float> %y, %t1			%ty = fmul <16 x float> %y, %t1
	%r = fadd <16 x float> %tx, %ty			%r = fadd <16 x float> %tx, %ty
	ret <16 x float> %r			ret <16 x float> %r
	}			}

	define <8 x double> @test_v8f64_interp(<8 x double> %x, <8 x double> %y, <8 x double> %t) {			define <8 x double> @test_v8f64_interp(<8 x double> %x, <8 x double> %y, <8 x double> %t) {
	; FMA-LABEL: test_v8f64_interp:			; FMA-LABEL: test_v8f64_interp:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vfnmadd213pd %ymm3, %ymm5, %ymm3			; FMA-NEXT: vmovapd {{.*#+}} ymm6 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
	; FMA-NEXT: vfnmadd213pd %ymm2, %ymm4, %ymm2			; FMA-NEXT: vsubpd %ymm4, %ymm6, %ymm7
				; FMA-NEXT: vsubpd %ymm5, %ymm6, %ymm6
				; FMA-NEXT: vmulpd %ymm6, %ymm3, %ymm3
				; FMA-NEXT: vmulpd %ymm7, %ymm2, %ymm2
	; FMA-NEXT: vfmadd213pd %ymm2, %ymm4, %ymm0			; FMA-NEXT: vfmadd213pd %ymm2, %ymm4, %ymm0
	; FMA-NEXT: vfmadd213pd %ymm3, %ymm5, %ymm1			; FMA-NEXT: vfmadd213pd %ymm3, %ymm5, %ymm1
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;			;
	; FMA4-LABEL: test_v8f64_interp:			; FMA4-LABEL: test_v8f64_interp:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vfnmaddpd %ymm3, %ymm3, %ymm5, %ymm3			; FMA4-NEXT: vmovapd {{.*#+}} ymm6 = [1.000000e+00,1.000000e+00,1.000000e+00,1.000000e+00]
	; FMA4-NEXT: vfnmaddpd %ymm2, %ymm2, %ymm4, %ymm2			; FMA4-NEXT: vsubpd %ymm4, %ymm6, %ymm7
				; FMA4-NEXT: vsubpd %ymm5, %ymm6, %ymm6
				; FMA4-NEXT: vmulpd %ymm6, %ymm3, %ymm3
				; FMA4-NEXT: vmulpd %ymm7, %ymm2, %ymm2
	; FMA4-NEXT: vfmaddpd %ymm2, %ymm4, %ymm0, %ymm0			; FMA4-NEXT: vfmaddpd %ymm2, %ymm4, %ymm0, %ymm0
	; FMA4-NEXT: vfmaddpd %ymm3, %ymm5, %ymm1, %ymm1			; FMA4-NEXT: vfmaddpd %ymm3, %ymm5, %ymm1, %ymm1
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_interp:			; AVX512-LABEL: test_v8f64_interp:
	; AVX512: # BB#0:			; AVX512: # BB#0:
	; AVX512-NEXT: vfnmadd213pd %zmm1, %zmm2, %zmm1			; AVX512-NEXT: vbroadcastsd {{.*}}(%rip), %zmm3
				; AVX512-NEXT: vsubpd %zmm2, %zmm3, %zmm3
				; AVX512-NEXT: vmulpd %zmm3, %zmm1, %zmm1
	; AVX512-NEXT: vfmadd213pd %zmm1, %zmm2, %zmm0			; AVX512-NEXT: vfmadd213pd %zmm1, %zmm2, %zmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%t1 = fsub <8 x double> <double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0>, %t			%t1 = fsub <8 x double> <double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0, double 1.0>, %t
	%tx = fmul <8 x double> %x, %t			%tx = fmul <8 x double> %x, %t
	%ty = fmul <8 x double> %y, %t1			%ty = fmul <8 x double> %y, %t1
	%r = fadd <8 x double> %tx, %ty			%r = fadd <8 x double> %tx, %ty
	ret <8 x double> %r			ret <8 x double> %r
	}			}
	▲ Show 20 Lines • Show All 235 Lines • Show Last 20 Lines