This is an archive of the discontinued LLVM Phabricator instance.

[X86] Add separate intrinsics for scalar FMA4 instructions.
ClosedPublic

Authored by craig.topper on Nov 9 2017, 10:34 AM.

Download Raw Diff

Details

Reviewers

RKSimon
spatel

Commits

rGe485631cd148: [X86] Add separate intrinsics for scalar FMA4 instructions.
rL318984: [X86] Add separate intrinsics for scalar FMA4 instructions.

Summary

These instructions zero the non-scalar part of the lower 128-bits which makes them different than the FMA3 instructions which pass through the non-scalar part of the lower 128-bits.

I've only added fmadd because we should be able to derive all other variants using operand negation in the intrinsic header like we do for AVX512.

I think there are still some missed negate folding opportunities with the FMA4 instructions in light of this behavior difference that I hadn't noticed before.

I've split the tests so that we can use different intrinsics for scalar testing between the two. I just copied the tests split the RUN lines and changed out the scalar intrinsics.

fma4-fneg-combine.ll is a new test to make sure we negate the fma4 intrinsics correctly though there are a couple TODOs in it.

Diff Detail

Build Status

Buildable 12013
Build 12013: arc lint + arc unit

Event Timeline

craig.topper created this revision.Nov 9 2017, 10:34 AM

craig.topper edited the summary of this revision. (Show Details)Nov 9 2017, 10:35 AM

craig.topper added reviewers: RKSimon, spatel.

Gather optimization

Remove accidental update

Ping

RKSimon added inline comments.Nov 25 2017, 9:08 AM

lib/Target/X86/X86Subtarget.h
466	This change concerns me - bdver2/bdver3 both support FMA3 as well as FMA4 but via a microcoding hack that costs extra cycles to perform, hence the preference for FMA4.
test/CodeGen/X86/fma4-fneg-combine.ll
3	Add -mattr=+fma4,+fma tests as well?
test/CodeGen/X86/fma4-intrinsics-x86.ll
3	Add -mattr=+fma4,+fma tests as well?

craig.topper added inline comments.Nov 25 2017, 9:57 AM

lib/Target/X86/X86Subtarget.h
466	I'm still giving priority to FMA4 for the generic fma intrinsic and the packed x86 intrinsics, I'm just doing it by including NoFMA4 in the "Requires" line in X86InstrFormats.td now.

LGTM - please still add +fma4,+fma tests.

This revision is now accepted and ready to land.Nov 25 2017, 10:02 AM

Closed by commit rL318984: [X86] Add separate intrinsics for scalar FMA4 instructions. (authored by ctopper). · Explain WhyNov 25 2017, 10:33 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

include/

llvm/

IR/

IntrinsicsX86.td

8 lines

lib/

Target/

X86/

3 lines

12 lines

44 lines

10 lines

X86InstrFragmentsSIMD.td

6 lines

X86InstrInfo.td

1 line

X86IntrinsicsInfo.h

2 lines

X86Subtarget.h

2 lines

test/

CodeGen/

X86/

fma-commute-x86.ll

441 lines

fma-intrinsics-x86.ll

201 lines

fma-scalar-memfold.ll

113 lines

	fma4-commute-x86.ll
	fma-commute-x86.ll

661 lines

fma4-fneg-combine.ll

110 lines

fma4-intrinsics-x86.ll

288 lines

fma4-intrinsics-x86_64-folded-load.ll

28 lines

fma4-scalar-memfold.ll

104 lines

Diff 122269

include/llvm/IR/IntrinsicsX86.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 2,173 Lines • ▼ Show 20 Lines	let TargetPrefix = "x86" in { // All intrinsics start with "llvm.x86.".
def int_x86_fma_vfmadd_ss : GCCBuiltin<"__builtin_ia32_vfmaddss3">,		def int_x86_fma_vfmadd_ss : GCCBuiltin<"__builtin_ia32_vfmaddss3">,
Intrinsic<[llvm_v4f32_ty],		Intrinsic<[llvm_v4f32_ty],
[llvm_v4f32_ty, llvm_v4f32_ty, llvm_v4f32_ty],		[llvm_v4f32_ty, llvm_v4f32_ty, llvm_v4f32_ty],
[IntrNoMem]>;		[IntrNoMem]>;
def int_x86_fma_vfmadd_sd : GCCBuiltin<"__builtin_ia32_vfmaddsd3">,		def int_x86_fma_vfmadd_sd : GCCBuiltin<"__builtin_ia32_vfmaddsd3">,
Intrinsic<[llvm_v2f64_ty],		Intrinsic<[llvm_v2f64_ty],
[llvm_v2f64_ty, llvm_v2f64_ty, llvm_v2f64_ty],		[llvm_v2f64_ty, llvm_v2f64_ty, llvm_v2f64_ty],
[IntrNoMem]>;		[IntrNoMem]>;
		def int_x86_fma4_vfmadd_ss : GCCBuiltin<"__builtin_ia32_vfmaddss">,
		Intrinsic<[llvm_v4f32_ty],
		[llvm_v4f32_ty, llvm_v4f32_ty, llvm_v4f32_ty],
		[IntrNoMem]>;
		def int_x86_fma4_vfmadd_sd : GCCBuiltin<"__builtin_ia32_vfmaddsd">,
		Intrinsic<[llvm_v2f64_ty],
		[llvm_v2f64_ty, llvm_v2f64_ty, llvm_v2f64_ty],
		[IntrNoMem]>;
def int_x86_fma_vfmadd_ps : GCCBuiltin<"__builtin_ia32_vfmaddps">,		def int_x86_fma_vfmadd_ps : GCCBuiltin<"__builtin_ia32_vfmaddps">,
Intrinsic<[llvm_v4f32_ty],		Intrinsic<[llvm_v4f32_ty],
[llvm_v4f32_ty, llvm_v4f32_ty, llvm_v4f32_ty],		[llvm_v4f32_ty, llvm_v4f32_ty, llvm_v4f32_ty],
[IntrNoMem]>;		[IntrNoMem]>;
def int_x86_fma_vfmadd_pd : GCCBuiltin<"__builtin_ia32_vfmaddpd">,		def int_x86_fma_vfmadd_pd : GCCBuiltin<"__builtin_ia32_vfmaddpd">,
Intrinsic<[llvm_v2f64_ty],		Intrinsic<[llvm_v2f64_ty],
[llvm_v2f64_ty, llvm_v2f64_ty, llvm_v2f64_ty],		[llvm_v2f64_ty, llvm_v2f64_ty, llvm_v2f64_ty],
[IntrNoMem]>;		[IntrNoMem]>;
▲ Show 20 Lines • Show All 3,857 Lines • Show Last 20 Lines

lib/Target/X86/X86ISelLowering.h

Show First 20 Lines • Show All 483 Lines • ▼ Show 20 Lines	enum NodeType : unsigned {
// FMA with rounding mode.		// FMA with rounding mode.
FMADD_RND,		FMADD_RND,
FNMADD_RND,		FNMADD_RND,
FMSUB_RND,		FMSUB_RND,
FNMSUB_RND,		FNMSUB_RND,
FMADDSUB_RND,		FMADDSUB_RND,
FMSUBADD_RND,		FMSUBADD_RND,

		// FMA4 specific scalar intrinsics bits that zero the non-scalar bits.
		FMADD4S, FNMADD4S, FMSUB4S, FNMSUB4S,

// Scalar intrinsic FMA.		// Scalar intrinsic FMA.
FMADDS1, FMADDS3,		FMADDS1, FMADDS3,
FNMADDS1, FNMADDS3,		FNMADDS1, FNMADDS3,
FMSUBS1, FMSUBS3,		FMSUBS1, FMSUBS3,
FNMSUBS1, FNMSUBS3,		FNMSUBS1, FNMSUBS3,

// Scalar intrinsic FMA with rounding mode.		// Scalar intrinsic FMA with rounding mode.
// Two versions, passthru bits on op1 or op3.		// Two versions, passthru bits on op1 or op3.
▲ Show 20 Lines • Show All 972 Lines • Show Last 20 Lines

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 25,110 Lines • ▼ Show 20 Lines	const char *X86TargetLowering::getTargetNodeName(unsigned Opcode) const {
case X86ISD::FMADDS3: return "X86ISD::FMADDS3";		case X86ISD::FMADDS3: return "X86ISD::FMADDS3";
case X86ISD::FNMADDS3: return "X86ISD::FNMADDS3";		case X86ISD::FNMADDS3: return "X86ISD::FNMADDS3";
case X86ISD::FMSUBS3: return "X86ISD::FMSUBS3";		case X86ISD::FMSUBS3: return "X86ISD::FMSUBS3";
case X86ISD::FNMSUBS3: return "X86ISD::FNMSUBS3";		case X86ISD::FNMSUBS3: return "X86ISD::FNMSUBS3";
case X86ISD::FMADDS3_RND: return "X86ISD::FMADDS3_RND";		case X86ISD::FMADDS3_RND: return "X86ISD::FMADDS3_RND";
case X86ISD::FNMADDS3_RND: return "X86ISD::FNMADDS3_RND";		case X86ISD::FNMADDS3_RND: return "X86ISD::FNMADDS3_RND";
case X86ISD::FMSUBS3_RND: return "X86ISD::FMSUBS3_RND";		case X86ISD::FMSUBS3_RND: return "X86ISD::FMSUBS3_RND";
case X86ISD::FNMSUBS3_RND: return "X86ISD::FNMSUBS3_RND";		case X86ISD::FNMSUBS3_RND: return "X86ISD::FNMSUBS3_RND";
		case X86ISD::FMADD4S: return "X86ISD::FMADD4S";
		case X86ISD::FNMADD4S: return "X86ISD::FNMADD4S";
		case X86ISD::FMSUB4S: return "X86ISD::FMSUB4S";
		case X86ISD::FNMSUB4S: return "X86ISD::FNMSUB4S";
case X86ISD::VPMADD52H: return "X86ISD::VPMADD52H";		case X86ISD::VPMADD52H: return "X86ISD::VPMADD52H";
case X86ISD::VPMADD52L: return "X86ISD::VPMADD52L";		case X86ISD::VPMADD52L: return "X86ISD::VPMADD52L";
case X86ISD::VRNDSCALE: return "X86ISD::VRNDSCALE";		case X86ISD::VRNDSCALE: return "X86ISD::VRNDSCALE";
case X86ISD::VRNDSCALES: return "X86ISD::VRNDSCALES";		case X86ISD::VRNDSCALES: return "X86ISD::VRNDSCALES";
case X86ISD::VREDUCE: return "X86ISD::VREDUCE";		case X86ISD::VREDUCE: return "X86ISD::VREDUCE";
case X86ISD::VREDUCES: return "X86ISD::VREDUCES";		case X86ISD::VREDUCES: return "X86ISD::VREDUCES";
case X86ISD::VGETMANT: return "X86ISD::VGETMANT";		case X86ISD::VGETMANT: return "X86ISD::VGETMANT";
case X86ISD::VGETMANTS: return "X86ISD::VGETMANTS";		case X86ISD::VGETMANTS: return "X86ISD::VGETMANTS";
▲ Show 20 Lines • Show All 10,427 Lines • ▼ Show 20 Lines	if (N->getOpcode() == X86ISD::FMADD_RND) {
}		}
} else if (N->getOpcode() == X86ISD::FMADDS3_RND) {		} else if (N->getOpcode() == X86ISD::FMADDS3_RND) {
switch (NewOpcode) {		switch (NewOpcode) {
case ISD::FMA: NewOpcode = X86ISD::FMADDS3_RND; break;		case ISD::FMA: NewOpcode = X86ISD::FMADDS3_RND; break;
case X86ISD::FMSUB: NewOpcode = X86ISD::FMSUBS3_RND; break;		case X86ISD::FMSUB: NewOpcode = X86ISD::FMSUBS3_RND; break;
case X86ISD::FNMADD: NewOpcode = X86ISD::FNMADDS3_RND; break;		case X86ISD::FNMADD: NewOpcode = X86ISD::FNMADDS3_RND; break;
case X86ISD::FNMSUB: NewOpcode = X86ISD::FNMSUBS3_RND; break;		case X86ISD::FNMSUB: NewOpcode = X86ISD::FNMSUBS3_RND; break;
}		}
		} else if (N->getOpcode() == X86ISD::FMADD4S) {
		switch (NewOpcode) {
		case ISD::FMA: NewOpcode = X86ISD::FMADD4S; break;
		case X86ISD::FMSUB: NewOpcode = X86ISD::FMSUB4S; break;
		case X86ISD::FNMADD: NewOpcode = X86ISD::FNMADD4S; break;
		case X86ISD::FNMSUB: NewOpcode = X86ISD::FNMSUB4S; break;
		}
} else {		} else {
llvm_unreachable("Unexpected opcode!");		llvm_unreachable("Unexpected opcode!");
}		}

// Only return the node is the opcode was changed or one of the		// Only return the node is the opcode was changed or one of the
// operand was negated. If not, we'll just recreate the same node.		// operand was negated. If not, we'll just recreate the same node.
if (HasNeg \|\| NewOpcode != N->getOpcode()) {		if (HasNeg \|\| NewOpcode != N->getOpcode()) {
if (N->getNumOperands() == 4)		if (N->getNumOperands() == 4)
▲ Show 20 Lines • Show All 1,292 Lines • ▼ Show 20 Lines	SDValue X86TargetLowering::PerformDAGCombine(SDNode *N,
case X86ISD::VPERM2X128:		case X86ISD::VPERM2X128:
case X86ISD::VZEXT_MOVL:		case X86ISD::VZEXT_MOVL:
case ISD::VECTOR_SHUFFLE: return combineShuffle(N, DAG, DCI,Subtarget);		case ISD::VECTOR_SHUFFLE: return combineShuffle(N, DAG, DCI,Subtarget);
case X86ISD::FMADD_RND:		case X86ISD::FMADD_RND:
case X86ISD::FMADDS1_RND:		case X86ISD::FMADDS1_RND:
case X86ISD::FMADDS3_RND:		case X86ISD::FMADDS3_RND:
case X86ISD::FMADDS1:		case X86ISD::FMADDS1:
case X86ISD::FMADDS3:		case X86ISD::FMADDS3:
		case X86ISD::FMADD4S:
case ISD::FMA: return combineFMA(N, DAG, Subtarget);		case ISD::FMA: return combineFMA(N, DAG, Subtarget);
case ISD::MGATHER:		case ISD::MGATHER:
case ISD::MSCATTER: return combineGatherScatter(N, DAG);		case ISD::MSCATTER: return combineGatherScatter(N, DAG);
case X86ISD::TESTM: return combineTestM(N, DAG, Subtarget);		case X86ISD::TESTM: return combineTestM(N, DAG, Subtarget);
case X86ISD::PCMPEQ:		case X86ISD::PCMPEQ:
case X86ISD::PCMPGT: return combineVectorCompare(N, DAG, Subtarget);		case X86ISD::PCMPGT: return combineVectorCompare(N, DAG, Subtarget);
}		}

▲ Show 20 Lines • Show All 1,048 Lines • Show Last 20 Lines

lib/Target/X86/X86InstrFMA.td

Show First 20 Lines • Show All 247 Lines • ▼ Show 20 Lines
// the commute optimization is legal only if all users of FMA*_Int use only		// the commute optimization is legal only if all users of FMA*_Int use only
// the lowest element of the FMA*_Int instruction. Even though such analysis		// the lowest element of the FMA*_Int instruction. Even though such analysis
// may be not implemented yet we allow the routines doing the actual commute		// may be not implemented yet we allow the routines doing the actual commute
// transformation to decide if one or another instruction is commutable or not.		// transformation to decide if one or another instruction is commutable or not.
let Constraints = "$src1 = $dst", isCommutable = 1, isCodeGenOnly = 1,		let Constraints = "$src1 = $dst", isCommutable = 1, isCodeGenOnly = 1,
hasSideEffects = 0 in		hasSideEffects = 0 in
multiclass fma3s_rm_int<bits<8> opc, string OpcodeStr,		multiclass fma3s_rm_int<bits<8> opc, string OpcodeStr,
Operand memopr, RegisterClass RC> {		Operand memopr, RegisterClass RC> {
def r_Int : FMA3S<opc, MRMSrcReg, (outs RC:$dst),		def r_Int : FMA3S_Int<opc, MRMSrcReg, (outs RC:$dst),
(ins RC:$src1, RC:$src2, RC:$src3),		(ins RC:$src1, RC:$src2, RC:$src3),
!strconcat(OpcodeStr,		!strconcat(OpcodeStr,
"\t{$src3, $src2, $dst\|$dst, $src2, $src3}"),		"\t{$src3, $src2, $dst\|$dst, $src2, $src3}"),
[]>;		[]>;

let mayLoad = 1 in		let mayLoad = 1 in
def m_Int : FMA3S<opc, MRMSrcMem, (outs RC:$dst),		def m_Int : FMA3S_Int<opc, MRMSrcMem, (outs RC:$dst),
(ins RC:$src1, RC:$src2, memopr:$src3),		(ins RC:$src1, RC:$src2, memopr:$src3),
!strconcat(OpcodeStr,		!strconcat(OpcodeStr,
"\t{$src3, $src2, $dst\|$dst, $src2, $src3}"),		"\t{$src3, $src2, $dst\|$dst, $src2, $src3}"),
[]>;		[]>;
}		}

// The FMA 213 form is created for lowering of scalar FMA intrinscis		// The FMA 213 form is created for lowering of scalar FMA intrinscis
// to machine instructions.		// to machine instructions.
// The FMA 132 form can trivially be get by commuting the 2nd and 3rd operands		// The FMA 132 form can trivially be get by commuting the 2nd and 3rd operands
// of FMA 213 form.		// of FMA 213 form.
// The FMA 231 form can be get only by commuting the 1st operand of 213 or 132		// The FMA 231 form can be get only by commuting the 1st operand of 213 or 132
// forms and is possible only after special analysis of all uses of the initial		// forms and is possible only after special analysis of all uses of the initial
▲ Show 20 Lines • Show All 104 Lines • ▼ Show 20 Lines	def rr_REV : FMA4S<opc, MRMSrcReg, (outs RC:$dst),
!strconcat(OpcodeStr,		!strconcat(OpcodeStr,
"\t{$src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3}"), []>,		"\t{$src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3}"), []>,
VEX_LIG, FoldGenData<NAME#rr>;		VEX_LIG, FoldGenData<NAME#rr>;
}		}

multiclass fma4s_int<bits<8> opc, string OpcodeStr, Operand memop,		multiclass fma4s_int<bits<8> opc, string OpcodeStr, Operand memop,
ValueType VT, ComplexPattern mem_cpat, SDNode OpNode> {		ValueType VT, ComplexPattern mem_cpat, SDNode OpNode> {
let isCodeGenOnly = 1 in {		let isCodeGenOnly = 1 in {
def rr_Int : FMA4S<opc, MRMSrcRegOp4, (outs VR128:$dst),		def rr_Int : FMA4S_Int<opc, MRMSrcRegOp4, (outs VR128:$dst),
(ins VR128:$src1, VR128:$src2, VR128:$src3),		(ins VR128:$src1, VR128:$src2, VR128:$src3),
!strconcat(OpcodeStr,		!strconcat(OpcodeStr,
"\t{$src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3}"),		"\t{$src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3}"),
[(set VR128:$dst,		[(set VR128:$dst,
(VT (OpNode VR128:$src1, VR128:$src2, VR128:$src3)))]>, VEX_W,		(VT (OpNode VR128:$src1, VR128:$src2, VR128:$src3)))]>, VEX_W,
VEX_LIG;		VEX_LIG;
def rm_Int : FMA4S<opc, MRMSrcMemOp4, (outs VR128:$dst),		def rm_Int : FMA4S_Int<opc, MRMSrcMemOp4, (outs VR128:$dst),
(ins VR128:$src1, VR128:$src2, memop:$src3),		(ins VR128:$src1, VR128:$src2, memop:$src3),
!strconcat(OpcodeStr,		!strconcat(OpcodeStr,
"\t{$src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3}"),		"\t{$src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3}"),
[(set VR128:$dst, (VT (OpNode VR128:$src1, VR128:$src2,		[(set VR128:$dst, (VT (OpNode VR128:$src1, VR128:$src2,
mem_cpat:$src3)))]>, VEX_W, VEX_LIG;		mem_cpat:$src3)))]>, VEX_W, VEX_LIG;
def mr_Int : FMA4S<opc, MRMSrcMem, (outs VR128:$dst),		def mr_Int : FMA4S_Int<opc, MRMSrcMem, (outs VR128:$dst),
(ins VR128:$src1, memop:$src2, VR128:$src3),		(ins VR128:$src1, memop:$src2, VR128:$src3),
!strconcat(OpcodeStr,		!strconcat(OpcodeStr,
"\t{$src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3}"),		"\t{$src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3}"),
[(set VR128:$dst,		[(set VR128:$dst,
(VT (OpNode VR128:$src1, mem_cpat:$src2, VR128:$src3)))]>,		(VT (OpNode VR128:$src1, mem_cpat:$src2, VR128:$src3)))]>,
VEX_LIG;		VEX_LIG;
let hasSideEffects = 0 in		let hasSideEffects = 0 in
def rr_Int_REV : FMA4S<opc, MRMSrcReg, (outs VR128:$dst),		def rr_Int_REV : FMA4S_Int<opc, MRMSrcReg, (outs VR128:$dst),
(ins VR128:$src1, VR128:$src2, VR128:$src3),		(ins VR128:$src1, VR128:$src2, VR128:$src3),
!strconcat(OpcodeStr,		!strconcat(OpcodeStr,
"\t{$src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3}"),		"\t{$src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3}"),
[]>, VEX_LIG, FoldGenData<NAME#rr_Int>;		[]>, VEX_LIG, FoldGenData<NAME#rr_Int>;
} // isCodeGenOnly = 1		} // isCodeGenOnly = 1
}		}

multiclass fma4p<bits<8> opc, string OpcodeStr, SDNode OpNode,		multiclass fma4p<bits<8> opc, string OpcodeStr, SDNode OpNode,
▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines	def Yrr_REV : FMA4<opc, MRMSrcReg, (outs VR256:$dst),
VEX_L, FoldGenData<NAME#Yrr>;		VEX_L, FoldGenData<NAME#Yrr>;
} // isCodeGenOnly = 1		} // isCodeGenOnly = 1
}		}

let ExeDomain = SSEPackedSingle in {		let ExeDomain = SSEPackedSingle in {
// Scalar Instructions		// Scalar Instructions
defm VFMADDSS4 : fma4s<0x6A, "vfmaddss", FR32, f32mem, f32, X86Fmadd, loadf32>,		defm VFMADDSS4 : fma4s<0x6A, "vfmaddss", FR32, f32mem, f32, X86Fmadd, loadf32>,
fma4s_int<0x6A, "vfmaddss", ssmem, v4f32, sse_load_f32,		fma4s_int<0x6A, "vfmaddss", ssmem, v4f32, sse_load_f32,
X86Fmadds1>;		X86Fmadd4s>;
defm VFMSUBSS4 : fma4s<0x6E, "vfmsubss", FR32, f32mem, f32, X86Fmsub, loadf32>,		defm VFMSUBSS4 : fma4s<0x6E, "vfmsubss", FR32, f32mem, f32, X86Fmsub, loadf32>,
fma4s_int<0x6E, "vfmsubss", ssmem, v4f32, sse_load_f32,		fma4s_int<0x6E, "vfmsubss", ssmem, v4f32, sse_load_f32,
X86Fmsubs1>;		X86Fmsub4s>;
defm VFNMADDSS4 : fma4s<0x7A, "vfnmaddss", FR32, f32mem, f32,		defm VFNMADDSS4 : fma4s<0x7A, "vfnmaddss", FR32, f32mem, f32,
X86Fnmadd, loadf32>,		X86Fnmadd, loadf32>,
fma4s_int<0x7A, "vfnmaddss", ssmem, v4f32, sse_load_f32,		fma4s_int<0x7A, "vfnmaddss", ssmem, v4f32, sse_load_f32,
X86Fnmadds1>;		X86Fnmadd4s>;
defm VFNMSUBSS4 : fma4s<0x7E, "vfnmsubss", FR32, f32mem, f32,		defm VFNMSUBSS4 : fma4s<0x7E, "vfnmsubss", FR32, f32mem, f32,
X86Fnmsub, loadf32>,		X86Fnmsub, loadf32>,
fma4s_int<0x7E, "vfnmsubss", ssmem, v4f32, sse_load_f32,		fma4s_int<0x7E, "vfnmsubss", ssmem, v4f32, sse_load_f32,
X86Fnmsubs1>;		X86Fnmsub4s>;
// Packed Instructions		// Packed Instructions
defm VFMADDPS4 : fma4p<0x68, "vfmaddps", X86Fmadd, v4f32, v8f32,		defm VFMADDPS4 : fma4p<0x68, "vfmaddps", X86Fmadd, v4f32, v8f32,
loadv4f32, loadv8f32>;		loadv4f32, loadv8f32>;
defm VFMSUBPS4 : fma4p<0x6C, "vfmsubps", X86Fmsub, v4f32, v8f32,		defm VFMSUBPS4 : fma4p<0x6C, "vfmsubps", X86Fmsub, v4f32, v8f32,
loadv4f32, loadv8f32>;		loadv4f32, loadv8f32>;
defm VFNMADDPS4 : fma4p<0x78, "vfnmaddps", X86Fnmadd, v4f32, v8f32,		defm VFNMADDPS4 : fma4p<0x78, "vfnmaddps", X86Fnmadd, v4f32, v8f32,
loadv4f32, loadv8f32>;		loadv4f32, loadv8f32>;
defm VFNMSUBPS4 : fma4p<0x7C, "vfnmsubps", X86Fnmsub, v4f32, v8f32,		defm VFNMSUBPS4 : fma4p<0x7C, "vfnmsubps", X86Fnmsub, v4f32, v8f32,
loadv4f32, loadv8f32>;		loadv4f32, loadv8f32>;
defm VFMADDSUBPS4 : fma4p<0x5C, "vfmaddsubps", X86Fmaddsub, v4f32, v8f32,		defm VFMADDSUBPS4 : fma4p<0x5C, "vfmaddsubps", X86Fmaddsub, v4f32, v8f32,
loadv4f32, loadv8f32>;		loadv4f32, loadv8f32>;
defm VFMSUBADDPS4 : fma4p<0x5E, "vfmsubaddps", X86Fmsubadd, v4f32, v8f32,		defm VFMSUBADDPS4 : fma4p<0x5E, "vfmsubaddps", X86Fmsubadd, v4f32, v8f32,
loadv4f32, loadv8f32>;		loadv4f32, loadv8f32>;
}		}

let ExeDomain = SSEPackedDouble in {		let ExeDomain = SSEPackedDouble in {
// Scalar Instructions		// Scalar Instructions
defm VFMADDSD4 : fma4s<0x6B, "vfmaddsd", FR64, f64mem, f64, X86Fmadd, loadf64>,		defm VFMADDSD4 : fma4s<0x6B, "vfmaddsd", FR64, f64mem, f64, X86Fmadd, loadf64>,
fma4s_int<0x6B, "vfmaddsd", sdmem, v2f64, sse_load_f64,		fma4s_int<0x6B, "vfmaddsd", sdmem, v2f64, sse_load_f64,
X86Fmadds1>;		X86Fmadd4s>;
defm VFMSUBSD4 : fma4s<0x6F, "vfmsubsd", FR64, f64mem, f64, X86Fmsub, loadf64>,		defm VFMSUBSD4 : fma4s<0x6F, "vfmsubsd", FR64, f64mem, f64, X86Fmsub, loadf64>,
fma4s_int<0x6F, "vfmsubsd", sdmem, v2f64, sse_load_f64,		fma4s_int<0x6F, "vfmsubsd", sdmem, v2f64, sse_load_f64,
X86Fmsubs1>;		X86Fmsub4s>;
defm VFNMADDSD4 : fma4s<0x7B, "vfnmaddsd", FR64, f64mem, f64,		defm VFNMADDSD4 : fma4s<0x7B, "vfnmaddsd", FR64, f64mem, f64,
X86Fnmadd, loadf64>,		X86Fnmadd, loadf64>,
fma4s_int<0x7B, "vfnmaddsd", sdmem, v2f64, sse_load_f64,		fma4s_int<0x7B, "vfnmaddsd", sdmem, v2f64, sse_load_f64,
X86Fnmadds1>;		X86Fnmadd4s>;
defm VFNMSUBSD4 : fma4s<0x7F, "vfnmsubsd", FR64, f64mem, f64,		defm VFNMSUBSD4 : fma4s<0x7F, "vfnmsubsd", FR64, f64mem, f64,
X86Fnmsub, loadf64>,		X86Fnmsub, loadf64>,
fma4s_int<0x7F, "vfnmsubsd", sdmem, v2f64, sse_load_f64,		fma4s_int<0x7F, "vfnmsubsd", sdmem, v2f64, sse_load_f64,
X86Fnmsubs1>;		X86Fnmsub4s>;
// Packed Instructions		// Packed Instructions
defm VFMADDPD4 : fma4p<0x69, "vfmaddpd", X86Fmadd, v2f64, v4f64,		defm VFMADDPD4 : fma4p<0x69, "vfmaddpd", X86Fmadd, v2f64, v4f64,
loadv2f64, loadv4f64>;		loadv2f64, loadv4f64>;
defm VFMSUBPD4 : fma4p<0x6D, "vfmsubpd", X86Fmsub, v2f64, v4f64,		defm VFMSUBPD4 : fma4p<0x6D, "vfmsubpd", X86Fmsub, v2f64, v4f64,
loadv2f64, loadv4f64>;		loadv2f64, loadv4f64>;
defm VFNMADDPD4 : fma4p<0x79, "vfnmaddpd", X86Fnmadd, v2f64, v4f64,		defm VFNMADDPD4 : fma4p<0x79, "vfnmaddpd", X86Fnmadd, v2f64, v4f64,
loadv2f64, loadv4f64>;		loadv2f64, loadv4f64>;
defm VFNMSUBPD4 : fma4p<0x7D, "vfnmsubpd", X86Fnmsub, v2f64, v4f64,		defm VFNMSUBPD4 : fma4p<0x7D, "vfnmsubpd", X86Fnmsub, v2f64, v4f64,
loadv2f64, loadv4f64>;		loadv2f64, loadv4f64>;
defm VFMADDSUBPD4 : fma4p<0x5D, "vfmaddsubpd", X86Fmaddsub, v2f64, v4f64,		defm VFMADDSUBPD4 : fma4p<0x5D, "vfmaddsubpd", X86Fmaddsub, v2f64, v4f64,
loadv2f64, loadv4f64>;		loadv2f64, loadv4f64>;
defm VFMSUBADDPD4 : fma4p<0x5F, "vfmsubaddpd", X86Fmsubadd, v2f64, v4f64,		defm VFMSUBADDPD4 : fma4p<0x5F, "vfmsubaddpd", X86Fmsubadd, v2f64, v4f64,
loadv2f64, loadv4f64>;		loadv2f64, loadv4f64>;
}		}

lib/Target/X86/X86InstrFormats.td

Show First 20 Lines • Show All 860 Lines • ▼ Show 20 Lines	class AVXPCLMULIi8<bits<8> o, Format F, dag outs, dag ins, string asm,
list<dag>pattern, InstrItinClass itin = NoItinerary>		list<dag>pattern, InstrItinClass itin = NoItinerary>
: Ii8<o, F, outs, ins, asm, pattern, itin, SSEPackedInt>, TAPD,		: Ii8<o, F, outs, ins, asm, pattern, itin, SSEPackedInt>, TAPD,
VEX_4V, Requires<[HasAVX, HasPCLMUL]>;		VEX_4V, Requires<[HasAVX, HasPCLMUL]>;

// FMA3 Instruction Templates		// FMA3 Instruction Templates
class FMA3<bits<8> o, Format F, dag outs, dag ins, string asm,		class FMA3<bits<8> o, Format F, dag outs, dag ins, string asm,
list<dag>pattern, InstrItinClass itin = NoItinerary>		list<dag>pattern, InstrItinClass itin = NoItinerary>
: I<o, F, outs, ins, asm, pattern, itin>, T8PD,		: I<o, F, outs, ins, asm, pattern, itin>, T8PD,
VEX_4V, FMASC, Requires<[HasFMA, NoVLX]>;		VEX_4V, FMASC, Requires<[HasFMA, NoFMA4, NoVLX]>;
class FMA3S<bits<8> o, Format F, dag outs, dag ins, string asm,		class FMA3S<bits<8> o, Format F, dag outs, dag ins, string asm,
list<dag>pattern, InstrItinClass itin = NoItinerary>		list<dag>pattern, InstrItinClass itin = NoItinerary>
: I<o, F, outs, ins, asm, pattern, itin>, T8PD,		: I<o, F, outs, ins, asm, pattern, itin>, T8PD,
		VEX_4V, FMASC, Requires<[HasFMA, NoFMA4, NoAVX512]>;
		class FMA3S_Int<bits<8> o, Format F, dag outs, dag ins, string asm,
		list<dag>pattern, InstrItinClass itin = NoItinerary>
		: I<o, F, outs, ins, asm, pattern, itin>, T8PD,
VEX_4V, FMASC, Requires<[HasFMA, NoAVX512]>;		VEX_4V, FMASC, Requires<[HasFMA, NoAVX512]>;

// FMA4 Instruction Templates		// FMA4 Instruction Templates
class FMA4<bits<8> o, Format F, dag outs, dag ins, string asm,		class FMA4<bits<8> o, Format F, dag outs, dag ins, string asm,
list<dag>pattern, InstrItinClass itin = NoItinerary>		list<dag>pattern, InstrItinClass itin = NoItinerary>
: Ii8Reg<o, F, outs, ins, asm, pattern, itin>, TAPD,		: Ii8Reg<o, F, outs, ins, asm, pattern, itin>, TAPD,
VEX_4V, FMASC, Requires<[HasFMA4, NoVLX]>;		VEX_4V, FMASC, Requires<[HasFMA4, NoVLX]>;
class FMA4S<bits<8> o, Format F, dag outs, dag ins, string asm,		class FMA4S<bits<8> o, Format F, dag outs, dag ins, string asm,
list<dag>pattern, InstrItinClass itin = NoItinerary>		list<dag>pattern, InstrItinClass itin = NoItinerary>
: Ii8Reg<o, F, outs, ins, asm, pattern, itin>, TAPD,		: Ii8Reg<o, F, outs, ins, asm, pattern, itin>, TAPD,
VEX_4V, FMASC, Requires<[HasFMA4, NoAVX512]>;		VEX_4V, FMASC, Requires<[HasFMA4, NoAVX512]>;
		class FMA4S_Int<bits<8> o, Format F, dag outs, dag ins, string asm,
		list<dag>pattern, InstrItinClass itin = NoItinerary>
		: Ii8Reg<o, F, outs, ins, asm, pattern, itin>, TAPD,
		VEX_4V, FMASC, Requires<[HasFMA4]>;

// XOP 2, 3 and 4 Operand Instruction Template		// XOP 2, 3 and 4 Operand Instruction Template
class IXOP<bits<8> o, Format F, dag outs, dag ins, string asm,		class IXOP<bits<8> o, Format F, dag outs, dag ins, string asm,
list<dag> pattern, InstrItinClass itin = NoItinerary>		list<dag> pattern, InstrItinClass itin = NoItinerary>
: I<o, F, outs, ins, asm, pattern, itin, SSEPackedDouble>,		: I<o, F, outs, ins, asm, pattern, itin, SSEPackedDouble>,
XOP9, Requires<[HasXOP]>;		XOP9, Requires<[HasXOP]>;

// XOP 2 and 3 Operand Instruction Templates with imm byte		// XOP 2 and 3 Operand Instruction Templates with imm byte
▲ Show 20 Lines • Show All 91 Lines • Show Last 20 Lines

lib/Target/X86/X86InstrFragmentsSIMD.td

	Show First 20 Lines • Show All 473 Lines • ▼ Show 20 Lines

	def X86FmaddRnd : SDNode<"X86ISD::FMADD_RND", SDTFmaRound, [SDNPCommutative]>;			def X86FmaddRnd : SDNode<"X86ISD::FMADD_RND", SDTFmaRound, [SDNPCommutative]>;
	def X86FnmaddRnd : SDNode<"X86ISD::FNMADD_RND", SDTFmaRound, [SDNPCommutative]>;			def X86FnmaddRnd : SDNode<"X86ISD::FNMADD_RND", SDTFmaRound, [SDNPCommutative]>;
	def X86FmsubRnd : SDNode<"X86ISD::FMSUB_RND", SDTFmaRound, [SDNPCommutative]>;			def X86FmsubRnd : SDNode<"X86ISD::FMSUB_RND", SDTFmaRound, [SDNPCommutative]>;
	def X86FnmsubRnd : SDNode<"X86ISD::FNMSUB_RND", SDTFmaRound, [SDNPCommutative]>;			def X86FnmsubRnd : SDNode<"X86ISD::FNMSUB_RND", SDTFmaRound, [SDNPCommutative]>;
	def X86FmaddsubRnd : SDNode<"X86ISD::FMADDSUB_RND", SDTFmaRound, [SDNPCommutative]>;			def X86FmaddsubRnd : SDNode<"X86ISD::FMADDSUB_RND", SDTFmaRound, [SDNPCommutative]>;
	def X86FmsubaddRnd : SDNode<"X86ISD::FMSUBADD_RND", SDTFmaRound, [SDNPCommutative]>;			def X86FmsubaddRnd : SDNode<"X86ISD::FMSUBADD_RND", SDTFmaRound, [SDNPCommutative]>;

				// Scalar FMA4 intrinsics which zero the non-scalar bits.
				def X86Fmadd4s : SDNode<"X86ISD::FMADD4S", SDTFPTernaryOp, [SDNPCommutative]>;
				def X86Fnmadd4s : SDNode<"X86ISD::FNMADD4S", SDTFPTernaryOp, [SDNPCommutative]>;
				def X86Fmsub4s : SDNode<"X86ISD::FMSUB4S", SDTFPTernaryOp, [SDNPCommutative]>;
				def X86Fnmsub4s : SDNode<"X86ISD::FNMSUB4S", SDTFPTernaryOp, [SDNPCommutative]>;

	// Scalar FMA intrinsics with passthru bits in operand 1.			// Scalar FMA intrinsics with passthru bits in operand 1.
	def X86Fmadds1 : SDNode<"X86ISD::FMADDS1", SDTFPTernaryOp>;			def X86Fmadds1 : SDNode<"X86ISD::FMADDS1", SDTFPTernaryOp>;
	def X86Fnmadds1 : SDNode<"X86ISD::FNMADDS1", SDTFPTernaryOp>;			def X86Fnmadds1 : SDNode<"X86ISD::FNMADDS1", SDTFPTernaryOp>;
	def X86Fmsubs1 : SDNode<"X86ISD::FMSUBS1", SDTFPTernaryOp>;			def X86Fmsubs1 : SDNode<"X86ISD::FMSUBS1", SDTFPTernaryOp>;
	def X86Fnmsubs1 : SDNode<"X86ISD::FNMSUBS1", SDTFPTernaryOp>;			def X86Fnmsubs1 : SDNode<"X86ISD::FNMSUBS1", SDTFPTernaryOp>;

	// Scalar FMA intrinsics with passthru bits in operand 1.			// Scalar FMA intrinsics with passthru bits in operand 1.
	def X86FmaddRnds1 : SDNode<"X86ISD::FMADDS1_RND", SDTFmaRound>;			def X86FmaddRnds1 : SDNode<"X86ISD::FMADDS1_RND", SDTFmaRound>;
	▲ Show 20 Lines • Show All 616 Lines • Show Last 20 Lines

lib/Target/X86/X86InstrInfo.td

	Show First 20 Lines • Show All 837 Lines • ▼ Show 20 Lines
	def HasFXSR : Predicate<"Subtarget->hasFXSR()">;			def HasFXSR : Predicate<"Subtarget->hasFXSR()">;
	def HasXSAVE : Predicate<"Subtarget->hasXSAVE()">;			def HasXSAVE : Predicate<"Subtarget->hasXSAVE()">;
	def HasXSAVEOPT : Predicate<"Subtarget->hasXSAVEOPT()">;			def HasXSAVEOPT : Predicate<"Subtarget->hasXSAVEOPT()">;
	def HasXSAVEC : Predicate<"Subtarget->hasXSAVEC()">;			def HasXSAVEC : Predicate<"Subtarget->hasXSAVEC()">;
	def HasXSAVES : Predicate<"Subtarget->hasXSAVES()">;			def HasXSAVES : Predicate<"Subtarget->hasXSAVES()">;
	def HasPCLMUL : Predicate<"Subtarget->hasPCLMUL()">;			def HasPCLMUL : Predicate<"Subtarget->hasPCLMUL()">;
	def HasFMA : Predicate<"Subtarget->hasFMA()">;			def HasFMA : Predicate<"Subtarget->hasFMA()">;
	def HasFMA4 : Predicate<"Subtarget->hasFMA4()">;			def HasFMA4 : Predicate<"Subtarget->hasFMA4()">;
				def NoFMA4 : Predicate<"!Subtarget->hasFMA4()">;
	def HasXOP : Predicate<"Subtarget->hasXOP()">;			def HasXOP : Predicate<"Subtarget->hasXOP()">;
	def HasTBM : Predicate<"Subtarget->hasTBM()">;			def HasTBM : Predicate<"Subtarget->hasTBM()">;
	def NoTBM : Predicate<"!Subtarget->hasTBM()">;			def NoTBM : Predicate<"!Subtarget->hasTBM()">;
	def HasLWP : Predicate<"Subtarget->hasLWP()">;			def HasLWP : Predicate<"Subtarget->hasLWP()">;
	def HasMOVBE : Predicate<"Subtarget->hasMOVBE()">;			def HasMOVBE : Predicate<"Subtarget->hasMOVBE()">;
	def HasRDRAND : Predicate<"Subtarget->hasRDRAND()">;			def HasRDRAND : Predicate<"Subtarget->hasRDRAND()">;
	def HasF16C : Predicate<"Subtarget->hasF16C()">;			def HasF16C : Predicate<"Subtarget->hasF16C()">;
	def HasFSGSBase : Predicate<"Subtarget->hasFSGSBase()">;			def HasFSGSBase : Predicate<"Subtarget->hasFSGSBase()">;
	▲ Show 20 Lines • Show All 2,450 Lines • Show Last 20 Lines

lib/Target/X86/X86IntrinsicsInfo.h

	Show First 20 Lines • Show All 1,484 Lines • ▼ Show 20 Lines
	X86_INTRINSIC_DATA(fma_vfnmadd_sd, INTR_TYPE_3OP, X86ISD::FNMADDS1, 0),			X86_INTRINSIC_DATA(fma_vfnmadd_sd, INTR_TYPE_3OP, X86ISD::FNMADDS1, 0),
	X86_INTRINSIC_DATA(fma_vfnmadd_ss, INTR_TYPE_3OP, X86ISD::FNMADDS1, 0),			X86_INTRINSIC_DATA(fma_vfnmadd_ss, INTR_TYPE_3OP, X86ISD::FNMADDS1, 0),
	X86_INTRINSIC_DATA(fma_vfnmsub_pd, INTR_TYPE_3OP, X86ISD::FNMSUB, 0),			X86_INTRINSIC_DATA(fma_vfnmsub_pd, INTR_TYPE_3OP, X86ISD::FNMSUB, 0),
	X86_INTRINSIC_DATA(fma_vfnmsub_pd_256, INTR_TYPE_3OP, X86ISD::FNMSUB, 0),			X86_INTRINSIC_DATA(fma_vfnmsub_pd_256, INTR_TYPE_3OP, X86ISD::FNMSUB, 0),
	X86_INTRINSIC_DATA(fma_vfnmsub_ps, INTR_TYPE_3OP, X86ISD::FNMSUB, 0),			X86_INTRINSIC_DATA(fma_vfnmsub_ps, INTR_TYPE_3OP, X86ISD::FNMSUB, 0),
	X86_INTRINSIC_DATA(fma_vfnmsub_ps_256, INTR_TYPE_3OP, X86ISD::FNMSUB, 0),			X86_INTRINSIC_DATA(fma_vfnmsub_ps_256, INTR_TYPE_3OP, X86ISD::FNMSUB, 0),
	X86_INTRINSIC_DATA(fma_vfnmsub_sd, INTR_TYPE_3OP, X86ISD::FNMSUBS1, 0),			X86_INTRINSIC_DATA(fma_vfnmsub_sd, INTR_TYPE_3OP, X86ISD::FNMSUBS1, 0),
	X86_INTRINSIC_DATA(fma_vfnmsub_ss, INTR_TYPE_3OP, X86ISD::FNMSUBS1, 0),			X86_INTRINSIC_DATA(fma_vfnmsub_ss, INTR_TYPE_3OP, X86ISD::FNMSUBS1, 0),
				X86_INTRINSIC_DATA(fma4_vfmadd_sd, INTR_TYPE_3OP, X86ISD::FMADD4S, 0),
				X86_INTRINSIC_DATA(fma4_vfmadd_ss, INTR_TYPE_3OP, X86ISD::FMADD4S, 0),
	X86_INTRINSIC_DATA(sse_cmp_ps, INTR_TYPE_3OP, X86ISD::CMPP, 0),			X86_INTRINSIC_DATA(sse_cmp_ps, INTR_TYPE_3OP, X86ISD::CMPP, 0),
	X86_INTRINSIC_DATA(sse_comieq_ss, COMI, X86ISD::COMI, ISD::SETEQ),			X86_INTRINSIC_DATA(sse_comieq_ss, COMI, X86ISD::COMI, ISD::SETEQ),
	X86_INTRINSIC_DATA(sse_comige_ss, COMI, X86ISD::COMI, ISD::SETGE),			X86_INTRINSIC_DATA(sse_comige_ss, COMI, X86ISD::COMI, ISD::SETGE),
	X86_INTRINSIC_DATA(sse_comigt_ss, COMI, X86ISD::COMI, ISD::SETGT),			X86_INTRINSIC_DATA(sse_comigt_ss, COMI, X86ISD::COMI, ISD::SETGT),
	X86_INTRINSIC_DATA(sse_comile_ss, COMI, X86ISD::COMI, ISD::SETLE),			X86_INTRINSIC_DATA(sse_comile_ss, COMI, X86ISD::COMI, ISD::SETLE),
	X86_INTRINSIC_DATA(sse_comilt_ss, COMI, X86ISD::COMI, ISD::SETLT),			X86_INTRINSIC_DATA(sse_comilt_ss, COMI, X86ISD::COMI, ISD::SETLT),
	X86_INTRINSIC_DATA(sse_comineq_ss, COMI, X86ISD::COMI, ISD::SETNE),			X86_INTRINSIC_DATA(sse_comineq_ss, COMI, X86ISD::COMI, ISD::SETNE),
	X86_INTRINSIC_DATA(sse_max_ps, INTR_TYPE_2OP, X86ISD::FMAX, 0),			X86_INTRINSIC_DATA(sse_max_ps, INTR_TYPE_2OP, X86ISD::FMAX, 0),
	▲ Show 20 Lines • Show All 154 Lines • Show Last 20 Lines

lib/Target/X86/X86Subtarget.h

Show First 20 Lines • Show All 457 Lines • ▼ Show 20 Lines	public:
bool hasFXSR() const { return HasFXSR; }		bool hasFXSR() const { return HasFXSR; }
bool hasXSAVE() const { return HasXSAVE; }		bool hasXSAVE() const { return HasXSAVE; }
bool hasXSAVEOPT() const { return HasXSAVEOPT; }		bool hasXSAVEOPT() const { return HasXSAVEOPT; }
bool hasXSAVEC() const { return HasXSAVEC; }		bool hasXSAVEC() const { return HasXSAVEC; }
bool hasXSAVES() const { return HasXSAVES; }		bool hasXSAVES() const { return HasXSAVES; }
bool hasPCLMUL() const { return HasPCLMUL; }		bool hasPCLMUL() const { return HasPCLMUL; }
// Prefer FMA4 to FMA - its better for commutation/memory folding and		// Prefer FMA4 to FMA - its better for commutation/memory folding and
// has equal or better performance on all supported targets.		// has equal or better performance on all supported targets.
bool hasFMA() const { return HasFMA && !HasFMA4; }		bool hasFMA() const { return HasFMA; }
		RKSimonUnsubmitted Not Done Reply Inline Actions This change concerns me - bdver2/bdver3 both support FMA3 as well as FMA4 but via a microcoding hack that costs extra cycles to perform, hence the preference for FMA4. RKSimon: This change concerns me - bdver2/bdver3 both support FMA3 as well as FMA4 but via a microcoding…
		craig.topperAuthorUnsubmitted Not Done Reply Inline Actions I'm still giving priority to FMA4 for the generic fma intrinsic and the packed x86 intrinsics, I'm just doing it by including NoFMA4 in the "Requires" line in X86InstrFormats.td now. craig.topper: I'm still giving priority to FMA4 for the generic fma intrinsic and the packed x86 intrinsics…
bool hasFMA4() const { return HasFMA4; }		bool hasFMA4() const { return HasFMA4; }
bool hasAnyFMA() const { return hasFMA() \|\| hasFMA4(); }		bool hasAnyFMA() const { return hasFMA() \|\| hasFMA4(); }
bool hasXOP() const { return HasXOP; }		bool hasXOP() const { return HasXOP; }
bool hasTBM() const { return HasTBM; }		bool hasTBM() const { return HasTBM; }
bool hasLWP() const { return HasLWP; }		bool hasLWP() const { return HasLWP; }
bool hasMOVBE() const { return HasMOVBE; }		bool hasMOVBE() const { return HasMOVBE; }
bool hasRDRAND() const { return HasRDRAND; }		bool hasRDRAND() const { return HasRDRAND; }
bool hasF16C() const { return HasF16C; }		bool hasF16C() const { return HasF16C; }
▲ Show 20 Lines • Show All 207 Lines • Show Last 20 Lines

test/CodeGen/X86/fma-commute-x86.ll

This file was copied to test/CodeGen/X86/fma4-commute-x86.ll.

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-pc-win32 -mcpu=core-avx2 \| FileCheck %s --check-prefix=FMA			; RUN: llc < %s -mtriple=x86_64-pc-win32 -mcpu=core-avx2 \| FileCheck %s --check-prefix=FMA
	; RUN: llc < %s -mtriple=x86_64-pc-win32 -mattr=+fma \| FileCheck %s --check-prefix=FMA			; RUN: llc < %s -mtriple=x86_64-pc-win32 -mattr=+fma \| FileCheck %s --check-prefix=FMA
	; RUN: llc < %s -mcpu=bdver2 -mtriple=x86_64-pc-win32 -mattr=-fma4 \| FileCheck %s --check-prefix=FMA			; RUN: llc < %s -mcpu=bdver2 -mtriple=x86_64-pc-win32 -mattr=-fma4 \| FileCheck %s --check-prefix=FMA
	; RUN: llc < %s -mcpu=bdver2 -mtriple=x86_64-pc-win32 \| FileCheck %s --check-prefix=FMA4

	attributes #0 = { nounwind }			attributes #0 = { nounwind }

	declare <4 x float> @llvm.x86.fma.vfmadd.ss(<4 x float>, <4 x float>, <4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.fma.vfmadd.ss(<4 x float>, <4 x float>, <4 x float>) nounwind readnone
	define <4 x float> @test_x86_fmadd_baa_ss(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmadd_baa_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_baa_ss:			; FMA-LABEL: test_x86_fmadd_baa_ss:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm1			; FMA-NEXT: vmovaps (%rcx), %xmm1
	; FMA-NEXT: vmovaps (%rdx), %xmm0			; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfmadd213ss %xmm1, %xmm1, %xmm0			; FMA-NEXT: vfmadd213ss %xmm1, %xmm1, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_baa_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vmovaps (%rdx), %xmm1
	; FMA4-NEXT: vfmaddss %xmm0, %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmadd.ss(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfmadd.ss(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fmadd_aba_ss(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmadd_aba_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_aba_ss:			; FMA-LABEL: test_x86_fmadd_aba_ss:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0			; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfmadd132ss (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfmadd132ss (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_aba_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfmaddss %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmadd.ss(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfmadd.ss(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fmadd_bba_ss(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmadd_bba_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_bba_ss:			; FMA-LABEL: test_x86_fmadd_bba_ss:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %xmm0			; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfmadd213ss (%rcx), %xmm0, %xmm0			; FMA-NEXT: vfmadd213ss (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_bba_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %xmm0
	; FMA4-NEXT: vfmaddss (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmadd.ss(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfmadd.ss(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	declare <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float>, <4 x float>, <4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float>, <4 x float>, <4 x float>) nounwind readnone
	define <4 x float> @test_x86_fmadd_baa_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmadd_baa_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_baa_ps:			; FMA-LABEL: test_x86_fmadd_baa_ps:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0			; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfmadd132ps (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfmadd132ps (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_baa_ps:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfmaddps %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fmadd_aba_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmadd_aba_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_aba_ps:			; FMA-LABEL: test_x86_fmadd_aba_ps:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0			; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfmadd231ps (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfmadd231ps (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_aba_ps:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfmaddps %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fmadd_bba_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmadd_bba_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_bba_ps:			; FMA-LABEL: test_x86_fmadd_bba_ps:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %xmm0			; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfmadd213ps (%rcx), %xmm0, %xmm0			; FMA-NEXT: vfmadd213ps (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_bba_ps:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %xmm0
	; FMA4-NEXT: vfmaddps (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	declare <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float>, <8 x float>, <8 x float>) nounwind readnone			declare <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float>, <8 x float>, <8 x float>) nounwind readnone
	define <8 x float> @test_x86_fmadd_baa_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fmadd_baa_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_baa_ps_y:			; FMA-LABEL: test_x86_fmadd_baa_ps_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %ymm0			; FMA-NEXT: vmovaps (%rcx), %ymm0
	; FMA-NEXT: vfmadd132ps (%rdx), %ymm0, %ymm0			; FMA-NEXT: vfmadd132ps (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_baa_ps_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %ymm0
	; FMA4-NEXT: vfmaddps %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float> %b, <8 x float> %a, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float> %b, <8 x float> %a, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @test_x86_fmadd_aba_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fmadd_aba_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_aba_ps_y:			; FMA-LABEL: test_x86_fmadd_aba_ps_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %ymm0			; FMA-NEXT: vmovaps (%rcx), %ymm0
	; FMA-NEXT: vfmadd231ps (%rdx), %ymm0, %ymm0			; FMA-NEXT: vfmadd231ps (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_aba_ps_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %ymm0
	; FMA4-NEXT: vfmaddps %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @test_x86_fmadd_bba_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fmadd_bba_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_bba_ps_y:			; FMA-LABEL: test_x86_fmadd_bba_ps_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %ymm0			; FMA-NEXT: vmovaps (%rdx), %ymm0
	; FMA-NEXT: vfmadd213ps (%rcx), %ymm0, %ymm0			; FMA-NEXT: vfmadd213ps (%rcx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_bba_ps_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %ymm0
	; FMA4-NEXT: vfmaddps (%rcx), %ymm0, %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float> %b, <8 x float> %b, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float> %b, <8 x float> %b, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	declare <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone			declare <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone
	define <2 x double> @test_x86_fmadd_baa_sd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmadd_baa_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_baa_sd:			; FMA-LABEL: test_x86_fmadd_baa_sd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm1			; FMA-NEXT: vmovapd (%rcx), %xmm1
	; FMA-NEXT: vmovapd (%rdx), %xmm0			; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfmadd213sd %xmm1, %xmm1, %xmm0			; FMA-NEXT: vfmadd213sd %xmm1, %xmm1, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_baa_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vmovapd (%rdx), %xmm1
	; FMA4-NEXT: vfmaddsd %xmm0, %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fmadd_aba_sd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmadd_aba_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_aba_sd:			; FMA-LABEL: test_x86_fmadd_aba_sd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0			; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfmadd132sd (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfmadd132sd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_aba_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfmaddsd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fmadd_bba_sd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmadd_bba_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_bba_sd:			; FMA-LABEL: test_x86_fmadd_bba_sd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %xmm0			; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfmadd213sd (%rcx), %xmm0, %xmm0			; FMA-NEXT: vfmadd213sd (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_bba_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %xmm0
	; FMA4-NEXT: vfmaddsd (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	declare <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone			declare <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone
	define <2 x double> @test_x86_fmadd_baa_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmadd_baa_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_baa_pd:			; FMA-LABEL: test_x86_fmadd_baa_pd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0			; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfmadd132pd (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfmadd132pd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_baa_pd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfmaddpd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fmadd_aba_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmadd_aba_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_aba_pd:			; FMA-LABEL: test_x86_fmadd_aba_pd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0			; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfmadd231pd (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfmadd231pd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_aba_pd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfmaddpd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fmadd_bba_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmadd_bba_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_bba_pd:			; FMA-LABEL: test_x86_fmadd_bba_pd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %xmm0			; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfmadd213pd (%rcx), %xmm0, %xmm0			; FMA-NEXT: vfmadd213pd (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_bba_pd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %xmm0
	; FMA4-NEXT: vfmaddpd (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	declare <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double>, <4 x double>, <4 x double>) nounwind readnone			declare <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double>, <4 x double>, <4 x double>) nounwind readnone
	define <4 x double> @test_x86_fmadd_baa_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fmadd_baa_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_baa_pd_y:			; FMA-LABEL: test_x86_fmadd_baa_pd_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %ymm0			; FMA-NEXT: vmovapd (%rcx), %ymm0
	; FMA-NEXT: vfmadd132pd (%rdx), %ymm0, %ymm0			; FMA-NEXT: vfmadd132pd (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_baa_pd_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %ymm0
	; FMA4-NEXT: vfmaddpd %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double> %b, <4 x double> %a, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double> %b, <4 x double> %a, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	define <4 x double> @test_x86_fmadd_aba_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fmadd_aba_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_aba_pd_y:			; FMA-LABEL: test_x86_fmadd_aba_pd_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %ymm0			; FMA-NEXT: vmovapd (%rcx), %ymm0
	; FMA-NEXT: vfmadd231pd (%rdx), %ymm0, %ymm0			; FMA-NEXT: vfmadd231pd (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_aba_pd_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %ymm0
	; FMA4-NEXT: vfmaddpd %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	define <4 x double> @test_x86_fmadd_bba_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fmadd_bba_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_bba_pd_y:			; FMA-LABEL: test_x86_fmadd_bba_pd_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %ymm0			; FMA-NEXT: vmovapd (%rdx), %ymm0
	; FMA-NEXT: vfmadd213pd (%rcx), %ymm0, %ymm0			; FMA-NEXT: vfmadd213pd (%rcx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_bba_pd_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %ymm0
	; FMA4-NEXT: vfmaddpd (%rcx), %ymm0, %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double> %b, <4 x double> %b, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double> %b, <4 x double> %b, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}


	declare <4 x float> @llvm.x86.fma.vfnmadd.ss(<4 x float>, <4 x float>, <4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.fma.vfnmadd.ss(<4 x float>, <4 x float>, <4 x float>) nounwind readnone
	define <4 x float> @test_x86_fnmadd_baa_ss(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fnmadd_baa_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_baa_ss:			; FMA-LABEL: test_x86_fnmadd_baa_ss:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm1			; FMA-NEXT: vmovaps (%rcx), %xmm1
	; FMA-NEXT: vmovaps (%rdx), %xmm0			; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfnmadd213ss %xmm1, %xmm1, %xmm0			; FMA-NEXT: vfnmadd213ss %xmm1, %xmm1, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_baa_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vmovaps (%rdx), %xmm1
	; FMA4-NEXT: vfnmaddss %xmm0, %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmadd.ss(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfnmadd.ss(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fnmadd_aba_ss(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fnmadd_aba_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_aba_ss:			; FMA-LABEL: test_x86_fnmadd_aba_ss:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0			; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfnmadd132ss (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfnmadd132ss (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_aba_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfnmaddss %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmadd.ss(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfnmadd.ss(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fnmadd_bba_ss(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fnmadd_bba_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_bba_ss:			; FMA-LABEL: test_x86_fnmadd_bba_ss:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %xmm0			; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfnmadd213ss (%rcx), %xmm0, %xmm0			; FMA-NEXT: vfnmadd213ss (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_bba_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %xmm0
	; FMA4-NEXT: vfnmaddss (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmadd.ss(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfnmadd.ss(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	declare <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float>, <4 x float>, <4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float>, <4 x float>, <4 x float>) nounwind readnone
	define <4 x float> @test_x86_fnmadd_baa_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fnmadd_baa_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_baa_ps:			; FMA-LABEL: test_x86_fnmadd_baa_ps:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0			; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfnmadd132ps (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfnmadd132ps (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_baa_ps:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfnmaddps %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fnmadd_aba_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fnmadd_aba_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_aba_ps:			; FMA-LABEL: test_x86_fnmadd_aba_ps:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0			; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfnmadd231ps (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfnmadd231ps (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_aba_ps:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfnmaddps %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fnmadd_bba_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fnmadd_bba_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_bba_ps:			; FMA-LABEL: test_x86_fnmadd_bba_ps:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %xmm0			; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfnmadd213ps (%rcx), %xmm0, %xmm0			; FMA-NEXT: vfnmadd213ps (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_bba_ps:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %xmm0
	; FMA4-NEXT: vfnmaddps (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	declare <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float>, <8 x float>, <8 x float>) nounwind readnone			declare <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float>, <8 x float>, <8 x float>) nounwind readnone
	define <8 x float> @test_x86_fnmadd_baa_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fnmadd_baa_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_baa_ps_y:			; FMA-LABEL: test_x86_fnmadd_baa_ps_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %ymm0			; FMA-NEXT: vmovaps (%rcx), %ymm0
	; FMA-NEXT: vfnmadd132ps (%rdx), %ymm0, %ymm0			; FMA-NEXT: vfnmadd132ps (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_baa_ps_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %ymm0
	; FMA4-NEXT: vfnmaddps %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float> %b, <8 x float> %a, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float> %b, <8 x float> %a, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @test_x86_fnmadd_aba_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fnmadd_aba_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_aba_ps_y:			; FMA-LABEL: test_x86_fnmadd_aba_ps_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %ymm0			; FMA-NEXT: vmovaps (%rcx), %ymm0
	; FMA-NEXT: vfnmadd231ps (%rdx), %ymm0, %ymm0			; FMA-NEXT: vfnmadd231ps (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_aba_ps_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %ymm0
	; FMA4-NEXT: vfnmaddps %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @test_x86_fnmadd_bba_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fnmadd_bba_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_bba_ps_y:			; FMA-LABEL: test_x86_fnmadd_bba_ps_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %ymm0			; FMA-NEXT: vmovaps (%rdx), %ymm0
	; FMA-NEXT: vfnmadd213ps (%rcx), %ymm0, %ymm0			; FMA-NEXT: vfnmadd213ps (%rcx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_bba_ps_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %ymm0
	; FMA4-NEXT: vfnmaddps (%rcx), %ymm0, %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float> %b, <8 x float> %b, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float> %b, <8 x float> %b, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	declare <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone			declare <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone
	define <2 x double> @test_x86_fnmadd_baa_sd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fnmadd_baa_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_baa_sd:			; FMA-LABEL: test_x86_fnmadd_baa_sd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm1			; FMA-NEXT: vmovapd (%rcx), %xmm1
	; FMA-NEXT: vmovapd (%rdx), %xmm0			; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfnmadd213sd %xmm1, %xmm1, %xmm0			; FMA-NEXT: vfnmadd213sd %xmm1, %xmm1, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_baa_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vmovapd (%rdx), %xmm1
	; FMA4-NEXT: vfnmaddsd %xmm0, %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fnmadd_aba_sd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fnmadd_aba_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_aba_sd:			; FMA-LABEL: test_x86_fnmadd_aba_sd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0			; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfnmadd132sd (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfnmadd132sd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_aba_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfnmaddsd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fnmadd_bba_sd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fnmadd_bba_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_bba_sd:			; FMA-LABEL: test_x86_fnmadd_bba_sd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %xmm0			; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfnmadd213sd (%rcx), %xmm0, %xmm0			; FMA-NEXT: vfnmadd213sd (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_bba_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %xmm0
	; FMA4-NEXT: vfnmaddsd (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	declare <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone			declare <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone
	define <2 x double> @test_x86_fnmadd_baa_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fnmadd_baa_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_baa_pd:			; FMA-LABEL: test_x86_fnmadd_baa_pd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0			; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfnmadd132pd (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfnmadd132pd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_baa_pd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfnmaddpd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fnmadd_aba_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fnmadd_aba_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_aba_pd:			; FMA-LABEL: test_x86_fnmadd_aba_pd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0			; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfnmadd231pd (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfnmadd231pd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_aba_pd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfnmaddpd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fnmadd_bba_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fnmadd_bba_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_bba_pd:			; FMA-LABEL: test_x86_fnmadd_bba_pd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %xmm0			; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfnmadd213pd (%rcx), %xmm0, %xmm0			; FMA-NEXT: vfnmadd213pd (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_bba_pd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %xmm0
	; FMA4-NEXT: vfnmaddpd (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	declare <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double>, <4 x double>, <4 x double>) nounwind readnone			declare <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double>, <4 x double>, <4 x double>) nounwind readnone
	define <4 x double> @test_x86_fnmadd_baa_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fnmadd_baa_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_baa_pd_y:			; FMA-LABEL: test_x86_fnmadd_baa_pd_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %ymm0			; FMA-NEXT: vmovapd (%rcx), %ymm0
	; FMA-NEXT: vfnmadd132pd (%rdx), %ymm0, %ymm0			; FMA-NEXT: vfnmadd132pd (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_baa_pd_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %ymm0
	; FMA4-NEXT: vfnmaddpd %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double> %b, <4 x double> %a, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double> %b, <4 x double> %a, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	define <4 x double> @test_x86_fnmadd_aba_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fnmadd_aba_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_aba_pd_y:			; FMA-LABEL: test_x86_fnmadd_aba_pd_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %ymm0			; FMA-NEXT: vmovapd (%rcx), %ymm0
	; FMA-NEXT: vfnmadd231pd (%rdx), %ymm0, %ymm0			; FMA-NEXT: vfnmadd231pd (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_aba_pd_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %ymm0
	; FMA4-NEXT: vfnmaddpd %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	define <4 x double> @test_x86_fnmadd_bba_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fnmadd_bba_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_bba_pd_y:			; FMA-LABEL: test_x86_fnmadd_bba_pd_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %ymm0			; FMA-NEXT: vmovapd (%rdx), %ymm0
	; FMA-NEXT: vfnmadd213pd (%rcx), %ymm0, %ymm0			; FMA-NEXT: vfnmadd213pd (%rcx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_bba_pd_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %ymm0
	; FMA4-NEXT: vfnmaddpd (%rcx), %ymm0, %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double> %b, <4 x double> %b, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double> %b, <4 x double> %b, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	declare <4 x float> @llvm.x86.fma.vfmsub.ss(<4 x float>, <4 x float>, <4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.fma.vfmsub.ss(<4 x float>, <4 x float>, <4 x float>) nounwind readnone
	define <4 x float> @test_x86_fmsub_baa_ss(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmsub_baa_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_baa_ss:			; FMA-LABEL: test_x86_fmsub_baa_ss:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm1			; FMA-NEXT: vmovaps (%rcx), %xmm1
	; FMA-NEXT: vmovaps (%rdx), %xmm0			; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfmsub213ss %xmm1, %xmm1, %xmm0			; FMA-NEXT: vfmsub213ss %xmm1, %xmm1, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_baa_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vmovaps (%rdx), %xmm1
	; FMA4-NEXT: vfmsubss %xmm0, %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmsub.ss(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfmsub.ss(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fmsub_aba_ss(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmsub_aba_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_aba_ss:			; FMA-LABEL: test_x86_fmsub_aba_ss:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0			; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfmsub132ss (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfmsub132ss (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_aba_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfmsubss %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmsub.ss(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfmsub.ss(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fmsub_bba_ss(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmsub_bba_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_bba_ss:			; FMA-LABEL: test_x86_fmsub_bba_ss:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %xmm0			; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfmsub213ss (%rcx), %xmm0, %xmm0			; FMA-NEXT: vfmsub213ss (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_bba_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %xmm0
	; FMA4-NEXT: vfmsubss (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmsub.ss(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfmsub.ss(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	declare <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float>, <4 x float>, <4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float>, <4 x float>, <4 x float>) nounwind readnone
	define <4 x float> @test_x86_fmsub_baa_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmsub_baa_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_baa_ps:			; FMA-LABEL: test_x86_fmsub_baa_ps:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0			; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfmsub132ps (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfmsub132ps (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_baa_ps:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfmsubps %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fmsub_aba_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmsub_aba_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_aba_ps:			; FMA-LABEL: test_x86_fmsub_aba_ps:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0			; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfmsub231ps (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfmsub231ps (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_aba_ps:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfmsubps %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fmsub_bba_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmsub_bba_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_bba_ps:			; FMA-LABEL: test_x86_fmsub_bba_ps:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %xmm0			; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfmsub213ps (%rcx), %xmm0, %xmm0			; FMA-NEXT: vfmsub213ps (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_bba_ps:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %xmm0
	; FMA4-NEXT: vfmsubps (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	declare <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float>, <8 x float>, <8 x float>) nounwind readnone			declare <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float>, <8 x float>, <8 x float>) nounwind readnone
	define <8 x float> @test_x86_fmsub_baa_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fmsub_baa_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_baa_ps_y:			; FMA-LABEL: test_x86_fmsub_baa_ps_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %ymm0			; FMA-NEXT: vmovaps (%rcx), %ymm0
	; FMA-NEXT: vfmsub132ps (%rdx), %ymm0, %ymm0			; FMA-NEXT: vfmsub132ps (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_baa_ps_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %ymm0
	; FMA4-NEXT: vfmsubps %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float> %b, <8 x float> %a, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float> %b, <8 x float> %a, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @test_x86_fmsub_aba_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fmsub_aba_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_aba_ps_y:			; FMA-LABEL: test_x86_fmsub_aba_ps_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %ymm0			; FMA-NEXT: vmovaps (%rcx), %ymm0
	; FMA-NEXT: vfmsub231ps (%rdx), %ymm0, %ymm0			; FMA-NEXT: vfmsub231ps (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_aba_ps_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %ymm0
	; FMA4-NEXT: vfmsubps %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @test_x86_fmsub_bba_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fmsub_bba_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_bba_ps_y:			; FMA-LABEL: test_x86_fmsub_bba_ps_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %ymm0			; FMA-NEXT: vmovaps (%rdx), %ymm0
	; FMA-NEXT: vfmsub213ps (%rcx), %ymm0, %ymm0			; FMA-NEXT: vfmsub213ps (%rcx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_bba_ps_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %ymm0
	; FMA4-NEXT: vfmsubps (%rcx), %ymm0, %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float> %b, <8 x float> %b, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float> %b, <8 x float> %b, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	declare <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone			declare <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone
	define <2 x double> @test_x86_fmsub_baa_sd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmsub_baa_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_baa_sd:			; FMA-LABEL: test_x86_fmsub_baa_sd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm1			; FMA-NEXT: vmovapd (%rcx), %xmm1
	; FMA-NEXT: vmovapd (%rdx), %xmm0			; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfmsub213sd %xmm1, %xmm1, %xmm0			; FMA-NEXT: vfmsub213sd %xmm1, %xmm1, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_baa_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vmovapd (%rdx), %xmm1
	; FMA4-NEXT: vfmsubsd %xmm0, %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fmsub_aba_sd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmsub_aba_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_aba_sd:			; FMA-LABEL: test_x86_fmsub_aba_sd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0			; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfmsub132sd (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfmsub132sd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_aba_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfmsubsd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fmsub_bba_sd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmsub_bba_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_bba_sd:			; FMA-LABEL: test_x86_fmsub_bba_sd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %xmm0			; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfmsub213sd (%rcx), %xmm0, %xmm0			; FMA-NEXT: vfmsub213sd (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_bba_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %xmm0
	; FMA4-NEXT: vfmsubsd (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	declare <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone			declare <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone
	define <2 x double> @test_x86_fmsub_baa_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmsub_baa_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_baa_pd:			; FMA-LABEL: test_x86_fmsub_baa_pd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0			; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfmsub132pd (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfmsub132pd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_baa_pd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfmsubpd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fmsub_aba_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmsub_aba_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_aba_pd:			; FMA-LABEL: test_x86_fmsub_aba_pd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0			; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfmsub231pd (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfmsub231pd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_aba_pd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfmsubpd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fmsub_bba_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmsub_bba_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_bba_pd:			; FMA-LABEL: test_x86_fmsub_bba_pd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %xmm0			; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfmsub213pd (%rcx), %xmm0, %xmm0			; FMA-NEXT: vfmsub213pd (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_bba_pd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %xmm0
	; FMA4-NEXT: vfmsubpd (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	declare <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double>, <4 x double>, <4 x double>) nounwind readnone			declare <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double>, <4 x double>, <4 x double>) nounwind readnone
	define <4 x double> @test_x86_fmsub_baa_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fmsub_baa_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_baa_pd_y:			; FMA-LABEL: test_x86_fmsub_baa_pd_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %ymm0			; FMA-NEXT: vmovapd (%rcx), %ymm0
	; FMA-NEXT: vfmsub132pd (%rdx), %ymm0, %ymm0			; FMA-NEXT: vfmsub132pd (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_baa_pd_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %ymm0
	; FMA4-NEXT: vfmsubpd %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double> %b, <4 x double> %a, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double> %b, <4 x double> %a, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	define <4 x double> @test_x86_fmsub_aba_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fmsub_aba_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_aba_pd_y:			; FMA-LABEL: test_x86_fmsub_aba_pd_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %ymm0			; FMA-NEXT: vmovapd (%rcx), %ymm0
	; FMA-NEXT: vfmsub231pd (%rdx), %ymm0, %ymm0			; FMA-NEXT: vfmsub231pd (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_aba_pd_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %ymm0
	; FMA4-NEXT: vfmsubpd %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	define <4 x double> @test_x86_fmsub_bba_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fmsub_bba_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_bba_pd_y:			; FMA-LABEL: test_x86_fmsub_bba_pd_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %ymm0			; FMA-NEXT: vmovapd (%rdx), %ymm0
	; FMA-NEXT: vfmsub213pd (%rcx), %ymm0, %ymm0			; FMA-NEXT: vfmsub213pd (%rcx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_bba_pd_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %ymm0
	; FMA4-NEXT: vfmsubpd (%rcx), %ymm0, %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double> %b, <4 x double> %b, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double> %b, <4 x double> %b, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}


	declare <4 x float> @llvm.x86.fma.vfnmsub.ss(<4 x float>, <4 x float>, <4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.fma.vfnmsub.ss(<4 x float>, <4 x float>, <4 x float>) nounwind readnone
	define <4 x float> @test_x86_fnmsub_baa_ss(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fnmsub_baa_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_baa_ss:			; FMA-LABEL: test_x86_fnmsub_baa_ss:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm1			; FMA-NEXT: vmovaps (%rcx), %xmm1
	; FMA-NEXT: vmovaps (%rdx), %xmm0			; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfnmsub213ss %xmm1, %xmm1, %xmm0			; FMA-NEXT: vfnmsub213ss %xmm1, %xmm1, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_baa_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vmovaps (%rdx), %xmm1
	; FMA4-NEXT: vfnmsubss %xmm0, %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmsub.ss(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfnmsub.ss(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fnmsub_aba_ss(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fnmsub_aba_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_aba_ss:			; FMA-LABEL: test_x86_fnmsub_aba_ss:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0			; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfnmsub132ss (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfnmsub132ss (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_aba_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfnmsubss %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmsub.ss(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfnmsub.ss(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fnmsub_bba_ss(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fnmsub_bba_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_bba_ss:			; FMA-LABEL: test_x86_fnmsub_bba_ss:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %xmm0			; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfnmsub213ss (%rcx), %xmm0, %xmm0			; FMA-NEXT: vfnmsub213ss (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_bba_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %xmm0
	; FMA4-NEXT: vfnmsubss (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmsub.ss(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfnmsub.ss(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	declare <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float>, <4 x float>, <4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float>, <4 x float>, <4 x float>) nounwind readnone
	define <4 x float> @test_x86_fnmsub_baa_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fnmsub_baa_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_baa_ps:			; FMA-LABEL: test_x86_fnmsub_baa_ps:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0			; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfnmsub132ps (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfnmsub132ps (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_baa_ps:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfnmsubps %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fnmsub_aba_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fnmsub_aba_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_aba_ps:			; FMA-LABEL: test_x86_fnmsub_aba_ps:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0			; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfnmsub231ps (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfnmsub231ps (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_aba_ps:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfnmsubps %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fnmsub_bba_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fnmsub_bba_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_bba_ps:			; FMA-LABEL: test_x86_fnmsub_bba_ps:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %xmm0			; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfnmsub213ps (%rcx), %xmm0, %xmm0			; FMA-NEXT: vfnmsub213ps (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_bba_ps:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %xmm0
	; FMA4-NEXT: vfnmsubps (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	declare <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float>, <8 x float>, <8 x float>) nounwind readnone			declare <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float>, <8 x float>, <8 x float>) nounwind readnone
	define <8 x float> @test_x86_fnmsub_baa_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fnmsub_baa_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_baa_ps_y:			; FMA-LABEL: test_x86_fnmsub_baa_ps_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %ymm0			; FMA-NEXT: vmovaps (%rcx), %ymm0
	; FMA-NEXT: vfnmsub132ps (%rdx), %ymm0, %ymm0			; FMA-NEXT: vfnmsub132ps (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_baa_ps_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %ymm0
	; FMA4-NEXT: vfnmsubps %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float> %b, <8 x float> %a, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float> %b, <8 x float> %a, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @test_x86_fnmsub_aba_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fnmsub_aba_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_aba_ps_y:			; FMA-LABEL: test_x86_fnmsub_aba_ps_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %ymm0			; FMA-NEXT: vmovaps (%rcx), %ymm0
	; FMA-NEXT: vfnmsub231ps (%rdx), %ymm0, %ymm0			; FMA-NEXT: vfnmsub231ps (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_aba_ps_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %ymm0
	; FMA4-NEXT: vfnmsubps %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @test_x86_fnmsub_bba_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fnmsub_bba_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_bba_ps_y:			; FMA-LABEL: test_x86_fnmsub_bba_ps_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %ymm0			; FMA-NEXT: vmovaps (%rdx), %ymm0
	; FMA-NEXT: vfnmsub213ps (%rcx), %ymm0, %ymm0			; FMA-NEXT: vfnmsub213ps (%rcx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_bba_ps_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %ymm0
	; FMA4-NEXT: vfnmsubps (%rcx), %ymm0, %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float> %b, <8 x float> %b, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float> %b, <8 x float> %b, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	declare <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone			declare <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone
	define <2 x double> @test_x86_fnmsub_baa_sd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fnmsub_baa_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_baa_sd:			; FMA-LABEL: test_x86_fnmsub_baa_sd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm1			; FMA-NEXT: vmovapd (%rcx), %xmm1
	; FMA-NEXT: vmovapd (%rdx), %xmm0			; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfnmsub213sd %xmm1, %xmm1, %xmm0			; FMA-NEXT: vfnmsub213sd %xmm1, %xmm1, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_baa_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vmovapd (%rdx), %xmm1
	; FMA4-NEXT: vfnmsubsd %xmm0, %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fnmsub_aba_sd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fnmsub_aba_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_aba_sd:			; FMA-LABEL: test_x86_fnmsub_aba_sd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0			; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfnmsub132sd (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfnmsub132sd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_aba_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfnmsubsd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fnmsub_bba_sd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fnmsub_bba_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_bba_sd:			; FMA-LABEL: test_x86_fnmsub_bba_sd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %xmm0			; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfnmsub213sd (%rcx), %xmm0, %xmm0			; FMA-NEXT: vfnmsub213sd (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_bba_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %xmm0
	; FMA4-NEXT: vfnmsubsd (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	declare <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone			declare <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone
	define <2 x double> @test_x86_fnmsub_baa_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fnmsub_baa_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_baa_pd:			; FMA-LABEL: test_x86_fnmsub_baa_pd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0			; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfnmsub132pd (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfnmsub132pd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_baa_pd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfnmsubpd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fnmsub_aba_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fnmsub_aba_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_aba_pd:			; FMA-LABEL: test_x86_fnmsub_aba_pd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0			; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfnmsub231pd (%rdx), %xmm0, %xmm0			; FMA-NEXT: vfnmsub231pd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_aba_pd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfnmsubpd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fnmsub_bba_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fnmsub_bba_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_bba_pd:			; FMA-LABEL: test_x86_fnmsub_bba_pd:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %xmm0			; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfnmsub213pd (%rcx), %xmm0, %xmm0			; FMA-NEXT: vfnmsub213pd (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_bba_pd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %xmm0
	; FMA4-NEXT: vfnmsubpd (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	declare <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double>, <4 x double>, <4 x double>) nounwind readnone			declare <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double>, <4 x double>, <4 x double>) nounwind readnone
	define <4 x double> @test_x86_fnmsub_baa_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fnmsub_baa_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_baa_pd_y:			; FMA-LABEL: test_x86_fnmsub_baa_pd_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %ymm0			; FMA-NEXT: vmovapd (%rcx), %ymm0
	; FMA-NEXT: vfnmsub132pd (%rdx), %ymm0, %ymm0			; FMA-NEXT: vfnmsub132pd (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_baa_pd_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %ymm0
	; FMA4-NEXT: vfnmsubpd %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double> %b, <4 x double> %a, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double> %b, <4 x double> %a, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	define <4 x double> @test_x86_fnmsub_aba_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fnmsub_aba_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_aba_pd_y:			; FMA-LABEL: test_x86_fnmsub_aba_pd_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %ymm0			; FMA-NEXT: vmovapd (%rcx), %ymm0
	; FMA-NEXT: vfnmsub231pd (%rdx), %ymm0, %ymm0			; FMA-NEXT: vfnmsub231pd (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_aba_pd_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %ymm0
	; FMA4-NEXT: vfnmsubpd %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	define <4 x double> @test_x86_fnmsub_bba_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fnmsub_bba_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_bba_pd_y:			; FMA-LABEL: test_x86_fnmsub_bba_pd_y:
	; FMA: # BB#0:			; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %ymm0			; FMA-NEXT: vmovapd (%rdx), %ymm0
	; FMA-NEXT: vfnmsub213pd (%rcx), %ymm0, %ymm0			; FMA-NEXT: vfnmsub213pd (%rcx), %ymm0, %ymm0
	; FMA-NEXT: retq			; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_bba_pd_y:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %ymm0
	; FMA4-NEXT: vfnmsubpd (%rcx), %ymm0, %ymm0, %ymm0
	; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double> %b, <4 x double> %b, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double> %b, <4 x double> %b, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}

test/CodeGen/X86/fma-intrinsics-x86.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+fma,-fma4 -show-mc-encoding \| FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-FMA			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+fma,-fma4 -show-mc-encoding \| FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-FMA
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vl,-fma4 -show-mc-encoding \| FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-AVX512VL			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vl,-fma4 -show-mc-encoding \| FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-AVX512VL
	; RUN: llc < %s -mtriple=x86_64-pc-windows -mattr=+fma,-fma4 -show-mc-encoding \| FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-FMA-WIN			; RUN: llc < %s -mtriple=x86_64-pc-windows -mattr=+fma,-fma4 -show-mc-encoding \| FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-FMA-WIN
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+fma4,-fma -show-mc-encoding \| FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-FMA4

	; VFMADD			; VFMADD
	define <4 x float> @test_x86_fma_vfmadd_ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {			define <4 x float> @test_x86_fma_vfmadd_ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmadd_ss:			; CHECK-FMA-LABEL: test_x86_fma_vfmadd_ss:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmadd213ss %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0x71,0xa9,0xc2]			; CHECK-FMA-NEXT: vfmadd213ss %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0x71,0xa9,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmadd_ss:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmadd_ss:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmadd213ss %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0xa9,0xc2]			; CHECK-AVX512VL-NEXT: vfmadd213ss %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0xa9,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmadd_ss:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmadd_ss:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x0a]			; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x0a]
	; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x01]			; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x01]
	; CHECK-FMA-WIN-NEXT: vfmadd213ss (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xa9,0x00]			; CHECK-FMA-WIN-NEXT: vfmadd213ss (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xa9,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmadd_ss:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmaddss %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x6a,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <4 x float> @llvm.x86.fma.vfmadd.ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)			%res = call <4 x float> @llvm.x86.fma.vfmadd.ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fma_vfmadd_bac_ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {			define <4 x float> @test_x86_fma_vfmadd_bac_ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmadd_bac_ss:			; CHECK-FMA-LABEL: test_x86_fma_vfmadd_bac_ss:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmadd213ss %xmm2, %xmm0, %xmm1 # encoding: [0xc4,0xe2,0x79,0xa9,0xca]			; CHECK-FMA-NEXT: vfmadd213ss %xmm2, %xmm0, %xmm1 # encoding: [0xc4,0xe2,0x79,0xa9,0xca]
	; CHECK-FMA-NEXT: vmovaps %xmm1, %xmm0 # encoding: [0xc5,0xf8,0x28,0xc1]			; CHECK-FMA-NEXT: vmovaps %xmm1, %xmm0 # encoding: [0xc5,0xf8,0x28,0xc1]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmadd_bac_ss:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmadd_bac_ss:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmadd213ss %xmm2, %xmm0, %xmm1 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0xa9,0xca]			; CHECK-AVX512VL-NEXT: vfmadd213ss %xmm2, %xmm0, %xmm1 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0xa9,0xca]
	; CHECK-AVX512VL-NEXT: vmovaps %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc1]			; CHECK-AVX512VL-NEXT: vmovaps %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc1]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmadd_bac_ss:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmadd_bac_ss:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfmadd213ss (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xa9,0x00]			; CHECK-FMA-WIN-NEXT: vfmadd213ss (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xa9,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmadd_bac_ss:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmaddss %xmm2, %xmm0, %xmm1, %xmm0 # encoding: [0xc4,0xe3,0xf1,0x6a,0xc2,0x00]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <4 x float> @llvm.x86.fma.vfmadd.ss(<4 x float> %a1, <4 x float> %a0, <4 x float> %a2)			%res = call <4 x float> @llvm.x86.fma.vfmadd.ss(<4 x float> %a1, <4 x float> %a0, <4 x float> %a2)
	ret <4 x float> %res			ret <4 x float> %res
	}			}
	declare <4 x float> @llvm.x86.fma.vfmadd.ss(<4 x float>, <4 x float>, <4 x float>)			declare <4 x float> @llvm.x86.fma.vfmadd.ss(<4 x float>, <4 x float>, <4 x float>)

	define <2 x double> @test_x86_fma_vfmadd_sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {			define <2 x double> @test_x86_fma_vfmadd_sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmadd_sd:			; CHECK-FMA-LABEL: test_x86_fma_vfmadd_sd:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmadd213sd %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0xf1,0xa9,0xc2]			; CHECK-FMA-NEXT: vfmadd213sd %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0xf1,0xa9,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmadd_sd:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmadd_sd:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmadd213sd %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf1,0xa9,0xc2]			; CHECK-AVX512VL-NEXT: vfmadd213sd %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf1,0xa9,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmadd_sd:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmadd_sd:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x0a]			; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x0a]
	; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x01]			; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x01]
	; CHECK-FMA-WIN-NEXT: vfmadd213sd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xa9,0x00]			; CHECK-FMA-WIN-NEXT: vfmadd213sd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xa9,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmadd_sd:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmaddsd %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x6b,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)			%res = call <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fma_vfmadd_bac_sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {			define <2 x double> @test_x86_fma_vfmadd_bac_sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmadd_bac_sd:			; CHECK-FMA-LABEL: test_x86_fma_vfmadd_bac_sd:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmadd213sd %xmm2, %xmm0, %xmm1 # encoding: [0xc4,0xe2,0xf9,0xa9,0xca]			; CHECK-FMA-NEXT: vfmadd213sd %xmm2, %xmm0, %xmm1 # encoding: [0xc4,0xe2,0xf9,0xa9,0xca]
	; CHECK-FMA-NEXT: vmovapd %xmm1, %xmm0 # encoding: [0xc5,0xf9,0x28,0xc1]			; CHECK-FMA-NEXT: vmovapd %xmm1, %xmm0 # encoding: [0xc5,0xf9,0x28,0xc1]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmadd_bac_sd:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmadd_bac_sd:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmadd213sd %xmm2, %xmm0, %xmm1 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf9,0xa9,0xca]			; CHECK-AVX512VL-NEXT: vfmadd213sd %xmm2, %xmm0, %xmm1 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf9,0xa9,0xca]
	; CHECK-AVX512VL-NEXT: vmovapd %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0x28,0xc1]			; CHECK-AVX512VL-NEXT: vmovapd %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0x28,0xc1]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmadd_bac_sd:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmadd_bac_sd:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfmadd213sd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xa9,0x00]			; CHECK-FMA-WIN-NEXT: vfmadd213sd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xa9,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmadd_bac_sd:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmaddsd %xmm2, %xmm0, %xmm1, %xmm0 # encoding: [0xc4,0xe3,0xf1,0x6b,0xc2,0x00]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double> %a1, <2 x double> %a0, <2 x double> %a2)			%res = call <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double> %a1, <2 x double> %a0, <2 x double> %a2)
	ret <2 x double> %res			ret <2 x double> %res
	}			}
	declare <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double>, <2 x double>, <2 x double>)			declare <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double>, <2 x double>, <2 x double>)

	define <4 x float> @test_x86_fma_vfmadd_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {			define <4 x float> @test_x86_fma_vfmadd_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmadd_ps:			; CHECK-FMA-LABEL: test_x86_fma_vfmadd_ps:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmadd213ps %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0x71,0xa8,0xc2]			; CHECK-FMA-NEXT: vfmadd213ps %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0x71,0xa8,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmadd_ps:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmadd_ps:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmadd213ps %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0xa8,0xc2]			; CHECK-AVX512VL-NEXT: vfmadd213ps %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0xa8,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmadd_ps:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmadd_ps:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfmadd213ps (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xa8,0x00]			; CHECK-FMA-WIN-NEXT: vfmadd213ps (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xa8,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmadd_ps:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmaddps %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x68,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)			%res = call <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)
	ret <4 x float> %res			ret <4 x float> %res
	}			}
	declare <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float>, <4 x float>, <4 x float>)			declare <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float>, <4 x float>, <4 x float>)

	define <2 x double> @test_x86_fma_vfmadd_pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {			define <2 x double> @test_x86_fma_vfmadd_pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmadd_pd:			; CHECK-FMA-LABEL: test_x86_fma_vfmadd_pd:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmadd213pd %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0xf1,0xa8,0xc2]			; CHECK-FMA-NEXT: vfmadd213pd %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0xf1,0xa8,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmadd_pd:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmadd_pd:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmadd213pd %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf1,0xa8,0xc2]			; CHECK-AVX512VL-NEXT: vfmadd213pd %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf1,0xa8,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmadd_pd:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmadd_pd:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfmadd213pd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xa8,0x00]			; CHECK-FMA-WIN-NEXT: vfmadd213pd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xa8,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmadd_pd:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmaddpd %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x69,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)			%res = call <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)
	ret <2 x double> %res			ret <2 x double> %res
	}			}
	declare <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double>, <2 x double>, <2 x double>)			declare <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double>, <2 x double>, <2 x double>)

	define <8 x float> @test_x86_fma_vfmadd_ps_256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) #0 {			define <8 x float> @test_x86_fma_vfmadd_ps_256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmadd_ps_256:			; CHECK-FMA-LABEL: test_x86_fma_vfmadd_ps_256:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmadd213ps %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0x75,0xa8,0xc2]			; CHECK-FMA-NEXT: vfmadd213ps %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0x75,0xa8,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmadd_ps_256:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmadd_ps_256:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmadd213ps %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x75,0xa8,0xc2]			; CHECK-AVX512VL-NEXT: vfmadd213ps %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x75,0xa8,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmadd_ps_256:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmadd_ps_256:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %ymm1 # encoding: [0xc5,0xfc,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %ymm1 # encoding: [0xc5,0xfc,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %ymm0 # encoding: [0xc5,0xfc,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %ymm0 # encoding: [0xc5,0xfc,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfmadd213ps (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0x75,0xa8,0x00]			; CHECK-FMA-WIN-NEXT: vfmadd213ps (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0x75,0xa8,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmadd_ps_256:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmaddps %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x68,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2)			%res = call <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2)
	ret <8 x float> %res			ret <8 x float> %res
	}			}
	declare <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float>, <8 x float>, <8 x float>)			declare <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float>, <8 x float>, <8 x float>)

	define <4 x double> @test_x86_fma_vfmadd_pd_256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2) #0 {			define <4 x double> @test_x86_fma_vfmadd_pd_256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmadd_pd_256:			; CHECK-FMA-LABEL: test_x86_fma_vfmadd_pd_256:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmadd213pd %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0xf5,0xa8,0xc2]			; CHECK-FMA-NEXT: vfmadd213pd %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0xf5,0xa8,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmadd_pd_256:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmadd_pd_256:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmadd213pd %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf5,0xa8,0xc2]			; CHECK-AVX512VL-NEXT: vfmadd213pd %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf5,0xa8,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmadd_pd_256:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmadd_pd_256:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %ymm1 # encoding: [0xc5,0xfd,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %ymm1 # encoding: [0xc5,0xfd,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %ymm0 # encoding: [0xc5,0xfd,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %ymm0 # encoding: [0xc5,0xfd,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfmadd213pd (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0xf5,0xa8,0x00]			; CHECK-FMA-WIN-NEXT: vfmadd213pd (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0xf5,0xa8,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmadd_pd_256:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmaddpd %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x69,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2)			%res = call <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2)
	ret <4 x double> %res			ret <4 x double> %res
	}			}
	declare <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double>, <4 x double>, <4 x double>)			declare <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double>, <4 x double>, <4 x double>)

	; VFMSUB			; VFMSUB
	define <4 x float> @test_x86_fma_vfmsub_ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {			define <4 x float> @test_x86_fma_vfmsub_ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmsub_ss:			; CHECK-FMA-LABEL: test_x86_fma_vfmsub_ss:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmsub213ss %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0x71,0xab,0xc2]			; CHECK-FMA-NEXT: vfmsub213ss %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0x71,0xab,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsub_ss:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsub_ss:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmsub213ss %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0xab,0xc2]			; CHECK-AVX512VL-NEXT: vfmsub213ss %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0xab,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsub_ss:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsub_ss:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x0a]			; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x0a]
	; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x01]			; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x01]
	; CHECK-FMA-WIN-NEXT: vfmsub213ss (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xab,0x00]			; CHECK-FMA-WIN-NEXT: vfmsub213ss (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xab,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmsub_ss:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmsubss %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x6e,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <4 x float> @llvm.x86.fma.vfmsub.ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)			%res = call <4 x float> @llvm.x86.fma.vfmsub.ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fma_vfmsub_bac_ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {			define <4 x float> @test_x86_fma_vfmsub_bac_ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmsub_bac_ss:			; CHECK-FMA-LABEL: test_x86_fma_vfmsub_bac_ss:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmsub213ss %xmm2, %xmm0, %xmm1 # encoding: [0xc4,0xe2,0x79,0xab,0xca]			; CHECK-FMA-NEXT: vfmsub213ss %xmm2, %xmm0, %xmm1 # encoding: [0xc4,0xe2,0x79,0xab,0xca]
	; CHECK-FMA-NEXT: vmovaps %xmm1, %xmm0 # encoding: [0xc5,0xf8,0x28,0xc1]			; CHECK-FMA-NEXT: vmovaps %xmm1, %xmm0 # encoding: [0xc5,0xf8,0x28,0xc1]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsub_bac_ss:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsub_bac_ss:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmsub213ss %xmm2, %xmm0, %xmm1 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0xab,0xca]			; CHECK-AVX512VL-NEXT: vfmsub213ss %xmm2, %xmm0, %xmm1 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0xab,0xca]
	; CHECK-AVX512VL-NEXT: vmovaps %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc1]			; CHECK-AVX512VL-NEXT: vmovaps %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc1]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsub_bac_ss:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsub_bac_ss:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfmsub213ss (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xab,0x00]			; CHECK-FMA-WIN-NEXT: vfmsub213ss (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xab,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmsub_bac_ss:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmsubss %xmm2, %xmm0, %xmm1, %xmm0 # encoding: [0xc4,0xe3,0xf1,0x6e,0xc2,0x00]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <4 x float> @llvm.x86.fma.vfmsub.ss(<4 x float> %a1, <4 x float> %a0, <4 x float> %a2)			%res = call <4 x float> @llvm.x86.fma.vfmsub.ss(<4 x float> %a1, <4 x float> %a0, <4 x float> %a2)
	ret <4 x float> %res			ret <4 x float> %res
	}			}
	declare <4 x float> @llvm.x86.fma.vfmsub.ss(<4 x float>, <4 x float>, <4 x float>)			declare <4 x float> @llvm.x86.fma.vfmsub.ss(<4 x float>, <4 x float>, <4 x float>)

	define <2 x double> @test_x86_fma_vfmsub_sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {			define <2 x double> @test_x86_fma_vfmsub_sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmsub_sd:			; CHECK-FMA-LABEL: test_x86_fma_vfmsub_sd:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmsub213sd %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0xf1,0xab,0xc2]			; CHECK-FMA-NEXT: vfmsub213sd %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0xf1,0xab,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsub_sd:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsub_sd:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmsub213sd %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf1,0xab,0xc2]			; CHECK-AVX512VL-NEXT: vfmsub213sd %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf1,0xab,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsub_sd:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsub_sd:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x0a]			; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x0a]
	; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x01]			; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x01]
	; CHECK-FMA-WIN-NEXT: vfmsub213sd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xab,0x00]			; CHECK-FMA-WIN-NEXT: vfmsub213sd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xab,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmsub_sd:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmsubsd %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x6f,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)			%res = call <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fma_vfmsub_bac_sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {			define <2 x double> @test_x86_fma_vfmsub_bac_sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmsub_bac_sd:			; CHECK-FMA-LABEL: test_x86_fma_vfmsub_bac_sd:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmsub213sd %xmm2, %xmm0, %xmm1 # encoding: [0xc4,0xe2,0xf9,0xab,0xca]			; CHECK-FMA-NEXT: vfmsub213sd %xmm2, %xmm0, %xmm1 # encoding: [0xc4,0xe2,0xf9,0xab,0xca]
	; CHECK-FMA-NEXT: vmovapd %xmm1, %xmm0 # encoding: [0xc5,0xf9,0x28,0xc1]			; CHECK-FMA-NEXT: vmovapd %xmm1, %xmm0 # encoding: [0xc5,0xf9,0x28,0xc1]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsub_bac_sd:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsub_bac_sd:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmsub213sd %xmm2, %xmm0, %xmm1 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf9,0xab,0xca]			; CHECK-AVX512VL-NEXT: vfmsub213sd %xmm2, %xmm0, %xmm1 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf9,0xab,0xca]
	; CHECK-AVX512VL-NEXT: vmovapd %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0x28,0xc1]			; CHECK-AVX512VL-NEXT: vmovapd %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0x28,0xc1]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsub_bac_sd:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsub_bac_sd:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfmsub213sd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xab,0x00]			; CHECK-FMA-WIN-NEXT: vfmsub213sd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xab,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmsub_bac_sd:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmsubsd %xmm2, %xmm0, %xmm1, %xmm0 # encoding: [0xc4,0xe3,0xf1,0x6f,0xc2,0x00]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double> %a1, <2 x double> %a0, <2 x double> %a2)			%res = call <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double> %a1, <2 x double> %a0, <2 x double> %a2)
	ret <2 x double> %res			ret <2 x double> %res
	}			}
	declare <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double>, <2 x double>, <2 x double>)			declare <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double>, <2 x double>, <2 x double>)

	define <4 x float> @test_x86_fma_vfmsub_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {			define <4 x float> @test_x86_fma_vfmsub_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmsub_ps:			; CHECK-FMA-LABEL: test_x86_fma_vfmsub_ps:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmsub213ps %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0x71,0xaa,0xc2]			; CHECK-FMA-NEXT: vfmsub213ps %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0x71,0xaa,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsub_ps:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsub_ps:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmsub213ps %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0xaa,0xc2]			; CHECK-AVX512VL-NEXT: vfmsub213ps %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0xaa,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsub_ps:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsub_ps:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfmsub213ps (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xaa,0x00]			; CHECK-FMA-WIN-NEXT: vfmsub213ps (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xaa,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmsub_ps:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmsubps %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x6c,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)			%res = call <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)
	ret <4 x float> %res			ret <4 x float> %res
	}			}
	declare <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float>, <4 x float>, <4 x float>)			declare <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float>, <4 x float>, <4 x float>)

	define <2 x double> @test_x86_fma_vfmsub_pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {			define <2 x double> @test_x86_fma_vfmsub_pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmsub_pd:			; CHECK-FMA-LABEL: test_x86_fma_vfmsub_pd:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmsub213pd %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0xf1,0xaa,0xc2]			; CHECK-FMA-NEXT: vfmsub213pd %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0xf1,0xaa,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsub_pd:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsub_pd:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmsub213pd %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf1,0xaa,0xc2]			; CHECK-AVX512VL-NEXT: vfmsub213pd %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf1,0xaa,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsub_pd:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsub_pd:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfmsub213pd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xaa,0x00]			; CHECK-FMA-WIN-NEXT: vfmsub213pd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xaa,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmsub_pd:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmsubpd %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x6d,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)			%res = call <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)
	ret <2 x double> %res			ret <2 x double> %res
	}			}
	declare <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double>, <2 x double>, <2 x double>)			declare <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double>, <2 x double>, <2 x double>)

	define <8 x float> @test_x86_fma_vfmsub_ps_256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) #0 {			define <8 x float> @test_x86_fma_vfmsub_ps_256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmsub_ps_256:			; CHECK-FMA-LABEL: test_x86_fma_vfmsub_ps_256:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmsub213ps %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0x75,0xaa,0xc2]			; CHECK-FMA-NEXT: vfmsub213ps %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0x75,0xaa,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsub_ps_256:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsub_ps_256:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmsub213ps %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x75,0xaa,0xc2]			; CHECK-AVX512VL-NEXT: vfmsub213ps %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x75,0xaa,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsub_ps_256:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsub_ps_256:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %ymm1 # encoding: [0xc5,0xfc,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %ymm1 # encoding: [0xc5,0xfc,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %ymm0 # encoding: [0xc5,0xfc,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %ymm0 # encoding: [0xc5,0xfc,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfmsub213ps (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0x75,0xaa,0x00]			; CHECK-FMA-WIN-NEXT: vfmsub213ps (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0x75,0xaa,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmsub_ps_256:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmsubps %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x6c,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2)			%res = call <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2)
	ret <8 x float> %res			ret <8 x float> %res
	}			}
	declare <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float>, <8 x float>, <8 x float>)			declare <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float>, <8 x float>, <8 x float>)

	define <4 x double> @test_x86_fma_vfmsub_pd_256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2) #0 {			define <4 x double> @test_x86_fma_vfmsub_pd_256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmsub_pd_256:			; CHECK-FMA-LABEL: test_x86_fma_vfmsub_pd_256:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmsub213pd %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0xf5,0xaa,0xc2]			; CHECK-FMA-NEXT: vfmsub213pd %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0xf5,0xaa,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsub_pd_256:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsub_pd_256:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmsub213pd %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf5,0xaa,0xc2]			; CHECK-AVX512VL-NEXT: vfmsub213pd %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf5,0xaa,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsub_pd_256:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsub_pd_256:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %ymm1 # encoding: [0xc5,0xfd,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %ymm1 # encoding: [0xc5,0xfd,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %ymm0 # encoding: [0xc5,0xfd,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %ymm0 # encoding: [0xc5,0xfd,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfmsub213pd (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0xf5,0xaa,0x00]			; CHECK-FMA-WIN-NEXT: vfmsub213pd (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0xf5,0xaa,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmsub_pd_256:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmsubpd %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x6d,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2)			%res = call <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2)
	ret <4 x double> %res			ret <4 x double> %res
	}			}
	declare <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double>, <4 x double>, <4 x double>)			declare <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double>, <4 x double>, <4 x double>)

	; VFNMADD			; VFNMADD
	define <4 x float> @test_x86_fma_vfnmadd_ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {			define <4 x float> @test_x86_fma_vfnmadd_ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfnmadd_ss:			; CHECK-FMA-LABEL: test_x86_fma_vfnmadd_ss:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfnmadd213ss %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0x71,0xad,0xc2]			; CHECK-FMA-NEXT: vfnmadd213ss %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0x71,0xad,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmadd_ss:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmadd_ss:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfnmadd213ss %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0xad,0xc2]			; CHECK-AVX512VL-NEXT: vfnmadd213ss %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0xad,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmadd_ss:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmadd_ss:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x0a]			; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x0a]
	; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x01]			; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x01]
	; CHECK-FMA-WIN-NEXT: vfnmadd213ss (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xad,0x00]			; CHECK-FMA-WIN-NEXT: vfnmadd213ss (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xad,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfnmadd_ss:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfnmaddss %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x7a,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <4 x float> @llvm.x86.fma.vfnmadd.ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)			%res = call <4 x float> @llvm.x86.fma.vfnmadd.ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fma_vfnmadd_bac_ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {			define <4 x float> @test_x86_fma_vfnmadd_bac_ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfnmadd_bac_ss:			; CHECK-FMA-LABEL: test_x86_fma_vfnmadd_bac_ss:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfnmadd213ss %xmm2, %xmm0, %xmm1 # encoding: [0xc4,0xe2,0x79,0xad,0xca]			; CHECK-FMA-NEXT: vfnmadd213ss %xmm2, %xmm0, %xmm1 # encoding: [0xc4,0xe2,0x79,0xad,0xca]
	; CHECK-FMA-NEXT: vmovaps %xmm1, %xmm0 # encoding: [0xc5,0xf8,0x28,0xc1]			; CHECK-FMA-NEXT: vmovaps %xmm1, %xmm0 # encoding: [0xc5,0xf8,0x28,0xc1]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmadd_bac_ss:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmadd_bac_ss:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfnmadd213ss %xmm2, %xmm0, %xmm1 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0xad,0xca]			; CHECK-AVX512VL-NEXT: vfnmadd213ss %xmm2, %xmm0, %xmm1 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0xad,0xca]
	; CHECK-AVX512VL-NEXT: vmovaps %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc1]			; CHECK-AVX512VL-NEXT: vmovaps %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc1]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmadd_bac_ss:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmadd_bac_ss:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfnmadd213ss (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xad,0x00]			; CHECK-FMA-WIN-NEXT: vfnmadd213ss (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xad,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfnmadd_bac_ss:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfnmaddss %xmm2, %xmm0, %xmm1, %xmm0 # encoding: [0xc4,0xe3,0xf1,0x7a,0xc2,0x00]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <4 x float> @llvm.x86.fma.vfnmadd.ss(<4 x float> %a1, <4 x float> %a0, <4 x float> %a2)			%res = call <4 x float> @llvm.x86.fma.vfnmadd.ss(<4 x float> %a1, <4 x float> %a0, <4 x float> %a2)
	ret <4 x float> %res			ret <4 x float> %res
	}			}
	declare <4 x float> @llvm.x86.fma.vfnmadd.ss(<4 x float>, <4 x float>, <4 x float>)			declare <4 x float> @llvm.x86.fma.vfnmadd.ss(<4 x float>, <4 x float>, <4 x float>)

	define <2 x double> @test_x86_fma_vfnmadd_sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {			define <2 x double> @test_x86_fma_vfnmadd_sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfnmadd_sd:			; CHECK-FMA-LABEL: test_x86_fma_vfnmadd_sd:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfnmadd213sd %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0xf1,0xad,0xc2]			; CHECK-FMA-NEXT: vfnmadd213sd %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0xf1,0xad,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmadd_sd:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmadd_sd:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfnmadd213sd %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf1,0xad,0xc2]			; CHECK-AVX512VL-NEXT: vfnmadd213sd %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf1,0xad,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmadd_sd:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmadd_sd:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x0a]			; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x0a]
	; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x01]			; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x01]
	; CHECK-FMA-WIN-NEXT: vfnmadd213sd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xad,0x00]			; CHECK-FMA-WIN-NEXT: vfnmadd213sd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xad,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfnmadd_sd:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfnmaddsd %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x7b,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)			%res = call <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fma_vfnmadd_bac_sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {			define <2 x double> @test_x86_fma_vfnmadd_bac_sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfnmadd_bac_sd:			; CHECK-FMA-LABEL: test_x86_fma_vfnmadd_bac_sd:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfnmadd213sd %xmm2, %xmm0, %xmm1 # encoding: [0xc4,0xe2,0xf9,0xad,0xca]			; CHECK-FMA-NEXT: vfnmadd213sd %xmm2, %xmm0, %xmm1 # encoding: [0xc4,0xe2,0xf9,0xad,0xca]
	; CHECK-FMA-NEXT: vmovapd %xmm1, %xmm0 # encoding: [0xc5,0xf9,0x28,0xc1]			; CHECK-FMA-NEXT: vmovapd %xmm1, %xmm0 # encoding: [0xc5,0xf9,0x28,0xc1]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmadd_bac_sd:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmadd_bac_sd:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfnmadd213sd %xmm2, %xmm0, %xmm1 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf9,0xad,0xca]			; CHECK-AVX512VL-NEXT: vfnmadd213sd %xmm2, %xmm0, %xmm1 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf9,0xad,0xca]
	; CHECK-AVX512VL-NEXT: vmovapd %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0x28,0xc1]			; CHECK-AVX512VL-NEXT: vmovapd %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0x28,0xc1]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmadd_bac_sd:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmadd_bac_sd:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfnmadd213sd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xad,0x00]			; CHECK-FMA-WIN-NEXT: vfnmadd213sd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xad,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfnmadd_bac_sd:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfnmaddsd %xmm2, %xmm0, %xmm1, %xmm0 # encoding: [0xc4,0xe3,0xf1,0x7b,0xc2,0x00]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double> %a1, <2 x double> %a0, <2 x double> %a2)			%res = call <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double> %a1, <2 x double> %a0, <2 x double> %a2)
	ret <2 x double> %res			ret <2 x double> %res
	}			}
	declare <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double>, <2 x double>, <2 x double>)			declare <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double>, <2 x double>, <2 x double>)

	define <4 x float> @test_x86_fma_vfnmadd_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {			define <4 x float> @test_x86_fma_vfnmadd_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfnmadd_ps:			; CHECK-FMA-LABEL: test_x86_fma_vfnmadd_ps:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfnmadd213ps %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0x71,0xac,0xc2]			; CHECK-FMA-NEXT: vfnmadd213ps %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0x71,0xac,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmadd_ps:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmadd_ps:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfnmadd213ps %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0xac,0xc2]			; CHECK-AVX512VL-NEXT: vfnmadd213ps %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0xac,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmadd_ps:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmadd_ps:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfnmadd213ps (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xac,0x00]			; CHECK-FMA-WIN-NEXT: vfnmadd213ps (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xac,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfnmadd_ps:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfnmaddps %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x78,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)			%res = call <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)
	ret <4 x float> %res			ret <4 x float> %res
	}			}
	declare <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float>, <4 x float>, <4 x float>)			declare <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float>, <4 x float>, <4 x float>)

	define <2 x double> @test_x86_fma_vfnmadd_pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {			define <2 x double> @test_x86_fma_vfnmadd_pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfnmadd_pd:			; CHECK-FMA-LABEL: test_x86_fma_vfnmadd_pd:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfnmadd213pd %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0xf1,0xac,0xc2]			; CHECK-FMA-NEXT: vfnmadd213pd %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0xf1,0xac,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmadd_pd:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmadd_pd:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfnmadd213pd %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf1,0xac,0xc2]			; CHECK-AVX512VL-NEXT: vfnmadd213pd %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf1,0xac,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmadd_pd:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmadd_pd:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfnmadd213pd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xac,0x00]			; CHECK-FMA-WIN-NEXT: vfnmadd213pd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xac,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfnmadd_pd:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfnmaddpd %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x79,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)			%res = call <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)
	ret <2 x double> %res			ret <2 x double> %res
	}			}
	declare <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double>, <2 x double>, <2 x double>)			declare <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double>, <2 x double>, <2 x double>)

	define <8 x float> @test_x86_fma_vfnmadd_ps_256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) #0 {			define <8 x float> @test_x86_fma_vfnmadd_ps_256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfnmadd_ps_256:			; CHECK-FMA-LABEL: test_x86_fma_vfnmadd_ps_256:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfnmadd213ps %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0x75,0xac,0xc2]			; CHECK-FMA-NEXT: vfnmadd213ps %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0x75,0xac,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmadd_ps_256:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmadd_ps_256:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfnmadd213ps %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x75,0xac,0xc2]			; CHECK-AVX512VL-NEXT: vfnmadd213ps %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x75,0xac,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmadd_ps_256:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmadd_ps_256:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %ymm1 # encoding: [0xc5,0xfc,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %ymm1 # encoding: [0xc5,0xfc,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %ymm0 # encoding: [0xc5,0xfc,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %ymm0 # encoding: [0xc5,0xfc,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfnmadd213ps (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0x75,0xac,0x00]			; CHECK-FMA-WIN-NEXT: vfnmadd213ps (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0x75,0xac,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfnmadd_ps_256:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfnmaddps %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x78,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2)			%res = call <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2)
	ret <8 x float> %res			ret <8 x float> %res
	}			}
	declare <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float>, <8 x float>, <8 x float>)			declare <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float>, <8 x float>, <8 x float>)

	define <4 x double> @test_x86_fma_vfnmadd_pd_256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2) #0 {			define <4 x double> @test_x86_fma_vfnmadd_pd_256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfnmadd_pd_256:			; CHECK-FMA-LABEL: test_x86_fma_vfnmadd_pd_256:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfnmadd213pd %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0xf5,0xac,0xc2]			; CHECK-FMA-NEXT: vfnmadd213pd %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0xf5,0xac,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmadd_pd_256:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmadd_pd_256:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfnmadd213pd %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf5,0xac,0xc2]			; CHECK-AVX512VL-NEXT: vfnmadd213pd %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf5,0xac,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmadd_pd_256:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmadd_pd_256:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %ymm1 # encoding: [0xc5,0xfd,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %ymm1 # encoding: [0xc5,0xfd,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %ymm0 # encoding: [0xc5,0xfd,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %ymm0 # encoding: [0xc5,0xfd,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfnmadd213pd (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0xf5,0xac,0x00]			; CHECK-FMA-WIN-NEXT: vfnmadd213pd (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0xf5,0xac,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfnmadd_pd_256:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfnmaddpd %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x79,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2)			%res = call <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2)
	ret <4 x double> %res			ret <4 x double> %res
	}			}
	declare <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double>, <4 x double>, <4 x double>)			declare <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double>, <4 x double>, <4 x double>)

	; VFNMSUB			; VFNMSUB
	define <4 x float> @test_x86_fma_vfnmsub_ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {			define <4 x float> @test_x86_fma_vfnmsub_ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfnmsub_ss:			; CHECK-FMA-LABEL: test_x86_fma_vfnmsub_ss:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfnmsub213ss %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0x71,0xaf,0xc2]			; CHECK-FMA-NEXT: vfnmsub213ss %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0x71,0xaf,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmsub_ss:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmsub_ss:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfnmsub213ss %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0xaf,0xc2]			; CHECK-AVX512VL-NEXT: vfnmsub213ss %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0xaf,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmsub_ss:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmsub_ss:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x0a]			; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x0a]
	; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x01]			; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x01]
	; CHECK-FMA-WIN-NEXT: vfnmsub213ss (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xaf,0x00]			; CHECK-FMA-WIN-NEXT: vfnmsub213ss (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xaf,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfnmsub_ss:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfnmsubss %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x7e,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <4 x float> @llvm.x86.fma.vfnmsub.ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)			%res = call <4 x float> @llvm.x86.fma.vfnmsub.ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fma_vfnmsub_bac_ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {			define <4 x float> @test_x86_fma_vfnmsub_bac_ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfnmsub_bac_ss:			; CHECK-FMA-LABEL: test_x86_fma_vfnmsub_bac_ss:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfnmsub213ss %xmm2, %xmm0, %xmm1 # encoding: [0xc4,0xe2,0x79,0xaf,0xca]			; CHECK-FMA-NEXT: vfnmsub213ss %xmm2, %xmm0, %xmm1 # encoding: [0xc4,0xe2,0x79,0xaf,0xca]
	; CHECK-FMA-NEXT: vmovaps %xmm1, %xmm0 # encoding: [0xc5,0xf8,0x28,0xc1]			; CHECK-FMA-NEXT: vmovaps %xmm1, %xmm0 # encoding: [0xc5,0xf8,0x28,0xc1]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmsub_bac_ss:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmsub_bac_ss:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfnmsub213ss %xmm2, %xmm0, %xmm1 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0xaf,0xca]			; CHECK-AVX512VL-NEXT: vfnmsub213ss %xmm2, %xmm0, %xmm1 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0xaf,0xca]
	; CHECK-AVX512VL-NEXT: vmovaps %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc1]			; CHECK-AVX512VL-NEXT: vmovaps %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc1]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmsub_bac_ss:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmsub_bac_ss:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfnmsub213ss (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xaf,0x00]			; CHECK-FMA-WIN-NEXT: vfnmsub213ss (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xaf,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfnmsub_bac_ss:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfnmsubss %xmm2, %xmm0, %xmm1, %xmm0 # encoding: [0xc4,0xe3,0xf1,0x7e,0xc2,0x00]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <4 x float> @llvm.x86.fma.vfnmsub.ss(<4 x float> %a1, <4 x float> %a0, <4 x float> %a2)			%res = call <4 x float> @llvm.x86.fma.vfnmsub.ss(<4 x float> %a1, <4 x float> %a0, <4 x float> %a2)
	ret <4 x float> %res			ret <4 x float> %res
	}			}
	declare <4 x float> @llvm.x86.fma.vfnmsub.ss(<4 x float>, <4 x float>, <4 x float>)			declare <4 x float> @llvm.x86.fma.vfnmsub.ss(<4 x float>, <4 x float>, <4 x float>)

	define <2 x double> @test_x86_fma_vfnmsub_sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {			define <2 x double> @test_x86_fma_vfnmsub_sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfnmsub_sd:			; CHECK-FMA-LABEL: test_x86_fma_vfnmsub_sd:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfnmsub213sd %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0xf1,0xaf,0xc2]			; CHECK-FMA-NEXT: vfnmsub213sd %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0xf1,0xaf,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmsub_sd:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmsub_sd:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfnmsub213sd %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf1,0xaf,0xc2]			; CHECK-AVX512VL-NEXT: vfnmsub213sd %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf1,0xaf,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmsub_sd:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmsub_sd:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x0a]			; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x0a]
	; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x01]			; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x01]
	; CHECK-FMA-WIN-NEXT: vfnmsub213sd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xaf,0x00]			; CHECK-FMA-WIN-NEXT: vfnmsub213sd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xaf,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfnmsub_sd:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfnmsubsd %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x7f,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)			%res = call <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fma_vfnmsub_bac_sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {			define <2 x double> @test_x86_fma_vfnmsub_bac_sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfnmsub_bac_sd:			; CHECK-FMA-LABEL: test_x86_fma_vfnmsub_bac_sd:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfnmsub213sd %xmm2, %xmm0, %xmm1 # encoding: [0xc4,0xe2,0xf9,0xaf,0xca]			; CHECK-FMA-NEXT: vfnmsub213sd %xmm2, %xmm0, %xmm1 # encoding: [0xc4,0xe2,0xf9,0xaf,0xca]
	; CHECK-FMA-NEXT: vmovapd %xmm1, %xmm0 # encoding: [0xc5,0xf9,0x28,0xc1]			; CHECK-FMA-NEXT: vmovapd %xmm1, %xmm0 # encoding: [0xc5,0xf9,0x28,0xc1]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmsub_bac_sd:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmsub_bac_sd:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfnmsub213sd %xmm2, %xmm0, %xmm1 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf9,0xaf,0xca]			; CHECK-AVX512VL-NEXT: vfnmsub213sd %xmm2, %xmm0, %xmm1 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf9,0xaf,0xca]
	; CHECK-AVX512VL-NEXT: vmovapd %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0x28,0xc1]			; CHECK-AVX512VL-NEXT: vmovapd %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf9,0x28,0xc1]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmsub_bac_sd:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmsub_bac_sd:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfnmsub213sd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xaf,0x00]			; CHECK-FMA-WIN-NEXT: vfnmsub213sd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xaf,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfnmsub_bac_sd:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfnmsubsd %xmm2, %xmm0, %xmm1, %xmm0 # encoding: [0xc4,0xe3,0xf1,0x7f,0xc2,0x00]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double> %a1, <2 x double> %a0, <2 x double> %a2)			%res = call <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double> %a1, <2 x double> %a0, <2 x double> %a2)
	ret <2 x double> %res			ret <2 x double> %res
	}			}
	declare <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double>, <2 x double>, <2 x double>)			declare <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double>, <2 x double>, <2 x double>)

	define <4 x float> @test_x86_fma_vfnmsub_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {			define <4 x float> @test_x86_fma_vfnmsub_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfnmsub_ps:			; CHECK-FMA-LABEL: test_x86_fma_vfnmsub_ps:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfnmsub213ps %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0x71,0xae,0xc2]			; CHECK-FMA-NEXT: vfnmsub213ps %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0x71,0xae,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmsub_ps:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmsub_ps:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfnmsub213ps %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0xae,0xc2]			; CHECK-AVX512VL-NEXT: vfnmsub213ps %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0xae,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmsub_ps:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmsub_ps:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfnmsub213ps (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xae,0x00]			; CHECK-FMA-WIN-NEXT: vfnmsub213ps (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xae,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfnmsub_ps:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfnmsubps %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x7c,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)			%res = call <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)
	ret <4 x float> %res			ret <4 x float> %res
	}			}
	declare <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float>, <4 x float>, <4 x float>)			declare <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float>, <4 x float>, <4 x float>)

	define <2 x double> @test_x86_fma_vfnmsub_pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {			define <2 x double> @test_x86_fma_vfnmsub_pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfnmsub_pd:			; CHECK-FMA-LABEL: test_x86_fma_vfnmsub_pd:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfnmsub213pd %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0xf1,0xae,0xc2]			; CHECK-FMA-NEXT: vfnmsub213pd %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0xf1,0xae,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmsub_pd:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmsub_pd:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfnmsub213pd %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf1,0xae,0xc2]			; CHECK-AVX512VL-NEXT: vfnmsub213pd %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf1,0xae,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmsub_pd:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmsub_pd:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfnmsub213pd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xae,0x00]			; CHECK-FMA-WIN-NEXT: vfnmsub213pd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xae,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfnmsub_pd:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfnmsubpd %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x7d,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)			%res = call <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)
	ret <2 x double> %res			ret <2 x double> %res
	}			}
	declare <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double>, <2 x double>, <2 x double>)			declare <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double>, <2 x double>, <2 x double>)

	define <8 x float> @test_x86_fma_vfnmsub_ps_256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) #0 {			define <8 x float> @test_x86_fma_vfnmsub_ps_256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfnmsub_ps_256:			; CHECK-FMA-LABEL: test_x86_fma_vfnmsub_ps_256:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfnmsub213ps %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0x75,0xae,0xc2]			; CHECK-FMA-NEXT: vfnmsub213ps %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0x75,0xae,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmsub_ps_256:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmsub_ps_256:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfnmsub213ps %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x75,0xae,0xc2]			; CHECK-AVX512VL-NEXT: vfnmsub213ps %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x75,0xae,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmsub_ps_256:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmsub_ps_256:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %ymm1 # encoding: [0xc5,0xfc,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %ymm1 # encoding: [0xc5,0xfc,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %ymm0 # encoding: [0xc5,0xfc,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %ymm0 # encoding: [0xc5,0xfc,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfnmsub213ps (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0x75,0xae,0x00]			; CHECK-FMA-WIN-NEXT: vfnmsub213ps (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0x75,0xae,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfnmsub_ps_256:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfnmsubps %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x7c,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2)			%res = call <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2)
	ret <8 x float> %res			ret <8 x float> %res
	}			}
	declare <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float>, <8 x float>, <8 x float>)			declare <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float>, <8 x float>, <8 x float>)

	define <4 x double> @test_x86_fma_vfnmsub_pd_256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2) #0 {			define <4 x double> @test_x86_fma_vfnmsub_pd_256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfnmsub_pd_256:			; CHECK-FMA-LABEL: test_x86_fma_vfnmsub_pd_256:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfnmsub213pd %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0xf5,0xae,0xc2]			; CHECK-FMA-NEXT: vfnmsub213pd %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0xf5,0xae,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmsub_pd_256:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfnmsub_pd_256:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfnmsub213pd %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf5,0xae,0xc2]			; CHECK-AVX512VL-NEXT: vfnmsub213pd %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf5,0xae,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmsub_pd_256:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfnmsub_pd_256:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %ymm1 # encoding: [0xc5,0xfd,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %ymm1 # encoding: [0xc5,0xfd,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %ymm0 # encoding: [0xc5,0xfd,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %ymm0 # encoding: [0xc5,0xfd,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfnmsub213pd (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0xf5,0xae,0x00]			; CHECK-FMA-WIN-NEXT: vfnmsub213pd (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0xf5,0xae,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfnmsub_pd_256:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfnmsubpd %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x7d,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2)			%res = call <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2)
	ret <4 x double> %res			ret <4 x double> %res
	}			}
	declare <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double>, <4 x double>, <4 x double>)			declare <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double>, <4 x double>, <4 x double>)

	; VFMADDSUB			; VFMADDSUB
	define <4 x float> @test_x86_fma_vfmaddsub_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {			define <4 x float> @test_x86_fma_vfmaddsub_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmaddsub_ps:			; CHECK-FMA-LABEL: test_x86_fma_vfmaddsub_ps:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmaddsub213ps %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0x71,0xa6,0xc2]			; CHECK-FMA-NEXT: vfmaddsub213ps %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0x71,0xa6,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmaddsub_ps:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmaddsub_ps:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmaddsub213ps %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0xa6,0xc2]			; CHECK-AVX512VL-NEXT: vfmaddsub213ps %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0xa6,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmaddsub_ps:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmaddsub_ps:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfmaddsub213ps (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xa6,0x00]			; CHECK-FMA-WIN-NEXT: vfmaddsub213ps (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xa6,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmaddsub_ps:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmaddsubps %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x5c,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <4 x float> @llvm.x86.fma.vfmaddsub.ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)			%res = call <4 x float> @llvm.x86.fma.vfmaddsub.ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)
	ret <4 x float> %res			ret <4 x float> %res
	}			}
	declare <4 x float> @llvm.x86.fma.vfmaddsub.ps(<4 x float>, <4 x float>, <4 x float>)			declare <4 x float> @llvm.x86.fma.vfmaddsub.ps(<4 x float>, <4 x float>, <4 x float>)

	define <2 x double> @test_x86_fma_vfmaddsub_pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {			define <2 x double> @test_x86_fma_vfmaddsub_pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmaddsub_pd:			; CHECK-FMA-LABEL: test_x86_fma_vfmaddsub_pd:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmaddsub213pd %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0xf1,0xa6,0xc2]			; CHECK-FMA-NEXT: vfmaddsub213pd %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0xf1,0xa6,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmaddsub_pd:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmaddsub_pd:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmaddsub213pd %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf1,0xa6,0xc2]			; CHECK-AVX512VL-NEXT: vfmaddsub213pd %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf1,0xa6,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmaddsub_pd:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmaddsub_pd:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfmaddsub213pd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xa6,0x00]			; CHECK-FMA-WIN-NEXT: vfmaddsub213pd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xa6,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmaddsub_pd:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmaddsubpd %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x5d,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <2 x double> @llvm.x86.fma.vfmaddsub.pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)			%res = call <2 x double> @llvm.x86.fma.vfmaddsub.pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)
	ret <2 x double> %res			ret <2 x double> %res
	}			}
	declare <2 x double> @llvm.x86.fma.vfmaddsub.pd(<2 x double>, <2 x double>, <2 x double>)			declare <2 x double> @llvm.x86.fma.vfmaddsub.pd(<2 x double>, <2 x double>, <2 x double>)

	define <8 x float> @test_x86_fma_vfmaddsub_ps_256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) #0 {			define <8 x float> @test_x86_fma_vfmaddsub_ps_256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmaddsub_ps_256:			; CHECK-FMA-LABEL: test_x86_fma_vfmaddsub_ps_256:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmaddsub213ps %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0x75,0xa6,0xc2]			; CHECK-FMA-NEXT: vfmaddsub213ps %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0x75,0xa6,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmaddsub_ps_256:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmaddsub_ps_256:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmaddsub213ps %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x75,0xa6,0xc2]			; CHECK-AVX512VL-NEXT: vfmaddsub213ps %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x75,0xa6,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmaddsub_ps_256:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmaddsub_ps_256:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %ymm1 # encoding: [0xc5,0xfc,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %ymm1 # encoding: [0xc5,0xfc,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %ymm0 # encoding: [0xc5,0xfc,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %ymm0 # encoding: [0xc5,0xfc,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfmaddsub213ps (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0x75,0xa6,0x00]			; CHECK-FMA-WIN-NEXT: vfmaddsub213ps (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0x75,0xa6,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmaddsub_ps_256:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmaddsubps %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x5c,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <8 x float> @llvm.x86.fma.vfmaddsub.ps.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2)			%res = call <8 x float> @llvm.x86.fma.vfmaddsub.ps.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2)
	ret <8 x float> %res			ret <8 x float> %res
	}			}
	declare <8 x float> @llvm.x86.fma.vfmaddsub.ps.256(<8 x float>, <8 x float>, <8 x float>)			declare <8 x float> @llvm.x86.fma.vfmaddsub.ps.256(<8 x float>, <8 x float>, <8 x float>)

	define <4 x double> @test_x86_fma_vfmaddsub_pd_256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2) #0 {			define <4 x double> @test_x86_fma_vfmaddsub_pd_256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmaddsub_pd_256:			; CHECK-FMA-LABEL: test_x86_fma_vfmaddsub_pd_256:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmaddsub213pd %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0xf5,0xa6,0xc2]			; CHECK-FMA-NEXT: vfmaddsub213pd %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0xf5,0xa6,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmaddsub_pd_256:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmaddsub_pd_256:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmaddsub213pd %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf5,0xa6,0xc2]			; CHECK-AVX512VL-NEXT: vfmaddsub213pd %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf5,0xa6,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmaddsub_pd_256:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmaddsub_pd_256:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %ymm1 # encoding: [0xc5,0xfd,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %ymm1 # encoding: [0xc5,0xfd,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %ymm0 # encoding: [0xc5,0xfd,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %ymm0 # encoding: [0xc5,0xfd,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfmaddsub213pd (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0xf5,0xa6,0x00]			; CHECK-FMA-WIN-NEXT: vfmaddsub213pd (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0xf5,0xa6,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmaddsub_pd_256:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmaddsubpd %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x5d,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <4 x double> @llvm.x86.fma.vfmaddsub.pd.256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2)			%res = call <4 x double> @llvm.x86.fma.vfmaddsub.pd.256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2)
	ret <4 x double> %res			ret <4 x double> %res
	}			}
	declare <4 x double> @llvm.x86.fma.vfmaddsub.pd.256(<4 x double>, <4 x double>, <4 x double>)			declare <4 x double> @llvm.x86.fma.vfmaddsub.pd.256(<4 x double>, <4 x double>, <4 x double>)

	; VFMSUBADD			; VFMSUBADD
	define <4 x float> @test_x86_fma_vfmsubadd_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {			define <4 x float> @test_x86_fma_vfmsubadd_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmsubadd_ps:			; CHECK-FMA-LABEL: test_x86_fma_vfmsubadd_ps:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmsubadd213ps %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0x71,0xa7,0xc2]			; CHECK-FMA-NEXT: vfmsubadd213ps %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0x71,0xa7,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsubadd_ps:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsubadd_ps:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmsubadd213ps %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0xa7,0xc2]			; CHECK-AVX512VL-NEXT: vfmsubadd213ps %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x71,0xa7,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsubadd_ps:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsubadd_ps:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %xmm1 # encoding: [0xc5,0xf8,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %xmm0 # encoding: [0xc5,0xf8,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfmsubadd213ps (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xa7,0x00]			; CHECK-FMA-WIN-NEXT: vfmsubadd213ps (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0x71,0xa7,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmsubadd_ps:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmsubaddps %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x5e,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <4 x float> @llvm.x86.fma.vfmsubadd.ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)			%res = call <4 x float> @llvm.x86.fma.vfmsubadd.ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)
	ret <4 x float> %res			ret <4 x float> %res
	}			}
	declare <4 x float> @llvm.x86.fma.vfmsubadd.ps(<4 x float>, <4 x float>, <4 x float>)			declare <4 x float> @llvm.x86.fma.vfmsubadd.ps(<4 x float>, <4 x float>, <4 x float>)

	define <2 x double> @test_x86_fma_vfmsubadd_pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {			define <2 x double> @test_x86_fma_vfmsubadd_pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmsubadd_pd:			; CHECK-FMA-LABEL: test_x86_fma_vfmsubadd_pd:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmsubadd213pd %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0xf1,0xa7,0xc2]			; CHECK-FMA-NEXT: vfmsubadd213pd %xmm2, %xmm1, %xmm0 # encoding: [0xc4,0xe2,0xf1,0xa7,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsubadd_pd:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsubadd_pd:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmsubadd213pd %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf1,0xa7,0xc2]			; CHECK-AVX512VL-NEXT: vfmsubadd213pd %xmm2, %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf1,0xa7,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsubadd_pd:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsubadd_pd:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %xmm1 # encoding: [0xc5,0xf9,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %xmm0 # encoding: [0xc5,0xf9,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfmsubadd213pd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xa7,0x00]			; CHECK-FMA-WIN-NEXT: vfmsubadd213pd (%r8), %xmm1, %xmm0 # encoding: [0xc4,0xc2,0xf1,0xa7,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmsubadd_pd:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmsubaddpd %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x5f,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <2 x double> @llvm.x86.fma.vfmsubadd.pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)			%res = call <2 x double> @llvm.x86.fma.vfmsubadd.pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)
	ret <2 x double> %res			ret <2 x double> %res
	}			}
	declare <2 x double> @llvm.x86.fma.vfmsubadd.pd(<2 x double>, <2 x double>, <2 x double>)			declare <2 x double> @llvm.x86.fma.vfmsubadd.pd(<2 x double>, <2 x double>, <2 x double>)

	define <8 x float> @test_x86_fma_vfmsubadd_ps_256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) #0 {			define <8 x float> @test_x86_fma_vfmsubadd_ps_256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmsubadd_ps_256:			; CHECK-FMA-LABEL: test_x86_fma_vfmsubadd_ps_256:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmsubadd213ps %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0x75,0xa7,0xc2]			; CHECK-FMA-NEXT: vfmsubadd213ps %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0x75,0xa7,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsubadd_ps_256:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsubadd_ps_256:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmsubadd213ps %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x75,0xa7,0xc2]			; CHECK-AVX512VL-NEXT: vfmsubadd213ps %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0x75,0xa7,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsubadd_ps_256:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsubadd_ps_256:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %ymm1 # encoding: [0xc5,0xfc,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovaps (%rcx), %ymm1 # encoding: [0xc5,0xfc,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %ymm0 # encoding: [0xc5,0xfc,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovaps (%rdx), %ymm0 # encoding: [0xc5,0xfc,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfmsubadd213ps (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0x75,0xa7,0x00]			; CHECK-FMA-WIN-NEXT: vfmsubadd213ps (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0x75,0xa7,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmsubadd_ps_256:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmsubaddps %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x5e,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <8 x float> @llvm.x86.fma.vfmsubadd.ps.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2)			%res = call <8 x float> @llvm.x86.fma.vfmsubadd.ps.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2)
	ret <8 x float> %res			ret <8 x float> %res
	}			}
	declare <8 x float> @llvm.x86.fma.vfmsubadd.ps.256(<8 x float>, <8 x float>, <8 x float>)			declare <8 x float> @llvm.x86.fma.vfmsubadd.ps.256(<8 x float>, <8 x float>, <8 x float>)

	define <4 x double> @test_x86_fma_vfmsubadd_pd_256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2) #0 {			define <4 x double> @test_x86_fma_vfmsubadd_pd_256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2) #0 {
	; CHECK-FMA-LABEL: test_x86_fma_vfmsubadd_pd_256:			; CHECK-FMA-LABEL: test_x86_fma_vfmsubadd_pd_256:
	; CHECK-FMA: # BB#0:			; CHECK-FMA: # BB#0:
	; CHECK-FMA-NEXT: vfmsubadd213pd %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0xf5,0xa7,0xc2]			; CHECK-FMA-NEXT: vfmsubadd213pd %ymm2, %ymm1, %ymm0 # encoding: [0xc4,0xe2,0xf5,0xa7,0xc2]
	; CHECK-FMA-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsubadd_pd_256:			; CHECK-AVX512VL-LABEL: test_x86_fma_vfmsubadd_pd_256:
	; CHECK-AVX512VL: # BB#0:			; CHECK-AVX512VL: # BB#0:
	; CHECK-AVX512VL-NEXT: vfmsubadd213pd %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf5,0xa7,0xc2]			; CHECK-AVX512VL-NEXT: vfmsubadd213pd %ymm2, %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc4,0xe2,0xf5,0xa7,0xc2]
	; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]			; CHECK-AVX512VL-NEXT: retq # encoding: [0xc3]
	;			;
	; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsubadd_pd_256:			; CHECK-FMA-WIN-LABEL: test_x86_fma_vfmsubadd_pd_256:
	; CHECK-FMA-WIN: # BB#0:			; CHECK-FMA-WIN: # BB#0:
	; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %ymm1 # encoding: [0xc5,0xfd,0x28,0x09]			; CHECK-FMA-WIN-NEXT: vmovapd (%rcx), %ymm1 # encoding: [0xc5,0xfd,0x28,0x09]
	; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %ymm0 # encoding: [0xc5,0xfd,0x28,0x02]			; CHECK-FMA-WIN-NEXT: vmovapd (%rdx), %ymm0 # encoding: [0xc5,0xfd,0x28,0x02]
	; CHECK-FMA-WIN-NEXT: vfmsubadd213pd (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0xf5,0xa7,0x00]			; CHECK-FMA-WIN-NEXT: vfmsubadd213pd (%r8), %ymm1, %ymm0 # encoding: [0xc4,0xc2,0xf5,0xa7,0x00]
	; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]			; CHECK-FMA-WIN-NEXT: retq # encoding: [0xc3]
	;
	; CHECK-FMA4-LABEL: test_x86_fma_vfmsubadd_pd_256:
	; CHECK-FMA4: # BB#0:
	; CHECK-FMA4-NEXT: vfmsubaddpd %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x5f,0xc2,0x10]
	; CHECK-FMA4-NEXT: retq # encoding: [0xc3]
	%res = call <4 x double> @llvm.x86.fma.vfmsubadd.pd.256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2)			%res = call <4 x double> @llvm.x86.fma.vfmsubadd.pd.256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2)
	ret <4 x double> %res			ret <4 x double> %res
	}			}
	declare <4 x double> @llvm.x86.fma.vfmsubadd.pd.256(<4 x double>, <4 x double>, <4 x double>)			declare <4 x double> @llvm.x86.fma.vfmsubadd.pd.256(<4 x double>, <4 x double>, <4 x double>)

	attributes #0 = { nounwind }			attributes #0 = { nounwind }

test/CodeGen/X86/fma-scalar-memfold.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mcpu=core-avx2 \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX2			; RUN: llc < %s -mcpu=core-avx2 \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX2
	; RUN: llc < %s -mcpu=skx \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX512			; RUN: llc < %s -mcpu=skx \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX512
	; RUN: llc < %s -mattr=fma4 \| FileCheck %s --check-prefix=FMA4

	target triple = "x86_64-unknown-unknown"			target triple = "x86_64-unknown-unknown"

	declare <4 x float> @llvm.x86.fma.vfmadd.ss(<4 x float>, <4 x float>, <4 x float>)			declare <4 x float> @llvm.x86.fma.vfmadd.ss(<4 x float>, <4 x float>, <4 x float>)
	declare <4 x float> @llvm.x86.fma.vfmsub.ss(<4 x float>, <4 x float>, <4 x float>)			declare <4 x float> @llvm.x86.fma.vfmsub.ss(<4 x float>, <4 x float>, <4 x float>)
	declare <4 x float> @llvm.x86.fma.vfnmadd.ss(<4 x float>, <4 x float>, <4 x float>)			declare <4 x float> @llvm.x86.fma.vfnmadd.ss(<4 x float>, <4 x float>, <4 x float>)
	declare <4 x float> @llvm.x86.fma.vfnmsub.ss(<4 x float>, <4 x float>, <4 x float>)			declare <4 x float> @llvm.x86.fma.vfnmsub.ss(<4 x float>, <4 x float>, <4 x float>)

	declare <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double>, <2 x double>, <2 x double>)			declare <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double>, <2 x double>, <2 x double>)
	declare <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double>, <2 x double>, <2 x double>)			declare <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double>, <2 x double>, <2 x double>)
	declare <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double>, <2 x double>, <2 x double>)			declare <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double>, <2 x double>, <2 x double>)
	declare <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double>, <2 x double>, <2 x double>)			declare <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double>, <2 x double>, <2 x double>)

	define void @fmadd_aab_ss(float* %a, float* %b) {			define void @fmadd_aab_ss(float* %a, float* %b) {
	; CHECK-LABEL: fmadd_aab_ss:			; CHECK-LABEL: fmadd_aab_ss:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: vfmadd213ss (%rsi), %xmm0, %xmm0			; CHECK-NEXT: vfmadd213ss (%rsi), %xmm0, %xmm0
	; CHECK-NEXT: vmovss %xmm0, (%rdi)			; CHECK-NEXT: vmovss %xmm0, (%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;
	; FMA4-LABEL: fmadd_aab_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; FMA4-NEXT: vfmaddss (%rsi), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: vmovss %xmm0, (%rdi)
	; FMA4-NEXT: retq
	%a.val = load float, float* %a			%a.val = load float, float* %a
	%av0 = insertelement <4 x float> undef, float %a.val, i32 0			%av0 = insertelement <4 x float> undef, float %a.val, i32 0
	%av1 = insertelement <4 x float> %av0, float 0.000000e+00, i32 1			%av1 = insertelement <4 x float> %av0, float 0.000000e+00, i32 1
	%av2 = insertelement <4 x float> %av1, float 0.000000e+00, i32 2			%av2 = insertelement <4 x float> %av1, float 0.000000e+00, i32 2
	%av = insertelement <4 x float> %av2, float 0.000000e+00, i32 3			%av = insertelement <4 x float> %av2, float 0.000000e+00, i32 3

	%b.val = load float, float* %b			%b.val = load float, float* %b
	%bv0 = insertelement <4 x float> undef, float %b.val, i32 0			%bv0 = insertelement <4 x float> undef, float %b.val, i32 0
	Show All 10 Lines

	define void @fmadd_aba_ss(float* %a, float* %b) {			define void @fmadd_aba_ss(float* %a, float* %b) {
	; CHECK-LABEL: fmadd_aba_ss:			; CHECK-LABEL: fmadd_aba_ss:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: vfmadd132ss (%rsi), %xmm0, %xmm0			; CHECK-NEXT: vfmadd132ss (%rsi), %xmm0, %xmm0
	; CHECK-NEXT: vmovss %xmm0, (%rdi)			; CHECK-NEXT: vmovss %xmm0, (%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;
	; FMA4-LABEL: fmadd_aba_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; FMA4-NEXT: vfmaddss %xmm0, (%rsi), %xmm0, %xmm0
	; FMA4-NEXT: vmovss %xmm0, (%rdi)
	; FMA4-NEXT: retq
	%a.val = load float, float* %a			%a.val = load float, float* %a
	%av0 = insertelement <4 x float> undef, float %a.val, i32 0			%av0 = insertelement <4 x float> undef, float %a.val, i32 0
	%av1 = insertelement <4 x float> %av0, float 0.000000e+00, i32 1			%av1 = insertelement <4 x float> %av0, float 0.000000e+00, i32 1
	%av2 = insertelement <4 x float> %av1, float 0.000000e+00, i32 2			%av2 = insertelement <4 x float> %av1, float 0.000000e+00, i32 2
	%av = insertelement <4 x float> %av2, float 0.000000e+00, i32 3			%av = insertelement <4 x float> %av2, float 0.000000e+00, i32 3

	%b.val = load float, float* %b			%b.val = load float, float* %b
	%bv0 = insertelement <4 x float> undef, float %b.val, i32 0			%bv0 = insertelement <4 x float> undef, float %b.val, i32 0
	Show All 10 Lines

	define void @fmsub_aab_ss(float* %a, float* %b) {			define void @fmsub_aab_ss(float* %a, float* %b) {
	; CHECK-LABEL: fmsub_aab_ss:			; CHECK-LABEL: fmsub_aab_ss:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: vfmsub213ss (%rsi), %xmm0, %xmm0			; CHECK-NEXT: vfmsub213ss (%rsi), %xmm0, %xmm0
	; CHECK-NEXT: vmovss %xmm0, (%rdi)			; CHECK-NEXT: vmovss %xmm0, (%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;
	; FMA4-LABEL: fmsub_aab_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; FMA4-NEXT: vfmsubss (%rsi), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: vmovss %xmm0, (%rdi)
	; FMA4-NEXT: retq
	%a.val = load float, float* %a			%a.val = load float, float* %a
	%av0 = insertelement <4 x float> undef, float %a.val, i32 0			%av0 = insertelement <4 x float> undef, float %a.val, i32 0
	%av1 = insertelement <4 x float> %av0, float 0.000000e+00, i32 1			%av1 = insertelement <4 x float> %av0, float 0.000000e+00, i32 1
	%av2 = insertelement <4 x float> %av1, float 0.000000e+00, i32 2			%av2 = insertelement <4 x float> %av1, float 0.000000e+00, i32 2
	%av = insertelement <4 x float> %av2, float 0.000000e+00, i32 3			%av = insertelement <4 x float> %av2, float 0.000000e+00, i32 3

	%b.val = load float, float* %b			%b.val = load float, float* %b
	%bv0 = insertelement <4 x float> undef, float %b.val, i32 0			%bv0 = insertelement <4 x float> undef, float %b.val, i32 0
	Show All 10 Lines

	define void @fmsub_aba_ss(float* %a, float* %b) {			define void @fmsub_aba_ss(float* %a, float* %b) {
	; CHECK-LABEL: fmsub_aba_ss:			; CHECK-LABEL: fmsub_aba_ss:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: vfmsub132ss (%rsi), %xmm0, %xmm0			; CHECK-NEXT: vfmsub132ss (%rsi), %xmm0, %xmm0
	; CHECK-NEXT: vmovss %xmm0, (%rdi)			; CHECK-NEXT: vmovss %xmm0, (%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;
	; FMA4-LABEL: fmsub_aba_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; FMA4-NEXT: vfmsubss %xmm0, (%rsi), %xmm0, %xmm0
	; FMA4-NEXT: vmovss %xmm0, (%rdi)
	; FMA4-NEXT: retq
	%a.val = load float, float* %a			%a.val = load float, float* %a
	%av0 = insertelement <4 x float> undef, float %a.val, i32 0			%av0 = insertelement <4 x float> undef, float %a.val, i32 0
	%av1 = insertelement <4 x float> %av0, float 0.000000e+00, i32 1			%av1 = insertelement <4 x float> %av0, float 0.000000e+00, i32 1
	%av2 = insertelement <4 x float> %av1, float 0.000000e+00, i32 2			%av2 = insertelement <4 x float> %av1, float 0.000000e+00, i32 2
	%av = insertelement <4 x float> %av2, float 0.000000e+00, i32 3			%av = insertelement <4 x float> %av2, float 0.000000e+00, i32 3

	%b.val = load float, float* %b			%b.val = load float, float* %b
	%bv0 = insertelement <4 x float> undef, float %b.val, i32 0			%bv0 = insertelement <4 x float> undef, float %b.val, i32 0
	Show All 10 Lines

	define void @fnmadd_aab_ss(float* %a, float* %b) {			define void @fnmadd_aab_ss(float* %a, float* %b) {
	; CHECK-LABEL: fnmadd_aab_ss:			; CHECK-LABEL: fnmadd_aab_ss:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: vfnmadd213ss (%rsi), %xmm0, %xmm0			; CHECK-NEXT: vfnmadd213ss (%rsi), %xmm0, %xmm0
	; CHECK-NEXT: vmovss %xmm0, (%rdi)			; CHECK-NEXT: vmovss %xmm0, (%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;
	; FMA4-LABEL: fnmadd_aab_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; FMA4-NEXT: vfnmaddss (%rsi), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: vmovss %xmm0, (%rdi)
	; FMA4-NEXT: retq
	%a.val = load float, float* %a			%a.val = load float, float* %a
	%av0 = insertelement <4 x float> undef, float %a.val, i32 0			%av0 = insertelement <4 x float> undef, float %a.val, i32 0
	%av1 = insertelement <4 x float> %av0, float 0.000000e+00, i32 1			%av1 = insertelement <4 x float> %av0, float 0.000000e+00, i32 1
	%av2 = insertelement <4 x float> %av1, float 0.000000e+00, i32 2			%av2 = insertelement <4 x float> %av1, float 0.000000e+00, i32 2
	%av = insertelement <4 x float> %av2, float 0.000000e+00, i32 3			%av = insertelement <4 x float> %av2, float 0.000000e+00, i32 3

	%b.val = load float, float* %b			%b.val = load float, float* %b
	%bv0 = insertelement <4 x float> undef, float %b.val, i32 0			%bv0 = insertelement <4 x float> undef, float %b.val, i32 0
	Show All 10 Lines

	define void @fnmadd_aba_ss(float* %a, float* %b) {			define void @fnmadd_aba_ss(float* %a, float* %b) {
	; CHECK-LABEL: fnmadd_aba_ss:			; CHECK-LABEL: fnmadd_aba_ss:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: vfnmadd132ss (%rsi), %xmm0, %xmm0			; CHECK-NEXT: vfnmadd132ss (%rsi), %xmm0, %xmm0
	; CHECK-NEXT: vmovss %xmm0, (%rdi)			; CHECK-NEXT: vmovss %xmm0, (%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;
	; FMA4-LABEL: fnmadd_aba_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; FMA4-NEXT: vfnmaddss %xmm0, (%rsi), %xmm0, %xmm0
	; FMA4-NEXT: vmovss %xmm0, (%rdi)
	; FMA4-NEXT: retq
	%a.val = load float, float* %a			%a.val = load float, float* %a
	%av0 = insertelement <4 x float> undef, float %a.val, i32 0			%av0 = insertelement <4 x float> undef, float %a.val, i32 0
	%av1 = insertelement <4 x float> %av0, float 0.000000e+00, i32 1			%av1 = insertelement <4 x float> %av0, float 0.000000e+00, i32 1
	%av2 = insertelement <4 x float> %av1, float 0.000000e+00, i32 2			%av2 = insertelement <4 x float> %av1, float 0.000000e+00, i32 2
	%av = insertelement <4 x float> %av2, float 0.000000e+00, i32 3			%av = insertelement <4 x float> %av2, float 0.000000e+00, i32 3

	%b.val = load float, float* %b			%b.val = load float, float* %b
	%bv0 = insertelement <4 x float> undef, float %b.val, i32 0			%bv0 = insertelement <4 x float> undef, float %b.val, i32 0
	Show All 10 Lines

	define void @fnmsub_aab_ss(float* %a, float* %b) {			define void @fnmsub_aab_ss(float* %a, float* %b) {
	; CHECK-LABEL: fnmsub_aab_ss:			; CHECK-LABEL: fnmsub_aab_ss:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: vfnmsub213ss (%rsi), %xmm0, %xmm0			; CHECK-NEXT: vfnmsub213ss (%rsi), %xmm0, %xmm0
	; CHECK-NEXT: vmovss %xmm0, (%rdi)			; CHECK-NEXT: vmovss %xmm0, (%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;
	; FMA4-LABEL: fnmsub_aab_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; FMA4-NEXT: vfnmsubss (%rsi), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: vmovss %xmm0, (%rdi)
	; FMA4-NEXT: retq
	%a.val = load float, float* %a			%a.val = load float, float* %a
	%av0 = insertelement <4 x float> undef, float %a.val, i32 0			%av0 = insertelement <4 x float> undef, float %a.val, i32 0
	%av1 = insertelement <4 x float> %av0, float 0.000000e+00, i32 1			%av1 = insertelement <4 x float> %av0, float 0.000000e+00, i32 1
	%av2 = insertelement <4 x float> %av1, float 0.000000e+00, i32 2			%av2 = insertelement <4 x float> %av1, float 0.000000e+00, i32 2
	%av = insertelement <4 x float> %av2, float 0.000000e+00, i32 3			%av = insertelement <4 x float> %av2, float 0.000000e+00, i32 3

	%b.val = load float, float* %b			%b.val = load float, float* %b
	%bv0 = insertelement <4 x float> undef, float %b.val, i32 0			%bv0 = insertelement <4 x float> undef, float %b.val, i32 0
	Show All 10 Lines

	define void @fnmsub_aba_ss(float* %a, float* %b) {			define void @fnmsub_aba_ss(float* %a, float* %b) {
	; CHECK-LABEL: fnmsub_aba_ss:			; CHECK-LABEL: fnmsub_aba_ss:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: vfnmsub132ss (%rsi), %xmm0, %xmm0			; CHECK-NEXT: vfnmsub132ss (%rsi), %xmm0, %xmm0
	; CHECK-NEXT: vmovss %xmm0, (%rdi)			; CHECK-NEXT: vmovss %xmm0, (%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;
	; FMA4-LABEL: fnmsub_aba_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; FMA4-NEXT: vfnmsubss %xmm0, (%rsi), %xmm0, %xmm0
	; FMA4-NEXT: vmovss %xmm0, (%rdi)
	; FMA4-NEXT: retq
	%a.val = load float, float* %a			%a.val = load float, float* %a
	%av0 = insertelement <4 x float> undef, float %a.val, i32 0			%av0 = insertelement <4 x float> undef, float %a.val, i32 0
	%av1 = insertelement <4 x float> %av0, float 0.000000e+00, i32 1			%av1 = insertelement <4 x float> %av0, float 0.000000e+00, i32 1
	%av2 = insertelement <4 x float> %av1, float 0.000000e+00, i32 2			%av2 = insertelement <4 x float> %av1, float 0.000000e+00, i32 2
	%av = insertelement <4 x float> %av2, float 0.000000e+00, i32 3			%av = insertelement <4 x float> %av2, float 0.000000e+00, i32 3

	%b.val = load float, float* %b			%b.val = load float, float* %b
	%bv0 = insertelement <4 x float> undef, float %b.val, i32 0			%bv0 = insertelement <4 x float> undef, float %b.val, i32 0
	Show All 10 Lines

	define void @fmadd_aab_sd(double* %a, double* %b) {			define void @fmadd_aab_sd(double* %a, double* %b) {
	; CHECK-LABEL: fmadd_aab_sd:			; CHECK-LABEL: fmadd_aab_sd:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: vfmadd213sd (%rsi), %xmm0, %xmm0			; CHECK-NEXT: vfmadd213sd (%rsi), %xmm0, %xmm0
	; CHECK-NEXT: vmovlpd %xmm0, (%rdi)			; CHECK-NEXT: vmovlpd %xmm0, (%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;
	; FMA4-LABEL: fmadd_aab_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; FMA4-NEXT: vfmaddsd (%rsi), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: vmovlpd %xmm0, (%rdi)
	; FMA4-NEXT: retq
	%a.val = load double, double* %a			%a.val = load double, double* %a
	%av0 = insertelement <2 x double> undef, double %a.val, i32 0			%av0 = insertelement <2 x double> undef, double %a.val, i32 0
	%av = insertelement <2 x double> %av0, double 0.000000e+00, i32 1			%av = insertelement <2 x double> %av0, double 0.000000e+00, i32 1

	%b.val = load double, double* %b			%b.val = load double, double* %b
	%bv0 = insertelement <2 x double> undef, double %b.val, i32 0			%bv0 = insertelement <2 x double> undef, double %b.val, i32 0
	%bv = insertelement <2 x double> %bv0, double 0.000000e+00, i32 1			%bv = insertelement <2 x double> %bv0, double 0.000000e+00, i32 1

	%vr = call <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double> %av, <2 x double> %av, <2 x double> %bv)			%vr = call <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double> %av, <2 x double> %av, <2 x double> %bv)

	%sr = extractelement <2 x double> %vr, i32 0			%sr = extractelement <2 x double> %vr, i32 0
	store double %sr, double* %a			store double %sr, double* %a
	ret void			ret void
	}			}

	define void @fmadd_aba_sd(double* %a, double* %b) {			define void @fmadd_aba_sd(double* %a, double* %b) {
	; CHECK-LABEL: fmadd_aba_sd:			; CHECK-LABEL: fmadd_aba_sd:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: vfmadd132sd (%rsi), %xmm0, %xmm0			; CHECK-NEXT: vfmadd132sd (%rsi), %xmm0, %xmm0
	; CHECK-NEXT: vmovlpd %xmm0, (%rdi)			; CHECK-NEXT: vmovlpd %xmm0, (%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;
	; FMA4-LABEL: fmadd_aba_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; FMA4-NEXT: vfmaddsd %xmm0, (%rsi), %xmm0, %xmm0
	; FMA4-NEXT: vmovlpd %xmm0, (%rdi)
	; FMA4-NEXT: retq
	%a.val = load double, double* %a			%a.val = load double, double* %a
	%av0 = insertelement <2 x double> undef, double %a.val, i32 0			%av0 = insertelement <2 x double> undef, double %a.val, i32 0
	%av = insertelement <2 x double> %av0, double 0.000000e+00, i32 1			%av = insertelement <2 x double> %av0, double 0.000000e+00, i32 1

	%b.val = load double, double* %b			%b.val = load double, double* %b
	%bv0 = insertelement <2 x double> undef, double %b.val, i32 0			%bv0 = insertelement <2 x double> undef, double %b.val, i32 0
	%bv = insertelement <2 x double> %bv0, double 0.000000e+00, i32 1			%bv = insertelement <2 x double> %bv0, double 0.000000e+00, i32 1

	%vr = call <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double> %av, <2 x double> %bv, <2 x double> %av)			%vr = call <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double> %av, <2 x double> %bv, <2 x double> %av)

	%sr = extractelement <2 x double> %vr, i32 0			%sr = extractelement <2 x double> %vr, i32 0
	store double %sr, double* %a			store double %sr, double* %a
	ret void			ret void
	}			}

	define void @fmsub_aab_sd(double* %a, double* %b) {			define void @fmsub_aab_sd(double* %a, double* %b) {
	; CHECK-LABEL: fmsub_aab_sd:			; CHECK-LABEL: fmsub_aab_sd:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: vfmsub213sd (%rsi), %xmm0, %xmm0			; CHECK-NEXT: vfmsub213sd (%rsi), %xmm0, %xmm0
	; CHECK-NEXT: vmovlpd %xmm0, (%rdi)			; CHECK-NEXT: vmovlpd %xmm0, (%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;
	; FMA4-LABEL: fmsub_aab_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; FMA4-NEXT: vfmsubsd (%rsi), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: vmovlpd %xmm0, (%rdi)
	; FMA4-NEXT: retq
	%a.val = load double, double* %a			%a.val = load double, double* %a
	%av0 = insertelement <2 x double> undef, double %a.val, i32 0			%av0 = insertelement <2 x double> undef, double %a.val, i32 0
	%av = insertelement <2 x double> %av0, double 0.000000e+00, i32 1			%av = insertelement <2 x double> %av0, double 0.000000e+00, i32 1

	%b.val = load double, double* %b			%b.val = load double, double* %b
	%bv0 = insertelement <2 x double> undef, double %b.val, i32 0			%bv0 = insertelement <2 x double> undef, double %b.val, i32 0
	%bv = insertelement <2 x double> %bv0, double 0.000000e+00, i32 1			%bv = insertelement <2 x double> %bv0, double 0.000000e+00, i32 1

	%vr = call <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double> %av, <2 x double> %av, <2 x double> %bv)			%vr = call <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double> %av, <2 x double> %av, <2 x double> %bv)

	%sr = extractelement <2 x double> %vr, i32 0			%sr = extractelement <2 x double> %vr, i32 0
	store double %sr, double* %a			store double %sr, double* %a
	ret void			ret void
	}			}

	define void @fmsub_aba_sd(double* %a, double* %b) {			define void @fmsub_aba_sd(double* %a, double* %b) {
	; CHECK-LABEL: fmsub_aba_sd:			; CHECK-LABEL: fmsub_aba_sd:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: vfmsub132sd (%rsi), %xmm0, %xmm0			; CHECK-NEXT: vfmsub132sd (%rsi), %xmm0, %xmm0
	; CHECK-NEXT: vmovlpd %xmm0, (%rdi)			; CHECK-NEXT: vmovlpd %xmm0, (%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;
	; FMA4-LABEL: fmsub_aba_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; FMA4-NEXT: vfmsubsd %xmm0, (%rsi), %xmm0, %xmm0
	; FMA4-NEXT: vmovlpd %xmm0, (%rdi)
	; FMA4-NEXT: retq
	%a.val = load double, double* %a			%a.val = load double, double* %a
	%av0 = insertelement <2 x double> undef, double %a.val, i32 0			%av0 = insertelement <2 x double> undef, double %a.val, i32 0
	%av = insertelement <2 x double> %av0, double 0.000000e+00, i32 1			%av = insertelement <2 x double> %av0, double 0.000000e+00, i32 1

	%b.val = load double, double* %b			%b.val = load double, double* %b
	%bv0 = insertelement <2 x double> undef, double %b.val, i32 0			%bv0 = insertelement <2 x double> undef, double %b.val, i32 0
	%bv = insertelement <2 x double> %bv0, double 0.000000e+00, i32 1			%bv = insertelement <2 x double> %bv0, double 0.000000e+00, i32 1

	%vr = call <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double> %av, <2 x double> %bv, <2 x double> %av)			%vr = call <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double> %av, <2 x double> %bv, <2 x double> %av)

	%sr = extractelement <2 x double> %vr, i32 0			%sr = extractelement <2 x double> %vr, i32 0
	store double %sr, double* %a			store double %sr, double* %a
	ret void			ret void
	}			}

	define void @fnmadd_aab_sd(double* %a, double* %b) {			define void @fnmadd_aab_sd(double* %a, double* %b) {
	; CHECK-LABEL: fnmadd_aab_sd:			; CHECK-LABEL: fnmadd_aab_sd:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: vfnmadd213sd (%rsi), %xmm0, %xmm0			; CHECK-NEXT: vfnmadd213sd (%rsi), %xmm0, %xmm0
	; CHECK-NEXT: vmovlpd %xmm0, (%rdi)			; CHECK-NEXT: vmovlpd %xmm0, (%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;
	; FMA4-LABEL: fnmadd_aab_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; FMA4-NEXT: vfnmaddsd (%rsi), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: vmovlpd %xmm0, (%rdi)
	; FMA4-NEXT: retq
	%a.val = load double, double* %a			%a.val = load double, double* %a
	%av0 = insertelement <2 x double> undef, double %a.val, i32 0			%av0 = insertelement <2 x double> undef, double %a.val, i32 0
	%av = insertelement <2 x double> %av0, double 0.000000e+00, i32 1			%av = insertelement <2 x double> %av0, double 0.000000e+00, i32 1

	%b.val = load double, double* %b			%b.val = load double, double* %b
	%bv0 = insertelement <2 x double> undef, double %b.val, i32 0			%bv0 = insertelement <2 x double> undef, double %b.val, i32 0
	%bv = insertelement <2 x double> %bv0, double 0.000000e+00, i32 1			%bv = insertelement <2 x double> %bv0, double 0.000000e+00, i32 1

	%vr = call <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double> %av, <2 x double> %av, <2 x double> %bv)			%vr = call <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double> %av, <2 x double> %av, <2 x double> %bv)

	%sr = extractelement <2 x double> %vr, i32 0			%sr = extractelement <2 x double> %vr, i32 0
	store double %sr, double* %a			store double %sr, double* %a
	ret void			ret void
	}			}

	define void @fnmadd_aba_sd(double* %a, double* %b) {			define void @fnmadd_aba_sd(double* %a, double* %b) {
	; CHECK-LABEL: fnmadd_aba_sd:			; CHECK-LABEL: fnmadd_aba_sd:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: vfnmadd132sd (%rsi), %xmm0, %xmm0			; CHECK-NEXT: vfnmadd132sd (%rsi), %xmm0, %xmm0
	; CHECK-NEXT: vmovlpd %xmm0, (%rdi)			; CHECK-NEXT: vmovlpd %xmm0, (%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;
	; FMA4-LABEL: fnmadd_aba_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; FMA4-NEXT: vfnmaddsd %xmm0, (%rsi), %xmm0, %xmm0
	; FMA4-NEXT: vmovlpd %xmm0, (%rdi)
	; FMA4-NEXT: retq
	%a.val = load double, double* %a			%a.val = load double, double* %a
	%av0 = insertelement <2 x double> undef, double %a.val, i32 0			%av0 = insertelement <2 x double> undef, double %a.val, i32 0
	%av = insertelement <2 x double> %av0, double 0.000000e+00, i32 1			%av = insertelement <2 x double> %av0, double 0.000000e+00, i32 1

	%b.val = load double, double* %b			%b.val = load double, double* %b
	%bv0 = insertelement <2 x double> undef, double %b.val, i32 0			%bv0 = insertelement <2 x double> undef, double %b.val, i32 0
	%bv = insertelement <2 x double> %bv0, double 0.000000e+00, i32 1			%bv = insertelement <2 x double> %bv0, double 0.000000e+00, i32 1

	%vr = call <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double> %av, <2 x double> %bv, <2 x double> %av)			%vr = call <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double> %av, <2 x double> %bv, <2 x double> %av)

	%sr = extractelement <2 x double> %vr, i32 0			%sr = extractelement <2 x double> %vr, i32 0
	store double %sr, double* %a			store double %sr, double* %a
	ret void			ret void
	}			}

	define void @fnmsub_aab_sd(double* %a, double* %b) {			define void @fnmsub_aab_sd(double* %a, double* %b) {
	; CHECK-LABEL: fnmsub_aab_sd:			; CHECK-LABEL: fnmsub_aab_sd:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: vfnmsub213sd (%rsi), %xmm0, %xmm0			; CHECK-NEXT: vfnmsub213sd (%rsi), %xmm0, %xmm0
	; CHECK-NEXT: vmovlpd %xmm0, (%rdi)			; CHECK-NEXT: vmovlpd %xmm0, (%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;
	; FMA4-LABEL: fnmsub_aab_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; FMA4-NEXT: vfnmsubsd (%rsi), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: vmovlpd %xmm0, (%rdi)
	; FMA4-NEXT: retq
	%a.val = load double, double* %a			%a.val = load double, double* %a
	%av0 = insertelement <2 x double> undef, double %a.val, i32 0			%av0 = insertelement <2 x double> undef, double %a.val, i32 0
	%av = insertelement <2 x double> %av0, double 0.000000e+00, i32 1			%av = insertelement <2 x double> %av0, double 0.000000e+00, i32 1

	%b.val = load double, double* %b			%b.val = load double, double* %b
	%bv0 = insertelement <2 x double> undef, double %b.val, i32 0			%bv0 = insertelement <2 x double> undef, double %b.val, i32 0
	%bv = insertelement <2 x double> %bv0, double 0.000000e+00, i32 1			%bv = insertelement <2 x double> %bv0, double 0.000000e+00, i32 1

	%vr = call <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double> %av, <2 x double> %av, <2 x double> %bv)			%vr = call <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double> %av, <2 x double> %av, <2 x double> %bv)

	%sr = extractelement <2 x double> %vr, i32 0			%sr = extractelement <2 x double> %vr, i32 0
	store double %sr, double* %a			store double %sr, double* %a
	ret void			ret void
	}			}

	define void @fnmsub_aba_sd(double* %a, double* %b) {			define void @fnmsub_aba_sd(double* %a, double* %b) {
	; CHECK-LABEL: fnmsub_aba_sd:			; CHECK-LABEL: fnmsub_aba_sd:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: vfnmsub132sd (%rsi), %xmm0, %xmm0			; CHECK-NEXT: vfnmsub132sd (%rsi), %xmm0, %xmm0
	; CHECK-NEXT: vmovlpd %xmm0, (%rdi)			; CHECK-NEXT: vmovlpd %xmm0, (%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;
	; FMA4-LABEL: fnmsub_aba_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; FMA4-NEXT: vfnmsubsd %xmm0, (%rsi), %xmm0, %xmm0
	; FMA4-NEXT: vmovlpd %xmm0, (%rdi)
	; FMA4-NEXT: retq
	%a.val = load double, double* %a			%a.val = load double, double* %a
	%av0 = insertelement <2 x double> undef, double %a.val, i32 0			%av0 = insertelement <2 x double> undef, double %a.val, i32 0
	%av = insertelement <2 x double> %av0, double 0.000000e+00, i32 1			%av = insertelement <2 x double> %av0, double 0.000000e+00, i32 1

	%b.val = load double, double* %b			%b.val = load double, double* %b
	%bv0 = insertelement <2 x double> undef, double %b.val, i32 0			%bv0 = insertelement <2 x double> undef, double %b.val, i32 0
	%bv = insertelement <2 x double> %bv0, double 0.000000e+00, i32 1			%bv = insertelement <2 x double> %bv0, double 0.000000e+00, i32 1

	%vr = call <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double> %av, <2 x double> %bv, <2 x double> %av)			%vr = call <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double> %av, <2 x double> %bv, <2 x double> %av)

	%sr = extractelement <2 x double> %vr, i32 0			%sr = extractelement <2 x double> %vr, i32 0
	store double %sr, double* %a			store double %sr, double* %a
	ret void			ret void
	}			}

test/CodeGen/X86/fma4-commute-x86.ll

This file was copied from test/CodeGen/X86/fma-commute-x86.ll.

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-pc-win32 -mcpu=core-avx2 \| FileCheck %s --check-prefix=FMA			; RUN: llc < %s -mcpu=bdver2 -mtriple=x86_64-pc-win32 \| FileCheck %s --check-prefix=FMA4 --check-prefix=FMA
	; RUN: llc < %s -mtriple=x86_64-pc-win32 -mattr=+fma \| FileCheck %s --check-prefix=FMA
	; RUN: llc < %s -mcpu=bdver2 -mtriple=x86_64-pc-win32 -mattr=-fma4 \| FileCheck %s --check-prefix=FMA
	; RUN: llc < %s -mcpu=bdver2 -mtriple=x86_64-pc-win32 \| FileCheck %s --check-prefix=FMA4

	attributes #0 = { nounwind }			attributes #0 = { nounwind }

	declare <4 x float> @llvm.x86.fma.vfmadd.ss(<4 x float>, <4 x float>, <4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.fma4.vfmadd.ss(<4 x float>, <4 x float>, <4 x float>) nounwind readnone
	define <4 x float> @test_x86_fmadd_baa_ss(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmadd_baa_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_baa_ss:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm1
	; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfmadd213ss %xmm1, %xmm1, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_baa_ss:			; FMA4-LABEL: test_x86_fmadd_baa_ss:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0			; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vmovaps (%rdx), %xmm1			; FMA4-NEXT: vfmaddss %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: vfmaddss %xmm0, %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmadd.ss(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma4.vfmadd.ss(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fmadd_aba_ss(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmadd_aba_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_aba_ss:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfmadd132ss (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_aba_ss:			; FMA4-LABEL: test_x86_fmadd_aba_ss:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0			; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfmaddss %xmm0, (%rdx), %xmm0, %xmm0			; FMA4-NEXT: vfmaddss %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmadd.ss(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma4.vfmadd.ss(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fmadd_bba_ss(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmadd_bba_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_bba_ss:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfmadd213ss (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_bba_ss:			; FMA4-LABEL: test_x86_fmadd_bba_ss:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %xmm0			; FMA4-NEXT: vmovaps (%rdx), %xmm0
	; FMA4-NEXT: vfmaddss (%rcx), %xmm0, %xmm0, %xmm0			; FMA4-NEXT: vfmaddss (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmadd.ss(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma4.vfmadd.ss(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	declare <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float>, <4 x float>, <4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float>, <4 x float>, <4 x float>) nounwind readnone
	define <4 x float> @test_x86_fmadd_baa_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmadd_baa_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_baa_ps:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfmadd132ps (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_baa_ps:			; FMA4-LABEL: test_x86_fmadd_baa_ps:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0			; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfmaddps %xmm0, (%rdx), %xmm0, %xmm0			; FMA4-NEXT: vfmaddps %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fmadd_aba_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmadd_aba_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_aba_ps:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfmadd231ps (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_aba_ps:			; FMA4-LABEL: test_x86_fmadd_aba_ps:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0			; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfmaddps %xmm0, (%rdx), %xmm0, %xmm0			; FMA4-NEXT: vfmaddps %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fmadd_bba_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmadd_bba_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_bba_ps:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfmadd213ps (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_bba_ps:			; FMA4-LABEL: test_x86_fmadd_bba_ps:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %xmm0			; FMA4-NEXT: vmovaps (%rdx), %xmm0
	; FMA4-NEXT: vfmaddps (%rcx), %xmm0, %xmm0, %xmm0			; FMA4-NEXT: vfmaddps (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	declare <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float>, <8 x float>, <8 x float>) nounwind readnone			declare <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float>, <8 x float>, <8 x float>) nounwind readnone
	define <8 x float> @test_x86_fmadd_baa_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fmadd_baa_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_baa_ps_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %ymm0
	; FMA-NEXT: vfmadd132ps (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_baa_ps_y:			; FMA4-LABEL: test_x86_fmadd_baa_ps_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %ymm0			; FMA4-NEXT: vmovaps (%rcx), %ymm0
	; FMA4-NEXT: vfmaddps %ymm0, (%rdx), %ymm0, %ymm0			; FMA4-NEXT: vfmaddps %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float> %b, <8 x float> %a, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float> %b, <8 x float> %a, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @test_x86_fmadd_aba_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fmadd_aba_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_aba_ps_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %ymm0
	; FMA-NEXT: vfmadd231ps (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_aba_ps_y:			; FMA4-LABEL: test_x86_fmadd_aba_ps_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %ymm0			; FMA4-NEXT: vmovaps (%rcx), %ymm0
	; FMA4-NEXT: vfmaddps %ymm0, (%rdx), %ymm0, %ymm0			; FMA4-NEXT: vfmaddps %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @test_x86_fmadd_bba_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fmadd_bba_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_bba_ps_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %ymm0
	; FMA-NEXT: vfmadd213ps (%rcx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_bba_ps_y:			; FMA4-LABEL: test_x86_fmadd_bba_ps_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %ymm0			; FMA4-NEXT: vmovaps (%rdx), %ymm0
	; FMA4-NEXT: vfmaddps (%rcx), %ymm0, %ymm0, %ymm0			; FMA4-NEXT: vfmaddps (%rcx), %ymm0, %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float> %b, <8 x float> %b, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float> %b, <8 x float> %b, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	declare <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone			declare <2 x double> @llvm.x86.fma4.vfmadd.sd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone
	define <2 x double> @test_x86_fmadd_baa_sd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmadd_baa_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_baa_sd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm1
	; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfmadd213sd %xmm1, %xmm1, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_baa_sd:			; FMA4-LABEL: test_x86_fmadd_baa_sd:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0			; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vmovapd (%rdx), %xmm1			; FMA4-NEXT: vfmaddsd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: vfmaddsd %xmm0, %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma4.vfmadd.sd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fmadd_aba_sd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmadd_aba_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_aba_sd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfmadd132sd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_aba_sd:			; FMA4-LABEL: test_x86_fmadd_aba_sd:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0			; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfmaddsd %xmm0, (%rdx), %xmm0, %xmm0			; FMA4-NEXT: vfmaddsd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma4.vfmadd.sd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fmadd_bba_sd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmadd_bba_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_bba_sd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfmadd213sd (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_bba_sd:			; FMA4-LABEL: test_x86_fmadd_bba_sd:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %xmm0			; FMA4-NEXT: vmovapd (%rdx), %xmm0
	; FMA4-NEXT: vfmaddsd (%rcx), %xmm0, %xmm0, %xmm0			; FMA4-NEXT: vfmaddsd (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmadd.sd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma4.vfmadd.sd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	declare <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone			declare <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone
	define <2 x double> @test_x86_fmadd_baa_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmadd_baa_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_baa_pd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfmadd132pd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_baa_pd:			; FMA4-LABEL: test_x86_fmadd_baa_pd:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0			; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfmaddpd %xmm0, (%rdx), %xmm0, %xmm0			; FMA4-NEXT: vfmaddpd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fmadd_aba_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmadd_aba_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_aba_pd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfmadd231pd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_aba_pd:			; FMA4-LABEL: test_x86_fmadd_aba_pd:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0			; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfmaddpd %xmm0, (%rdx), %xmm0, %xmm0			; FMA4-NEXT: vfmaddpd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fmadd_bba_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmadd_bba_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_bba_pd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfmadd213pd (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_bba_pd:			; FMA4-LABEL: test_x86_fmadd_bba_pd:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %xmm0			; FMA4-NEXT: vmovapd (%rdx), %xmm0
	; FMA4-NEXT: vfmaddpd (%rcx), %xmm0, %xmm0, %xmm0			; FMA4-NEXT: vfmaddpd (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	declare <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double>, <4 x double>, <4 x double>) nounwind readnone			declare <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double>, <4 x double>, <4 x double>) nounwind readnone
	define <4 x double> @test_x86_fmadd_baa_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fmadd_baa_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_baa_pd_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %ymm0
	; FMA-NEXT: vfmadd132pd (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_baa_pd_y:			; FMA4-LABEL: test_x86_fmadd_baa_pd_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %ymm0			; FMA4-NEXT: vmovapd (%rcx), %ymm0
	; FMA4-NEXT: vfmaddpd %ymm0, (%rdx), %ymm0, %ymm0			; FMA4-NEXT: vfmaddpd %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double> %b, <4 x double> %a, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double> %b, <4 x double> %a, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	define <4 x double> @test_x86_fmadd_aba_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fmadd_aba_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_aba_pd_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %ymm0
	; FMA-NEXT: vfmadd231pd (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_aba_pd_y:			; FMA4-LABEL: test_x86_fmadd_aba_pd_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %ymm0			; FMA4-NEXT: vmovapd (%rcx), %ymm0
	; FMA4-NEXT: vfmaddpd %ymm0, (%rdx), %ymm0, %ymm0			; FMA4-NEXT: vfmaddpd %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	define <4 x double> @test_x86_fmadd_bba_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fmadd_bba_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmadd_bba_pd_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %ymm0
	; FMA-NEXT: vfmadd213pd (%rcx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmadd_bba_pd_y:			; FMA4-LABEL: test_x86_fmadd_bba_pd_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %ymm0			; FMA4-NEXT: vmovapd (%rdx), %ymm0
	; FMA4-NEXT: vfmaddpd (%rcx), %ymm0, %ymm0, %ymm0			; FMA4-NEXT: vfmaddpd (%rcx), %ymm0, %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double> %b, <4 x double> %b, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double> %b, <4 x double> %b, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}


	declare <4 x float> @llvm.x86.fma.vfnmadd.ss(<4 x float>, <4 x float>, <4 x float>) nounwind readnone
	define <4 x float> @test_x86_fnmadd_baa_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_baa_ss:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm1
	; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfnmadd213ss %xmm1, %xmm1, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_baa_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vmovaps (%rdx), %xmm1
	; FMA4-NEXT: vfnmaddss %xmm0, %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmadd.ss(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind
	ret <4 x float> %res
	}

	define <4 x float> @test_x86_fnmadd_aba_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_aba_ss:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfnmadd132ss (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_aba_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfnmaddss %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmadd.ss(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res
	}

	define <4 x float> @test_x86_fnmadd_bba_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_bba_ss:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfnmadd213ss (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_bba_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %xmm0
	; FMA4-NEXT: vfnmaddss (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmadd.ss(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res
	}

	declare <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float>, <4 x float>, <4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float>, <4 x float>, <4 x float>) nounwind readnone
	define <4 x float> @test_x86_fnmadd_baa_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fnmadd_baa_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_baa_ps:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfnmadd132ps (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_baa_ps:			; FMA4-LABEL: test_x86_fnmadd_baa_ps:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0			; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfnmaddps %xmm0, (%rdx), %xmm0, %xmm0			; FMA4-NEXT: vfnmaddps %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fnmadd_aba_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fnmadd_aba_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_aba_ps:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfnmadd231ps (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_aba_ps:			; FMA4-LABEL: test_x86_fnmadd_aba_ps:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0			; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfnmaddps %xmm0, (%rdx), %xmm0, %xmm0			; FMA4-NEXT: vfnmaddps %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fnmadd_bba_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fnmadd_bba_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_bba_ps:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfnmadd213ps (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_bba_ps:			; FMA4-LABEL: test_x86_fnmadd_bba_ps:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %xmm0			; FMA4-NEXT: vmovaps (%rdx), %xmm0
	; FMA4-NEXT: vfnmaddps (%rcx), %xmm0, %xmm0, %xmm0			; FMA4-NEXT: vfnmaddps (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	declare <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float>, <8 x float>, <8 x float>) nounwind readnone			declare <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float>, <8 x float>, <8 x float>) nounwind readnone
	define <8 x float> @test_x86_fnmadd_baa_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fnmadd_baa_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_baa_ps_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %ymm0
	; FMA-NEXT: vfnmadd132ps (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_baa_ps_y:			; FMA4-LABEL: test_x86_fnmadd_baa_ps_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %ymm0			; FMA4-NEXT: vmovaps (%rcx), %ymm0
	; FMA4-NEXT: vfnmaddps %ymm0, (%rdx), %ymm0, %ymm0			; FMA4-NEXT: vfnmaddps %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float> %b, <8 x float> %a, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float> %b, <8 x float> %a, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @test_x86_fnmadd_aba_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fnmadd_aba_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_aba_ps_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %ymm0
	; FMA-NEXT: vfnmadd231ps (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_aba_ps_y:			; FMA4-LABEL: test_x86_fnmadd_aba_ps_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %ymm0			; FMA4-NEXT: vmovaps (%rcx), %ymm0
	; FMA4-NEXT: vfnmaddps %ymm0, (%rdx), %ymm0, %ymm0			; FMA4-NEXT: vfnmaddps %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @test_x86_fnmadd_bba_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fnmadd_bba_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_bba_ps_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %ymm0
	; FMA-NEXT: vfnmadd213ps (%rcx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_bba_ps_y:			; FMA4-LABEL: test_x86_fnmadd_bba_ps_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %ymm0			; FMA4-NEXT: vmovaps (%rdx), %ymm0
	; FMA4-NEXT: vfnmaddps (%rcx), %ymm0, %ymm0, %ymm0			; FMA4-NEXT: vfnmaddps (%rcx), %ymm0, %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float> %b, <8 x float> %b, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float> %b, <8 x float> %b, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	declare <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone
	define <2 x double> @test_x86_fnmadd_baa_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_baa_sd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm1
	; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfnmadd213sd %xmm1, %xmm1, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_baa_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vmovapd (%rdx), %xmm1
	; FMA4-NEXT: vfnmaddsd %xmm0, %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind
	ret <2 x double> %res
	}

	define <2 x double> @test_x86_fnmadd_aba_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_aba_sd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfnmadd132sd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_aba_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfnmaddsd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res
	}

	define <2 x double> @test_x86_fnmadd_bba_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_bba_sd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfnmadd213sd (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_bba_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %xmm0
	; FMA4-NEXT: vfnmaddsd (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmadd.sd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res
	}

	declare <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone			declare <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone
	define <2 x double> @test_x86_fnmadd_baa_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fnmadd_baa_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_baa_pd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfnmadd132pd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_baa_pd:			; FMA4-LABEL: test_x86_fnmadd_baa_pd:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0			; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfnmaddpd %xmm0, (%rdx), %xmm0, %xmm0			; FMA4-NEXT: vfnmaddpd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fnmadd_aba_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fnmadd_aba_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_aba_pd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfnmadd231pd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_aba_pd:			; FMA4-LABEL: test_x86_fnmadd_aba_pd:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0			; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfnmaddpd %xmm0, (%rdx), %xmm0, %xmm0			; FMA4-NEXT: vfnmaddpd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fnmadd_bba_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fnmadd_bba_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_bba_pd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfnmadd213pd (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_bba_pd:			; FMA4-LABEL: test_x86_fnmadd_bba_pd:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %xmm0			; FMA4-NEXT: vmovapd (%rdx), %xmm0
	; FMA4-NEXT: vfnmaddpd (%rcx), %xmm0, %xmm0, %xmm0			; FMA4-NEXT: vfnmaddpd (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	declare <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double>, <4 x double>, <4 x double>) nounwind readnone			declare <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double>, <4 x double>, <4 x double>) nounwind readnone
	define <4 x double> @test_x86_fnmadd_baa_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fnmadd_baa_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_baa_pd_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %ymm0
	; FMA-NEXT: vfnmadd132pd (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_baa_pd_y:			; FMA4-LABEL: test_x86_fnmadd_baa_pd_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %ymm0			; FMA4-NEXT: vmovapd (%rcx), %ymm0
	; FMA4-NEXT: vfnmaddpd %ymm0, (%rdx), %ymm0, %ymm0			; FMA4-NEXT: vfnmaddpd %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double> %b, <4 x double> %a, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double> %b, <4 x double> %a, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	define <4 x double> @test_x86_fnmadd_aba_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fnmadd_aba_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_aba_pd_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %ymm0
	; FMA-NEXT: vfnmadd231pd (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_aba_pd_y:			; FMA4-LABEL: test_x86_fnmadd_aba_pd_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %ymm0			; FMA4-NEXT: vmovapd (%rcx), %ymm0
	; FMA4-NEXT: vfnmaddpd %ymm0, (%rdx), %ymm0, %ymm0			; FMA4-NEXT: vfnmaddpd %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	define <4 x double> @test_x86_fnmadd_bba_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fnmadd_bba_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmadd_bba_pd_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %ymm0
	; FMA-NEXT: vfnmadd213pd (%rcx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmadd_bba_pd_y:			; FMA4-LABEL: test_x86_fnmadd_bba_pd_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %ymm0			; FMA4-NEXT: vmovapd (%rdx), %ymm0
	; FMA4-NEXT: vfnmaddpd (%rcx), %ymm0, %ymm0, %ymm0			; FMA4-NEXT: vfnmaddpd (%rcx), %ymm0, %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double> %b, <4 x double> %b, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double> %b, <4 x double> %b, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	declare <4 x float> @llvm.x86.fma.vfmsub.ss(<4 x float>, <4 x float>, <4 x float>) nounwind readnone
	define <4 x float> @test_x86_fmsub_baa_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_baa_ss:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm1
	; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfmsub213ss %xmm1, %xmm1, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_baa_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vmovaps (%rdx), %xmm1
	; FMA4-NEXT: vfmsubss %xmm0, %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmsub.ss(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind
	ret <4 x float> %res
	}

	define <4 x float> @test_x86_fmsub_aba_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_aba_ss:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfmsub132ss (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_aba_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfmsubss %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmsub.ss(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res
	}

	define <4 x float> @test_x86_fmsub_bba_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_bba_ss:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfmsub213ss (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_bba_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %xmm0
	; FMA4-NEXT: vfmsubss (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmsub.ss(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res
	}

	declare <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float>, <4 x float>, <4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float>, <4 x float>, <4 x float>) nounwind readnone
	define <4 x float> @test_x86_fmsub_baa_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmsub_baa_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_baa_ps:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfmsub132ps (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_baa_ps:			; FMA4-LABEL: test_x86_fmsub_baa_ps:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0			; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfmsubps %xmm0, (%rdx), %xmm0, %xmm0			; FMA4-NEXT: vfmsubps %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fmsub_aba_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmsub_aba_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_aba_ps:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfmsub231ps (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_aba_ps:			; FMA4-LABEL: test_x86_fmsub_aba_ps:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0			; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfmsubps %xmm0, (%rdx), %xmm0, %xmm0			; FMA4-NEXT: vfmsubps %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fmsub_bba_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fmsub_bba_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_bba_ps:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfmsub213ps (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_bba_ps:			; FMA4-LABEL: test_x86_fmsub_bba_ps:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %xmm0			; FMA4-NEXT: vmovaps (%rdx), %xmm0
	; FMA4-NEXT: vfmsubps (%rcx), %xmm0, %xmm0, %xmm0			; FMA4-NEXT: vfmsubps (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	declare <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float>, <8 x float>, <8 x float>) nounwind readnone			declare <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float>, <8 x float>, <8 x float>) nounwind readnone
	define <8 x float> @test_x86_fmsub_baa_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fmsub_baa_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_baa_ps_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %ymm0
	; FMA-NEXT: vfmsub132ps (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_baa_ps_y:			; FMA4-LABEL: test_x86_fmsub_baa_ps_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %ymm0			; FMA4-NEXT: vmovaps (%rcx), %ymm0
	; FMA4-NEXT: vfmsubps %ymm0, (%rdx), %ymm0, %ymm0			; FMA4-NEXT: vfmsubps %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float> %b, <8 x float> %a, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float> %b, <8 x float> %a, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @test_x86_fmsub_aba_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fmsub_aba_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_aba_ps_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %ymm0
	; FMA-NEXT: vfmsub231ps (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_aba_ps_y:			; FMA4-LABEL: test_x86_fmsub_aba_ps_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %ymm0			; FMA4-NEXT: vmovaps (%rcx), %ymm0
	; FMA4-NEXT: vfmsubps %ymm0, (%rdx), %ymm0, %ymm0			; FMA4-NEXT: vfmsubps %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @test_x86_fmsub_bba_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fmsub_bba_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_bba_ps_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %ymm0
	; FMA-NEXT: vfmsub213ps (%rcx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_bba_ps_y:			; FMA4-LABEL: test_x86_fmsub_bba_ps_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %ymm0			; FMA4-NEXT: vmovaps (%rdx), %ymm0
	; FMA4-NEXT: vfmsubps (%rcx), %ymm0, %ymm0, %ymm0			; FMA4-NEXT: vfmsubps (%rcx), %ymm0, %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float> %b, <8 x float> %b, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float> %b, <8 x float> %b, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	declare <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone
	define <2 x double> @test_x86_fmsub_baa_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_baa_sd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm1
	; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfmsub213sd %xmm1, %xmm1, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_baa_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vmovapd (%rdx), %xmm1
	; FMA4-NEXT: vfmsubsd %xmm0, %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind
	ret <2 x double> %res
	}

	define <2 x double> @test_x86_fmsub_aba_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_aba_sd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfmsub132sd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_aba_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfmsubsd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res
	}

	define <2 x double> @test_x86_fmsub_bba_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_bba_sd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfmsub213sd (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_bba_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %xmm0
	; FMA4-NEXT: vfmsubsd (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmsub.sd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res
	}

	declare <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone			declare <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone
	define <2 x double> @test_x86_fmsub_baa_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmsub_baa_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_baa_pd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfmsub132pd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_baa_pd:			; FMA4-LABEL: test_x86_fmsub_baa_pd:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0			; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfmsubpd %xmm0, (%rdx), %xmm0, %xmm0			; FMA4-NEXT: vfmsubpd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fmsub_aba_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmsub_aba_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_aba_pd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfmsub231pd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_aba_pd:			; FMA4-LABEL: test_x86_fmsub_aba_pd:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0			; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfmsubpd %xmm0, (%rdx), %xmm0, %xmm0			; FMA4-NEXT: vfmsubpd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fmsub_bba_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fmsub_bba_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_bba_pd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfmsub213pd (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_bba_pd:			; FMA4-LABEL: test_x86_fmsub_bba_pd:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %xmm0			; FMA4-NEXT: vmovapd (%rdx), %xmm0
	; FMA4-NEXT: vfmsubpd (%rcx), %xmm0, %xmm0, %xmm0			; FMA4-NEXT: vfmsubpd (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	declare <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double>, <4 x double>, <4 x double>) nounwind readnone			declare <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double>, <4 x double>, <4 x double>) nounwind readnone
	define <4 x double> @test_x86_fmsub_baa_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fmsub_baa_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_baa_pd_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %ymm0
	; FMA-NEXT: vfmsub132pd (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_baa_pd_y:			; FMA4-LABEL: test_x86_fmsub_baa_pd_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %ymm0			; FMA4-NEXT: vmovapd (%rcx), %ymm0
	; FMA4-NEXT: vfmsubpd %ymm0, (%rdx), %ymm0, %ymm0			; FMA4-NEXT: vfmsubpd %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double> %b, <4 x double> %a, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double> %b, <4 x double> %a, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	define <4 x double> @test_x86_fmsub_aba_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fmsub_aba_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_aba_pd_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %ymm0
	; FMA-NEXT: vfmsub231pd (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_aba_pd_y:			; FMA4-LABEL: test_x86_fmsub_aba_pd_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %ymm0			; FMA4-NEXT: vmovapd (%rcx), %ymm0
	; FMA4-NEXT: vfmsubpd %ymm0, (%rdx), %ymm0, %ymm0			; FMA4-NEXT: vfmsubpd %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	define <4 x double> @test_x86_fmsub_bba_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fmsub_bba_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fmsub_bba_pd_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %ymm0
	; FMA-NEXT: vfmsub213pd (%rcx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fmsub_bba_pd_y:			; FMA4-LABEL: test_x86_fmsub_bba_pd_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %ymm0			; FMA4-NEXT: vmovapd (%rdx), %ymm0
	; FMA4-NEXT: vfmsubpd (%rcx), %ymm0, %ymm0, %ymm0			; FMA4-NEXT: vfmsubpd (%rcx), %ymm0, %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double> %b, <4 x double> %b, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double> %b, <4 x double> %b, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}


	declare <4 x float> @llvm.x86.fma.vfnmsub.ss(<4 x float>, <4 x float>, <4 x float>) nounwind readnone
	define <4 x float> @test_x86_fnmsub_baa_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_baa_ss:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm1
	; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfnmsub213ss %xmm1, %xmm1, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_baa_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vmovaps (%rdx), %xmm1
	; FMA4-NEXT: vfnmsubss %xmm0, %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmsub.ss(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind
	ret <4 x float> %res
	}

	define <4 x float> @test_x86_fnmsub_aba_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_aba_ss:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfnmsub132ss (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_aba_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfnmsubss %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmsub.ss(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res
	}

	define <4 x float> @test_x86_fnmsub_bba_ss(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_bba_ss:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfnmsub213ss (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_bba_ss:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %xmm0
	; FMA4-NEXT: vfnmsubss (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmsub.ss(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res
	}

	declare <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float>, <4 x float>, <4 x float>) nounwind readnone			declare <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float>, <4 x float>, <4 x float>) nounwind readnone
	define <4 x float> @test_x86_fnmsub_baa_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fnmsub_baa_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_baa_ps:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfnmsub132ps (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_baa_ps:			; FMA4-LABEL: test_x86_fnmsub_baa_ps:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0			; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfnmsubps %xmm0, (%rdx), %xmm0, %xmm0			; FMA4-NEXT: vfnmsubps %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float> %b, <4 x float> %a, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fnmsub_aba_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fnmsub_aba_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_aba_ps:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %xmm0
	; FMA-NEXT: vfnmsub231ps (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_aba_ps:			; FMA4-LABEL: test_x86_fnmsub_aba_ps:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %xmm0			; FMA4-NEXT: vmovaps (%rcx), %xmm0
	; FMA4-NEXT: vfnmsubps %xmm0, (%rdx), %xmm0, %xmm0			; FMA4-NEXT: vfnmsubps %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float> %a, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	define <4 x float> @test_x86_fnmsub_bba_ps(<4 x float> %a, <4 x float> %b) #0 {			define <4 x float> @test_x86_fnmsub_bba_ps(<4 x float> %a, <4 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_bba_ps:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %xmm0
	; FMA-NEXT: vfnmsub213ps (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_bba_ps:			; FMA4-LABEL: test_x86_fnmsub_bba_ps:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %xmm0			; FMA4-NEXT: vmovaps (%rdx), %xmm0
	; FMA4-NEXT: vfnmsubps (%rcx), %xmm0, %xmm0, %xmm0			; FMA4-NEXT: vfnmsubps (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind			%res = call <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float> %b, <4 x float> %b, <4 x float> %a) nounwind
	ret <4 x float> %res			ret <4 x float> %res
	}			}

	declare <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float>, <8 x float>, <8 x float>) nounwind readnone			declare <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float>, <8 x float>, <8 x float>) nounwind readnone
	define <8 x float> @test_x86_fnmsub_baa_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fnmsub_baa_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_baa_ps_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %ymm0
	; FMA-NEXT: vfnmsub132ps (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_baa_ps_y:			; FMA4-LABEL: test_x86_fnmsub_baa_ps_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %ymm0			; FMA4-NEXT: vmovaps (%rcx), %ymm0
	; FMA4-NEXT: vfnmsubps %ymm0, (%rdx), %ymm0, %ymm0			; FMA4-NEXT: vfnmsubps %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float> %b, <8 x float> %a, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float> %b, <8 x float> %a, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @test_x86_fnmsub_aba_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fnmsub_aba_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_aba_ps_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rcx), %ymm0
	; FMA-NEXT: vfnmsub231ps (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_aba_ps_y:			; FMA4-LABEL: test_x86_fnmsub_aba_ps_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rcx), %ymm0			; FMA4-NEXT: vmovaps (%rcx), %ymm0
	; FMA4-NEXT: vfnmsubps %ymm0, (%rdx), %ymm0, %ymm0			; FMA4-NEXT: vfnmsubps %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float> %a, <8 x float> %b, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @test_x86_fnmsub_bba_ps_y(<8 x float> %a, <8 x float> %b) #0 {			define <8 x float> @test_x86_fnmsub_bba_ps_y(<8 x float> %a, <8 x float> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_bba_ps_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovaps (%rdx), %ymm0
	; FMA-NEXT: vfnmsub213ps (%rcx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_bba_ps_y:			; FMA4-LABEL: test_x86_fnmsub_bba_ps_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovaps (%rdx), %ymm0			; FMA4-NEXT: vmovaps (%rdx), %ymm0
	; FMA4-NEXT: vfnmsubps (%rcx), %ymm0, %ymm0, %ymm0			; FMA4-NEXT: vfnmsubps (%rcx), %ymm0, %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float> %b, <8 x float> %b, <8 x float> %a) nounwind			%res = call <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float> %b, <8 x float> %b, <8 x float> %a) nounwind
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	declare <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone
	define <2 x double> @test_x86_fnmsub_baa_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_baa_sd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm1
	; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfnmsub213sd %xmm1, %xmm1, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_baa_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vmovapd (%rdx), %xmm1
	; FMA4-NEXT: vfnmsubsd %xmm0, %xmm0, %xmm1, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind
	ret <2 x double> %res
	}

	define <2 x double> @test_x86_fnmsub_aba_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_aba_sd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfnmsub132sd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_aba_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfnmsubsd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res
	}

	define <2 x double> @test_x86_fnmsub_bba_sd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_bba_sd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfnmsub213sd (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_bba_sd:
	; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %xmm0
	; FMA4-NEXT: vfnmsubsd (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmsub.sd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res
	}

	declare <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone			declare <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double>, <2 x double>, <2 x double>) nounwind readnone
	define <2 x double> @test_x86_fnmsub_baa_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fnmsub_baa_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_baa_pd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfnmsub132pd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_baa_pd:			; FMA4-LABEL: test_x86_fnmsub_baa_pd:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0			; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfnmsubpd %xmm0, (%rdx), %xmm0, %xmm0			; FMA4-NEXT: vfnmsubpd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double> %b, <2 x double> %a, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fnmsub_aba_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fnmsub_aba_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_aba_pd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %xmm0
	; FMA-NEXT: vfnmsub231pd (%rdx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_aba_pd:			; FMA4-LABEL: test_x86_fnmsub_aba_pd:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %xmm0			; FMA4-NEXT: vmovapd (%rcx), %xmm0
	; FMA4-NEXT: vfnmsubpd %xmm0, (%rdx), %xmm0, %xmm0			; FMA4-NEXT: vfnmsubpd %xmm0, (%rdx), %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double> %a, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	define <2 x double> @test_x86_fnmsub_bba_pd(<2 x double> %a, <2 x double> %b) #0 {			define <2 x double> @test_x86_fnmsub_bba_pd(<2 x double> %a, <2 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_bba_pd:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %xmm0
	; FMA-NEXT: vfnmsub213pd (%rcx), %xmm0, %xmm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_bba_pd:			; FMA4-LABEL: test_x86_fnmsub_bba_pd:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %xmm0			; FMA4-NEXT: vmovapd (%rdx), %xmm0
	; FMA4-NEXT: vfnmsubpd (%rcx), %xmm0, %xmm0, %xmm0			; FMA4-NEXT: vfnmsubpd (%rcx), %xmm0, %xmm0, %xmm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind			%res = call <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double> %b, <2 x double> %b, <2 x double> %a) nounwind
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	declare <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double>, <4 x double>, <4 x double>) nounwind readnone			declare <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double>, <4 x double>, <4 x double>) nounwind readnone
	define <4 x double> @test_x86_fnmsub_baa_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fnmsub_baa_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_baa_pd_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %ymm0
	; FMA-NEXT: vfnmsub132pd (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_baa_pd_y:			; FMA4-LABEL: test_x86_fnmsub_baa_pd_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %ymm0			; FMA4-NEXT: vmovapd (%rcx), %ymm0
	; FMA4-NEXT: vfnmsubpd %ymm0, (%rdx), %ymm0, %ymm0			; FMA4-NEXT: vfnmsubpd %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double> %b, <4 x double> %a, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double> %b, <4 x double> %a, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	define <4 x double> @test_x86_fnmsub_aba_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fnmsub_aba_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_aba_pd_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rcx), %ymm0
	; FMA-NEXT: vfnmsub231pd (%rdx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_aba_pd_y:			; FMA4-LABEL: test_x86_fnmsub_aba_pd_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rcx), %ymm0			; FMA4-NEXT: vmovapd (%rcx), %ymm0
	; FMA4-NEXT: vfnmsubpd %ymm0, (%rdx), %ymm0, %ymm0			; FMA4-NEXT: vfnmsubpd %ymm0, (%rdx), %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double> %a, <4 x double> %b, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	define <4 x double> @test_x86_fnmsub_bba_pd_y(<4 x double> %a, <4 x double> %b) #0 {			define <4 x double> @test_x86_fnmsub_bba_pd_y(<4 x double> %a, <4 x double> %b) #0 {
	; FMA-LABEL: test_x86_fnmsub_bba_pd_y:
	; FMA: # BB#0:
	; FMA-NEXT: vmovapd (%rdx), %ymm0
	; FMA-NEXT: vfnmsub213pd (%rcx), %ymm0, %ymm0
	; FMA-NEXT: retq
	;
	; FMA4-LABEL: test_x86_fnmsub_bba_pd_y:			; FMA4-LABEL: test_x86_fnmsub_bba_pd_y:
	; FMA4: # BB#0:			; FMA4: # BB#0:
	; FMA4-NEXT: vmovapd (%rdx), %ymm0			; FMA4-NEXT: vmovapd (%rdx), %ymm0
	; FMA4-NEXT: vfnmsubpd (%rcx), %ymm0, %ymm0, %ymm0			; FMA4-NEXT: vfnmsubpd (%rcx), %ymm0, %ymm0, %ymm0
	; FMA4-NEXT: retq			; FMA4-NEXT: retq
	%res = call <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double> %b, <4 x double> %b, <4 x double> %a) nounwind			%res = call <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double> %b, <4 x double> %b, <4 x double> %a) nounwind
	ret <4 x double> %res			ret <4 x double> %res
	}			}

test/CodeGen/X86/fma4-fneg-combine.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=+fma4 \| FileCheck %s

				RKSimonUnsubmitted Not Done Reply Inline Actions Add -mattr=+fma4,+fma tests as well? RKSimon: Add -mattr=+fma4,+fma tests as well?
				declare <4 x float> @llvm.x86.fma4.vfmadd.ss(<4 x float> %a, <4 x float> %b, <4 x float> %c)
				declare <2 x double> @llvm.x86.fma4.vfmadd.sd(<2 x double> %a, <2 x double> %b, <2 x double> %c)

				; TODO this can be negated
				define <4 x float> @test1(<4 x float> %a, <4 x float> %b, <4 x float> %c) {
				; CHECK-LABEL: test1:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmaddss %xmm2, %xmm1, %xmm0, %xmm0
				; CHECK-NEXT: vxorps {{.*}}(%rip), %xmm0, %xmm0
				; CHECK-NEXT: retq
				%res = tail call <4 x float> @llvm.x86.fma4.vfmadd.ss(<4 x float> %a, <4 x float> %b, <4 x float> %c)
				%sub.i = fsub <4 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %res
				ret <4 x float> %sub.i
				}

				define <4 x float> @test2(<4 x float> %a, <4 x float> %b, <4 x float> %c) {
				; CHECK-LABEL: test2:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmsubss %xmm2, %xmm1, %xmm0, %xmm0
				; CHECK-NEXT: retq
				%sub.i = fsub <4 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %c
				%res = tail call <4 x float> @llvm.x86.fma4.vfmadd.ss(<4 x float> %a, <4 x float> %b, <4 x float> %sub.i)
				ret <4 x float> %res
				}

				define <4 x float> @test3(<4 x float> %a, <4 x float> %b, <4 x float> %c) {
				; CHECK-LABEL: test3:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfnmaddss %xmm2, %xmm1, %xmm0, %xmm0
				; CHECK-NEXT: retq
				%sub.i = fsub <4 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %b
				%res = tail call <4 x float> @llvm.x86.fma4.vfmadd.ss(<4 x float> %a, <4 x float> %sub.i, <4 x float> %c)
				ret <4 x float> %res
				}

				define <4 x float> @test4(<4 x float> %a, <4 x float> %b, <4 x float> %c) {
				; CHECK-LABEL: test4:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfnmaddss %xmm2, %xmm1, %xmm0, %xmm0
				; CHECK-NEXT: retq
				%sub.i = fsub <4 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %a
				%res = tail call <4 x float> @llvm.x86.fma4.vfmadd.ss(<4 x float> %sub.i, <4 x float> %b, <4 x float> %c)
				ret <4 x float> %res
				}

				define <4 x float> @test5(<4 x float> %a, <4 x float> %b, <4 x float> %c) {
				; CHECK-LABEL: test5:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfnmsubss %xmm2, %xmm1, %xmm0, %xmm0
				; CHECK-NEXT: retq
				%sub.i = fsub <4 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %a
				%sub.i.2 = fsub <4 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %c
				%res = tail call <4 x float> @llvm.x86.fma4.vfmadd.ss(<4 x float> %sub.i, <4 x float> %b, <4 x float> %sub.i.2)
				ret <4 x float> %res
				}

				define <2 x double> @test6(<2 x double> %a, <2 x double> %b, <2 x double> %c) {
				; CHECK-LABEL: test6:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmaddsd %xmm2, %xmm1, %xmm0, %xmm0
				; CHECK-NEXT: vxorpd {{.*}}(%rip), %xmm0, %xmm0
				; CHECK-NEXT: retq
				%res = tail call <2 x double> @llvm.x86.fma4.vfmadd.sd(<2 x double> %a, <2 x double> %b, <2 x double> %c)
				%sub.i = fsub <2 x double> <double -0.000000e+00, double -0.000000e+00>, %res
				ret <2 x double> %sub.i
				}

				define <2 x double> @test7(<2 x double> %a, <2 x double> %b, <2 x double> %c) {
				; CHECK-LABEL: test7:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmsubsd %xmm2, %xmm1, %xmm0, %xmm0
				; CHECK-NEXT: retq
				%sub.i = fsub <2 x double> <double -0.000000e+00, double -0.000000e+00>, %c
				%res = tail call <2 x double> @llvm.x86.fma4.vfmadd.sd(<2 x double> %a, <2 x double> %b, <2 x double> %sub.i)
				ret <2 x double> %res
				}

				define <2 x double> @test8(<2 x double> %a, <2 x double> %b, <2 x double> %c) {
				; CHECK-LABEL: test8:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfnmaddsd %xmm2, %xmm1, %xmm0, %xmm0
				; CHECK-NEXT: retq
				%sub.i = fsub <2 x double> <double -0.000000e+00, double -0.000000e+00>, %b
				%res = tail call <2 x double> @llvm.x86.fma4.vfmadd.sd(<2 x double> %a, <2 x double> %sub.i, <2 x double> %c)
				ret <2 x double> %res
				}

				define <2 x double> @test9(<2 x double> %a, <2 x double> %b, <2 x double> %c) {
				; CHECK-LABEL: test9:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfnmaddsd %xmm2, %xmm1, %xmm0, %xmm0
				; CHECK-NEXT: retq
				%sub.i = fsub <2 x double> <double -0.000000e+00, double -0.000000e+00>, %a
				%res = tail call <2 x double> @llvm.x86.fma4.vfmadd.sd(<2 x double> %sub.i, <2 x double> %b, <2 x double> %c)
				ret <2 x double> %res
				}

				define <2 x double> @test10(<2 x double> %a, <2 x double> %b, <2 x double> %c) {
				; CHECK-LABEL: test10:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfnmsubsd %xmm2, %xmm1, %xmm0, %xmm0
				; CHECK-NEXT: retq
				%sub.i = fsub <2 x double> <double -0.000000e+00, double -0.000000e+00>, %a
				%sub.i.2 = fsub <2 x double> <double -0.000000e+00, double -0.000000e+00>, %c
				%res = tail call <2 x double> @llvm.x86.fma4.vfmadd.sd(<2 x double> %sub.i, <2 x double> %b, <2 x double> %sub.i.2)
				ret <2 x double> %res
				}

test/CodeGen/X86/fma4-intrinsics-x86.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+fma4,-fma -show-mc-encoding \| FileCheck %s --check-prefix=CHECK

				RKSimonUnsubmitted Not Done Reply Inline Actions Add -mattr=+fma4,+fma tests as well? RKSimon: Add -mattr=+fma4,+fma tests as well?
				; VFMADD
				define <4 x float> @test_x86_fma4_vfmadd_ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
				; CHECK-LABEL: test_x86_fma4_vfmadd_ss:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmaddss %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x6a,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <4 x float> @llvm.x86.fma4.vfmadd.ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)
				ret <4 x float> %res
				}

				define <4 x float> @test_x86_fma4_vfmadd_bac_ss(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
				; CHECK-LABEL: test_x86_fma4_vfmadd_bac_ss:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmaddss %xmm2, %xmm0, %xmm1, %xmm0 # encoding: [0xc4,0xe3,0xf1,0x6a,0xc2,0x00]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <4 x float> @llvm.x86.fma4.vfmadd.ss(<4 x float> %a1, <4 x float> %a0, <4 x float> %a2)
				ret <4 x float> %res
				}
				declare <4 x float> @llvm.x86.fma4.vfmadd.ss(<4 x float>, <4 x float>, <4 x float>)

				define <2 x double> @test_x86_fma4_vfmadd_sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
				; CHECK-LABEL: test_x86_fma4_vfmadd_sd:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmaddsd %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x6b,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <2 x double> @llvm.x86.fma4.vfmadd.sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)
				ret <2 x double> %res
				}

				define <2 x double> @test_x86_fma4_vfmadd_bac_sd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
				; CHECK-LABEL: test_x86_fma4_vfmadd_bac_sd:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmaddsd %xmm2, %xmm0, %xmm1, %xmm0 # encoding: [0xc4,0xe3,0xf1,0x6b,0xc2,0x00]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <2 x double> @llvm.x86.fma4.vfmadd.sd(<2 x double> %a1, <2 x double> %a0, <2 x double> %a2)
				ret <2 x double> %res
				}
				declare <2 x double> @llvm.x86.fma4.vfmadd.sd(<2 x double>, <2 x double>, <2 x double>)

				define <4 x float> @test_x86_fma_vfmadd_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfmadd_ps:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmaddps %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x68,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)
				ret <4 x float> %res
				}
				declare <4 x float> @llvm.x86.fma.vfmadd.ps(<4 x float>, <4 x float>, <4 x float>)

				define <2 x double> @test_x86_fma_vfmadd_pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfmadd_pd:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmaddpd %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x69,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)
				ret <2 x double> %res
				}
				declare <2 x double> @llvm.x86.fma.vfmadd.pd(<2 x double>, <2 x double>, <2 x double>)

				define <8 x float> @test_x86_fma_vfmadd_ps_256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfmadd_ps_256:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmaddps %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x68,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2)
				ret <8 x float> %res
				}
				declare <8 x float> @llvm.x86.fma.vfmadd.ps.256(<8 x float>, <8 x float>, <8 x float>)

				define <4 x double> @test_x86_fma_vfmadd_pd_256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfmadd_pd_256:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmaddpd %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x69,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2)
				ret <4 x double> %res
				}
				declare <4 x double> @llvm.x86.fma.vfmadd.pd.256(<4 x double>, <4 x double>, <4 x double>)

				; VFMSUB
				define <4 x float> @test_x86_fma_vfmsub_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfmsub_ps:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmsubps %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x6c,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)
				ret <4 x float> %res
				}
				declare <4 x float> @llvm.x86.fma.vfmsub.ps(<4 x float>, <4 x float>, <4 x float>)

				define <2 x double> @test_x86_fma_vfmsub_pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfmsub_pd:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmsubpd %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x6d,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)
				ret <2 x double> %res
				}
				declare <2 x double> @llvm.x86.fma.vfmsub.pd(<2 x double>, <2 x double>, <2 x double>)

				define <8 x float> @test_x86_fma_vfmsub_ps_256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfmsub_ps_256:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmsubps %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x6c,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2)
				ret <8 x float> %res
				}
				declare <8 x float> @llvm.x86.fma.vfmsub.ps.256(<8 x float>, <8 x float>, <8 x float>)

				define <4 x double> @test_x86_fma_vfmsub_pd_256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfmsub_pd_256:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmsubpd %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x6d,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2)
				ret <4 x double> %res
				}
				declare <4 x double> @llvm.x86.fma.vfmsub.pd.256(<4 x double>, <4 x double>, <4 x double>)

				; VFNMADD
				define <4 x float> @test_x86_fma_vfnmadd_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfnmadd_ps:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfnmaddps %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x78,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)
				ret <4 x float> %res
				}
				declare <4 x float> @llvm.x86.fma.vfnmadd.ps(<4 x float>, <4 x float>, <4 x float>)

				define <2 x double> @test_x86_fma_vfnmadd_pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfnmadd_pd:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfnmaddpd %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x79,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)
				ret <2 x double> %res
				}
				declare <2 x double> @llvm.x86.fma.vfnmadd.pd(<2 x double>, <2 x double>, <2 x double>)

				define <8 x float> @test_x86_fma_vfnmadd_ps_256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfnmadd_ps_256:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfnmaddps %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x78,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2)
				ret <8 x float> %res
				}
				declare <8 x float> @llvm.x86.fma.vfnmadd.ps.256(<8 x float>, <8 x float>, <8 x float>)

				define <4 x double> @test_x86_fma_vfnmadd_pd_256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfnmadd_pd_256:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfnmaddpd %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x79,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2)
				ret <4 x double> %res
				}
				declare <4 x double> @llvm.x86.fma.vfnmadd.pd.256(<4 x double>, <4 x double>, <4 x double>)

				; VFNMSUB
				define <4 x float> @test_x86_fma_vfnmsub_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfnmsub_ps:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfnmsubps %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x7c,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)
				ret <4 x float> %res
				}
				declare <4 x float> @llvm.x86.fma.vfnmsub.ps(<4 x float>, <4 x float>, <4 x float>)

				define <2 x double> @test_x86_fma_vfnmsub_pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfnmsub_pd:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfnmsubpd %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x7d,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)
				ret <2 x double> %res
				}
				declare <2 x double> @llvm.x86.fma.vfnmsub.pd(<2 x double>, <2 x double>, <2 x double>)

				define <8 x float> @test_x86_fma_vfnmsub_ps_256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfnmsub_ps_256:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfnmsubps %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x7c,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2)
				ret <8 x float> %res
				}
				declare <8 x float> @llvm.x86.fma.vfnmsub.ps.256(<8 x float>, <8 x float>, <8 x float>)

				define <4 x double> @test_x86_fma_vfnmsub_pd_256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfnmsub_pd_256:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfnmsubpd %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x7d,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2)
				ret <4 x double> %res
				}
				declare <4 x double> @llvm.x86.fma.vfnmsub.pd.256(<4 x double>, <4 x double>, <4 x double>)

				; VFMADDSUB
				define <4 x float> @test_x86_fma_vfmaddsub_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfmaddsub_ps:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmaddsubps %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x5c,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <4 x float> @llvm.x86.fma.vfmaddsub.ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)
				ret <4 x float> %res
				}
				declare <4 x float> @llvm.x86.fma.vfmaddsub.ps(<4 x float>, <4 x float>, <4 x float>)

				define <2 x double> @test_x86_fma_vfmaddsub_pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfmaddsub_pd:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmaddsubpd %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x5d,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <2 x double> @llvm.x86.fma.vfmaddsub.pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)
				ret <2 x double> %res
				}
				declare <2 x double> @llvm.x86.fma.vfmaddsub.pd(<2 x double>, <2 x double>, <2 x double>)

				define <8 x float> @test_x86_fma_vfmaddsub_ps_256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfmaddsub_ps_256:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmaddsubps %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x5c,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <8 x float> @llvm.x86.fma.vfmaddsub.ps.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2)
				ret <8 x float> %res
				}
				declare <8 x float> @llvm.x86.fma.vfmaddsub.ps.256(<8 x float>, <8 x float>, <8 x float>)

				define <4 x double> @test_x86_fma_vfmaddsub_pd_256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfmaddsub_pd_256:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmaddsubpd %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x5d,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <4 x double> @llvm.x86.fma.vfmaddsub.pd.256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2)
				ret <4 x double> %res
				}
				declare <4 x double> @llvm.x86.fma.vfmaddsub.pd.256(<4 x double>, <4 x double>, <4 x double>)

				; VFMSUBADD
				define <4 x float> @test_x86_fma_vfmsubadd_ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfmsubadd_ps:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmsubaddps %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x5e,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <4 x float> @llvm.x86.fma.vfmsubadd.ps(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2)
				ret <4 x float> %res
				}
				declare <4 x float> @llvm.x86.fma.vfmsubadd.ps(<4 x float>, <4 x float>, <4 x float>)

				define <2 x double> @test_x86_fma_vfmsubadd_pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfmsubadd_pd:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmsubaddpd %xmm2, %xmm1, %xmm0, %xmm0 # encoding: [0xc4,0xe3,0xf9,0x5f,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <2 x double> @llvm.x86.fma.vfmsubadd.pd(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2)
				ret <2 x double> %res
				}
				declare <2 x double> @llvm.x86.fma.vfmsubadd.pd(<2 x double>, <2 x double>, <2 x double>)

				define <8 x float> @test_x86_fma_vfmsubadd_ps_256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfmsubadd_ps_256:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmsubaddps %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x5e,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <8 x float> @llvm.x86.fma.vfmsubadd.ps.256(<8 x float> %a0, <8 x float> %a1, <8 x float> %a2)
				ret <8 x float> %res
				}
				declare <8 x float> @llvm.x86.fma.vfmsubadd.ps.256(<8 x float>, <8 x float>, <8 x float>)

				define <4 x double> @test_x86_fma_vfmsubadd_pd_256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2) #0 {
				; CHECK-LABEL: test_x86_fma_vfmsubadd_pd_256:
				; CHECK: # BB#0:
				; CHECK-NEXT: vfmsubaddpd %ymm2, %ymm1, %ymm0, %ymm0 # encoding: [0xc4,0xe3,0xfd,0x5f,0xc2,0x10]
				; CHECK-NEXT: retq # encoding: [0xc3]
				%res = call <4 x double> @llvm.x86.fma.vfmsubadd.pd.256(<4 x double> %a0, <4 x double> %a1, <4 x double> %a2)
				ret <4 x double> %res
				}
				declare <4 x double> @llvm.x86.fma.vfmsubadd.pd.256(<4 x double>, <4 x double>, <4 x double>)

				attributes #0 = { nounwind }

test/CodeGen/X86/fma4-intrinsics-x86_64-folded-load.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=corei7-avx -mattr=+fma4 \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=corei7-avx -mattr=+fma4 \| FileCheck %s
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=bdver2 -mattr=+avx,-fma \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=bdver2 -mattr=+avx,-fma \| FileCheck %s

	; VFMADD			; VFMADD
	define < 4 x float > @test_x86_fma_vfmadd_ss_load(< 4 x float > %a0, < 4 x float > %a1, float* %a2) {			define < 4 x float > @test_x86_fma4_vfmadd_ss_load(< 4 x float > %a0, < 4 x float > %a1, float* %a2) {
	; CHECK-LABEL: test_x86_fma_vfmadd_ss_load:			; CHECK-LABEL: test_x86_fma4_vfmadd_ss_load:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vfmaddss (%rdi), %xmm1, %xmm0, %xmm0			; CHECK-NEXT: vfmaddss (%rdi), %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = load float , float *%a2			%x = load float , float *%a2
	%y = insertelement <4 x float> undef, float %x, i32 0			%y = insertelement <4 x float> undef, float %x, i32 0
	%res = call < 4 x float > @llvm.x86.fma.vfmadd.ss(< 4 x float > %a0, < 4 x float > %a1, < 4 x float > %y)			%res = call < 4 x float > @llvm.x86.fma4.vfmadd.ss(< 4 x float > %a0, < 4 x float > %a1, < 4 x float > %y)
	ret < 4 x float > %res			ret < 4 x float > %res
	}			}
	define < 4 x float > @test_x86_fma_vfmadd_ss_load2(< 4 x float > %a0, float* %a1, < 4 x float > %a2) {			define < 4 x float > @test_x86_fma4_vfmadd_ss_load2(< 4 x float > %a0, float* %a1, < 4 x float > %a2) {
	; CHECK-LABEL: test_x86_fma_vfmadd_ss_load2:			; CHECK-LABEL: test_x86_fma4_vfmadd_ss_load2:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vfmaddss %xmm1, (%rdi), %xmm0, %xmm0			; CHECK-NEXT: vfmaddss %xmm1, (%rdi), %xmm0, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = load float , float *%a1			%x = load float , float *%a1
	%y = insertelement <4 x float> undef, float %x, i32 0			%y = insertelement <4 x float> undef, float %x, i32 0
	%res = call < 4 x float > @llvm.x86.fma.vfmadd.ss(< 4 x float > %a0, < 4 x float > %y, < 4 x float > %a2)			%res = call < 4 x float > @llvm.x86.fma4.vfmadd.ss(< 4 x float > %a0, < 4 x float > %y, < 4 x float > %a2)
	ret < 4 x float > %res			ret < 4 x float > %res
	}			}

	declare < 4 x float > @llvm.x86.fma.vfmadd.ss(< 4 x float >, < 4 x float >, < 4 x float >) nounwind readnone			declare < 4 x float > @llvm.x86.fma4.vfmadd.ss(< 4 x float >, < 4 x float >, < 4 x float >) nounwind readnone

	define < 2 x double > @test_x86_fma_vfmadd_sd_load(< 2 x double > %a0, < 2 x double > %a1, double* %a2) {			define < 2 x double > @test_x86_fma4_vfmadd_sd_load(< 2 x double > %a0, < 2 x double > %a1, double* %a2) {
	; CHECK-LABEL: test_x86_fma_vfmadd_sd_load:			; CHECK-LABEL: test_x86_fma4_vfmadd_sd_load:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vfmaddsd (%rdi), %xmm1, %xmm0, %xmm0			; CHECK-NEXT: vfmaddsd (%rdi), %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = load double , double *%a2			%x = load double , double *%a2
	%y = insertelement <2 x double> undef, double %x, i32 0			%y = insertelement <2 x double> undef, double %x, i32 0
	%res = call < 2 x double > @llvm.x86.fma.vfmadd.sd(< 2 x double > %a0, < 2 x double > %a1, < 2 x double > %y)			%res = call < 2 x double > @llvm.x86.fma4.vfmadd.sd(< 2 x double > %a0, < 2 x double > %a1, < 2 x double > %y)
	ret < 2 x double > %res			ret < 2 x double > %res
	}			}
	define < 2 x double > @test_x86_fma_vfmadd_sd_load2(< 2 x double > %a0, double* %a1, < 2 x double > %a2) {			define < 2 x double > @test_x86_fma4_vfmadd_sd_load2(< 2 x double > %a0, double* %a1, < 2 x double > %a2) {
	; CHECK-LABEL: test_x86_fma_vfmadd_sd_load2:			; CHECK-LABEL: test_x86_fma4_vfmadd_sd_load2:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vfmaddsd %xmm1, (%rdi), %xmm0, %xmm0			; CHECK-NEXT: vfmaddsd %xmm1, (%rdi), %xmm0, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = load double , double *%a1			%x = load double , double *%a1
	%y = insertelement <2 x double> undef, double %x, i32 0			%y = insertelement <2 x double> undef, double %x, i32 0
	%res = call < 2 x double > @llvm.x86.fma.vfmadd.sd(< 2 x double > %a0, < 2 x double > %y, < 2 x double > %a2)			%res = call < 2 x double > @llvm.x86.fma4.vfmadd.sd(< 2 x double > %a0, < 2 x double > %y, < 2 x double > %a2)
	ret < 2 x double > %res			ret < 2 x double > %res
	}			}
	declare < 2 x double > @llvm.x86.fma.vfmadd.sd(< 2 x double >, < 2 x double >, < 2 x double >) nounwind readnone			declare < 2 x double > @llvm.x86.fma4.vfmadd.sd(< 2 x double >, < 2 x double >, < 2 x double >) nounwind readnone
	define < 4 x float > @test_x86_fma_vfmadd_ps_load(< 4 x float > %a0, < 4 x float > %a1, < 4 x float >* %a2) {			define < 4 x float > @test_x86_fma_vfmadd_ps_load(< 4 x float > %a0, < 4 x float > %a1, < 4 x float >* %a2) {
	; CHECK-LABEL: test_x86_fma_vfmadd_ps_load:			; CHECK-LABEL: test_x86_fma_vfmadd_ps_load:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: vfmaddps (%rdi), %xmm1, %xmm0, %xmm0			; CHECK-NEXT: vfmaddps (%rdi), %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = load <4 x float>, <4 x float>* %a2			%x = load <4 x float>, <4 x float>* %a2
	%res = call < 4 x float > @llvm.x86.fma.vfmadd.ps(< 4 x float > %a0, < 4 x float > %a1, < 4 x float > %x)			%res = call < 4 x float > @llvm.x86.fma.vfmadd.ps(< 4 x float > %a0, < 4 x float > %a1, < 4 x float > %x)
	ret < 4 x float > %res			ret < 4 x float > %res
	▲ Show 20 Lines • Show All 58 Lines • Show Last 20 Lines

test/CodeGen/X86/fma4-scalar-memfold.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc < %s -mattr=fma4 \| FileCheck %s

				target triple = "x86_64-unknown-unknown"

				declare <4 x float> @llvm.x86.fma4.vfmadd.ss(<4 x float>, <4 x float>, <4 x float>)
				declare <2 x double> @llvm.x86.fma4.vfmadd.sd(<2 x double>, <2 x double>, <2 x double>)

				define void @fmadd_aab_ss(float* %a, float* %b) {
				; CHECK-LABEL: fmadd_aab_ss:
				; CHECK: # BB#0:
				; CHECK-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: vfmaddss (%rsi), %xmm0, %xmm0, %xmm0
				; CHECK-NEXT: vmovss %xmm0, (%rdi)
				; CHECK-NEXT: retq
				%a.val = load float, float* %a
				%av0 = insertelement <4 x float> undef, float %a.val, i32 0
				%av1 = insertelement <4 x float> %av0, float 0.000000e+00, i32 1
				%av2 = insertelement <4 x float> %av1, float 0.000000e+00, i32 2
				%av = insertelement <4 x float> %av2, float 0.000000e+00, i32 3

				%b.val = load float, float* %b
				%bv0 = insertelement <4 x float> undef, float %b.val, i32 0
				%bv1 = insertelement <4 x float> %bv0, float 0.000000e+00, i32 1
				%bv2 = insertelement <4 x float> %bv1, float 0.000000e+00, i32 2
				%bv = insertelement <4 x float> %bv2, float 0.000000e+00, i32 3

				%vr = call <4 x float> @llvm.x86.fma4.vfmadd.ss(<4 x float> %av, <4 x float> %av, <4 x float> %bv)

				%sr = extractelement <4 x float> %vr, i32 0
				store float %sr, float* %a
				ret void
				}

				define void @fmadd_aba_ss(float* %a, float* %b) {
				; CHECK-LABEL: fmadd_aba_ss:
				; CHECK: # BB#0:
				; CHECK-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: vfmaddss %xmm0, (%rsi), %xmm0, %xmm0
				; CHECK-NEXT: vmovss %xmm0, (%rdi)
				; CHECK-NEXT: retq
				%a.val = load float, float* %a
				%av0 = insertelement <4 x float> undef, float %a.val, i32 0
				%av1 = insertelement <4 x float> %av0, float 0.000000e+00, i32 1
				%av2 = insertelement <4 x float> %av1, float 0.000000e+00, i32 2
				%av = insertelement <4 x float> %av2, float 0.000000e+00, i32 3

				%b.val = load float, float* %b
				%bv0 = insertelement <4 x float> undef, float %b.val, i32 0
				%bv1 = insertelement <4 x float> %bv0, float 0.000000e+00, i32 1
				%bv2 = insertelement <4 x float> %bv1, float 0.000000e+00, i32 2
				%bv = insertelement <4 x float> %bv2, float 0.000000e+00, i32 3

				%vr = call <4 x float> @llvm.x86.fma4.vfmadd.ss(<4 x float> %av, <4 x float> %bv, <4 x float> %av)

				%sr = extractelement <4 x float> %vr, i32 0
				store float %sr, float* %a
				ret void
				}

				define void @fmadd_aab_sd(double* %a, double* %b) {
				; CHECK-LABEL: fmadd_aab_sd:
				; CHECK: # BB#0:
				; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
				; CHECK-NEXT: vfmaddsd (%rsi), %xmm0, %xmm0, %xmm0
				; CHECK-NEXT: vmovlpd %xmm0, (%rdi)
				; CHECK-NEXT: retq
				%a.val = load double, double* %a
				%av0 = insertelement <2 x double> undef, double %a.val, i32 0
				%av = insertelement <2 x double> %av0, double 0.000000e+00, i32 1

				%b.val = load double, double* %b
				%bv0 = insertelement <2 x double> undef, double %b.val, i32 0
				%bv = insertelement <2 x double> %bv0, double 0.000000e+00, i32 1

				%vr = call <2 x double> @llvm.x86.fma4.vfmadd.sd(<2 x double> %av, <2 x double> %av, <2 x double> %bv)

				%sr = extractelement <2 x double> %vr, i32 0
				store double %sr, double* %a
				ret void
				}

				define void @fmadd_aba_sd(double* %a, double* %b) {
				; CHECK-LABEL: fmadd_aba_sd:
				; CHECK: # BB#0:
				; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
				; CHECK-NEXT: vfmaddsd %xmm0, (%rsi), %xmm0, %xmm0
				; CHECK-NEXT: vmovlpd %xmm0, (%rdi)
				; CHECK-NEXT: retq
				%a.val = load double, double* %a
				%av0 = insertelement <2 x double> undef, double %a.val, i32 0
				%av = insertelement <2 x double> %av0, double 0.000000e+00, i32 1

				%b.val = load double, double* %b
				%bv0 = insertelement <2 x double> undef, double %b.val, i32 0
				%bv = insertelement <2 x double> %bv0, double 0.000000e+00, i32 1

				%vr = call <2 x double> @llvm.x86.fma4.vfmadd.sd(<2 x double> %av, <2 x double> %bv, <2 x double> %av)

				%sr = extractelement <2 x double> %vr, i32 0
				store double %sr, double* %a
				ret void
				}