This is an archive of the discontinued LLVM Phabricator instance.

[x86] scalarize extract element 0 of FP math
ClosedPublic

Authored by spatel on Feb 15 2019, 6:44 AM.

Download Raw Diff

Details

Reviewers

RKSimon
craig.topper
andreadb

Commits

rG7fc6ef7dd743: [x86] scalarize extract element 0 of FP math
rL355130: [x86] scalarize extract element 0 of FP math

Summary

This is another step towards ensuring that we produce the optimal code for reductions, but there are other potential benefits as seen in the tests diffs:

Memory loads may get scalarized resulting in more efficient code.
Memory stores may get scalarized resulting in more efficient code.
Complex ops like fdiv/sqrt get scalarized which may be faster instructions depending on uarch.
Even simple ops like addss/subss/mulss/roundss may result in faster operation/less frequency throttling when scalarized depending on uarch.

The TODO comment suggests 1 or more follow-ups for opcodes that can currently result in regressions.
The tests for "minimum" and "maximum" IR in extractelement-fp.ll are commented out because those currently crash independently of this patch. I'm not sure what that problem is yet.

Diff Detail

Event Timeline

spatel created this revision.Feb 15 2019, 6:44 AM

Herald added a project: Restricted Project. · View Herald TranscriptFeb 15 2019, 6:44 AM

Herald added subscribers: jdoerfert, hiraditya, mcrosier. · View Herald Transcript

RKSimon added inline comments.Feb 15 2019, 8:09 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
34244	llvm_unreachable

Patch updated:
Add llvm_unreachable so we don't accidentally return without a value.

RKSimon added inline comments.Feb 20 2019, 12:42 PM

llvm/lib/Target/X86/X86ISelLowering.cpp
34233	(style) Is clang-format happy with this?
llvm/test/CodeGen/X86/extractelement-fp.ll
138	Should unary ops handle non-zero index extractions?

spatel marked 4 inline comments as done.Feb 21 2019, 4:00 PM

spatel added inline comments.

llvm/lib/Target/X86/X86ISelLowering.cpp
34233	Definitely not. :) I was trying to keep the list organized and save space while fetching things from the header file, but that didn't last. I'll fix it to use the standard 1-case-per-line.
llvm/test/CodeGen/X86/extractelement-fp.ll
138	There's some set of conditions under which we want to do that, but I don't think unary alone is it. For example, it probably makes sense to shuffle an fdiv to avoid the vector op. Also, anything that would get expanded via unrolling during legalization? I'll add a TODO note so we can follow-up.

Patch updated:

Added TODO comment about handling non-zero extract index.
Reformatted switch.

Ping.

LGTM with a couple of minors

llvm/lib/Target/X86/X86ISelLowering.cpp
34249	You should be able to add RSQRTSS + RCPSS as well?
llvm/test/CodeGen/X86/extractelement-fp.ll
309	Slightly annoying - the vector version broadcasts a scalar, the scalar version loads a whole vector..... Can you raise a bug on this please?

This revision is now accepted and ready to land.Feb 28 2019, 10:37 AM

spatel marked 4 inline comments as done.Feb 28 2019, 11:36 AM

spatel added inline comments.

llvm/lib/Target/X86/X86ISelLowering.cpp
34249	Yes - I'll add that to the TODO. There are other x86-specific opcodes like FMAX/FMAXC too, so I need to do a full audit.
llvm/test/CodeGen/X86/extractelement-fp.ll
309	https://bugs.llvm.org/show_bug.cgi?id=40905

Closed by commit rL355130: [x86] scalarize extract element 0 of FP math (authored by spatel). · Explain WhyFeb 28 2019, 11:46 AM

This revision was automatically updated to reflect the committed changes.

spatel marked 2 inline comments as done.

spatel mentioned this in rL355741: [x86] scalarize extract element 0 of FP cmp.Mar 8 2019, 1:55 PM

spatel mentioned this in rGf84083b4dbb1: [x86] scalarize extract element 0 of FP cmp.

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86ISelLowering.cpp

43 lines

test/

CodeGen/

X86/

avx1-logical-load-folding.ll

4 lines

avx512-hadd-hsub.ll

12 lines

avx512-intrinsics-fast-isel.ll

40 lines

8 lines

81 lines

2 lines

8 lines

6 lines

8 lines

vector-reduce-fadd-fast.ll

168 lines

vector-reduce-fmul-fast.ll

168 lines

Diff 187027

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 34,198 Lines • ▼ Show 20 Lines	if ((SrcVT == MVT::v8i16 && Subtarget.hasSSE2()) \|\|
SDValue ExtOp = DAG.getNode(OpCode, dl, MVT::i32, SrcOp,		SDValue ExtOp = DAG.getNode(OpCode, dl, MVT::i32, SrcOp,
DAG.getIntPtrConstant(SrcIdx, dl));		DAG.getIntPtrConstant(SrcIdx, dl));
return DAG.getZExtOrTrunc(ExtOp, dl, VT);		return DAG.getZExtOrTrunc(ExtOp, dl, VT);
}		}

return SDValue();		return SDValue();
}		}

		/// Extracting a scalar FP value from vector element 0 is free, so extract each
		/// operand first, then perform the math as a scalar op.
		static SDValue scalarizeExtEltFP(SDNode *ExtElt, SelectionDAG &DAG) {
		assert(ExtElt->getOpcode() == ISD::EXTRACT_VECTOR_ELT && "Expected extract");
		SDValue Vec = ExtElt->getOperand(0);
		SDValue Index = ExtElt->getOperand(1);
		EVT VT = ExtElt->getValueType(0);
		EVT VecVT = Vec.getValueType();
		if (!Vec.hasOneUse() \|\| !isNullConstant(Index) \|\| VecVT.getScalarType() != VT)
		return SDValue();

		if (VT != MVT::f32 && VT != MVT::f64)
		return SDValue();

		// TODO: This switch could include FNEG and the x86-specific FP logic ops
		// (FAND, FANDN, FOR, FXOR), but that may require enhancements to avoid
		// missed load folding and fma+fneg combining.
		switch (Vec.getOpcode()) {
		case ISD::FMA: case ISD::FMAD:
		case ISD::FADD: case ISD::FSUB: case ISD::FMUL: case ISD::FDIV:
		case ISD::FREM: case ISD::FCOPYSIGN:
		case ISD::FABS: case ISD::FSQRT:
		case ISD::FRINT: case ISD::FCEIL: case ISD::FTRUNC: case ISD::FNEARBYINT:
		case ISD::FROUND: case ISD::FFLOOR:
		case ISD::FMINNUM: case ISD::FMAXNUM:
		case ISD::FMINNUM_IEEE: case ISD::FMAXNUM_IEEE:
		case ISD::FMAXIMUM: case ISD::FMINIMUM: {
		RKSimonUnsubmitted Done Reply Inline Actions (style) Is clang-format happy with this? RKSimon: (style) Is clang-format happy with this?
		spatelAuthorUnsubmitted Done Reply Inline Actions Definitely not. :) I was trying to keep the list organized and save space while fetching things from the header file, but that didn't last. I'll fix it to use the standard 1-case-per-line. spatel: Definitely not. :) I was trying to keep the list organized and save space while fetching things…
		// extract (fp X, Y, ...), 0 --> fp (extract X, 0), (extract Y, 0), ...
		SDLoc DL(ExtElt);
		SmallVector<SDValue, 4> ExtOps;
		for (SDValue Op : Vec->ops())
		ExtOps.push_back(DAG.getNode(ISD::EXTRACT_VECTOR_ELT, DL, VT, Op, Index));
		return DAG.getNode(Vec.getOpcode(), DL, VT, ExtOps);
		}
		default:
		return SDValue();
		}
		llvm_unreachable("All opcodes should return within switch");
		RKSimonUnsubmitted Done Reply Inline Actions llvm_unreachable RKSimon: llvm_unreachable
		}

/// Detect vector gather/scatter index generation and convert it from being a		/// Detect vector gather/scatter index generation and convert it from being a
/// bunch of shuffles and extracts into a somewhat faster sequence.		/// bunch of shuffles and extracts into a somewhat faster sequence.
/// For i686, the best sequence is apparently storing the value and loading		/// For i686, the best sequence is apparently storing the value and loading
		RKSimonUnsubmitted Done Reply Inline Actions You should be able to add RSQRTSS + RCPSS as well? RKSimon: You should be able to add RSQRTSS + RCPSS as well?
		spatelAuthorUnsubmitted Done Reply Inline Actions Yes - I'll add that to the TODO. There are other x86-specific opcodes like FMAX/FMAXC too, so I need to do a full audit. spatel: Yes - I'll add that to the TODO. There are other x86-specific opcodes like FMAX/FMAXC too, so I…
/// scalars back, while for x64 we should use 64-bit extracts and shifts.		/// scalars back, while for x64 we should use 64-bit extracts and shifts.
static SDValue combineExtractVectorElt(SDNode *N, SelectionDAG &DAG,		static SDValue combineExtractVectorElt(SDNode *N, SelectionDAG &DAG,
TargetLowering::DAGCombinerInfo &DCI,		TargetLowering::DAGCombinerInfo &DCI,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
if (SDValue NewOp = combineExtractWithShuffle(N, DAG, DCI, Subtarget))		if (SDValue NewOp = combineExtractWithShuffle(N, DAG, DCI, Subtarget))
return NewOp;		return NewOp;

// TODO - Remove this once we can handle the implicit zero-extension of		// TODO - Remove this once we can handle the implicit zero-extension of
▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines	static SDValue combineExtractVectorElt(SDNode *N, SelectionDAG &DAG,
// Attempt to replace an all_of/any_of horizontal reduction with a MOVMSK.		// Attempt to replace an all_of/any_of horizontal reduction with a MOVMSK.
if (SDValue Cmp = combineHorizontalPredicateResult(N, DAG, Subtarget))		if (SDValue Cmp = combineHorizontalPredicateResult(N, DAG, Subtarget))
return Cmp;		return Cmp;

// Attempt to replace min/max v8i16/v16i8 reductions with PHMINPOSUW.		// Attempt to replace min/max v8i16/v16i8 reductions with PHMINPOSUW.
if (SDValue MinMax = combineHorizontalMinMaxResult(N, DAG, Subtarget))		if (SDValue MinMax = combineHorizontalMinMaxResult(N, DAG, Subtarget))
return MinMax;		return MinMax;

		if (SDValue V = scalarizeExtEltFP(N, DAG))
		return V;

return SDValue();		return SDValue();
}		}

/// If a vector select has an operand that is -1 or 0, try to simplify the		/// If a vector select has an operand that is -1 or 0, try to simplify the
/// select to a bitwise logic operation.		/// select to a bitwise logic operation.
/// TODO: Move to DAGCombiner, possibly using TargetLowering::hasAndNot()?		/// TODO: Move to DAGCombiner, possibly using TargetLowering::hasAndNot()?
static SDValue		static SDValue
combineVSelectWithAllOnesOrZeros(SDNode *N, SelectionDAG &DAG,		combineVSelectWithAllOnesOrZeros(SDNode *N, SelectionDAG &DAG,
▲ Show 20 Lines • Show All 9,101 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx1-logical-load-folding.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -O3 -disable-peephole -mtriple=i686-apple-macosx10.9.0 -mcpu=corei7-avx -mattr=+avx \| FileCheck %s --check-prefix=X86			; RUN: llc < %s -O3 -disable-peephole -mtriple=i686-apple-macosx10.9.0 -mcpu=corei7-avx -mattr=+avx \| FileCheck %s --check-prefix=X86
	; RUN: llc < %s -O3 -disable-peephole -mtriple=x86_64-apple-macosx10.9.0 -mcpu=corei7-avx -mattr=+avx \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -O3 -disable-peephole -mtriple=x86_64-apple-macosx10.9.0 -mcpu=corei7-avx -mattr=+avx \| FileCheck %s --check-prefix=X64

	; Function Attrs: nounwind ssp uwtable			; Function Attrs: nounwind ssp uwtable
	define void @test1(float* %A, float* %C) #0 {			define void @test1(float* %A, float* %C) #0 {
	; X86-LABEL: test1:			; X86-LABEL: test1:
	; X86: ## %bb.0:			; X86: ## %bb.0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: vmovaps (%ecx), %xmm0			; X86-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-NEXT: vandps LCPI0_0, %xmm0, %xmm0			; X86-NEXT: vandps LCPI0_0, %xmm0, %xmm0
	; X86-NEXT: vmovss %xmm0, (%eax)			; X86-NEXT: vmovss %xmm0, (%eax)
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test1:			; X64-LABEL: test1:
	; X64: ## %bb.0:			; X64: ## %bb.0:
	; X64-NEXT: vmovaps (%rdi), %xmm0			; X64-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: vandps {{.*}}(%rip), %xmm0, %xmm0			; X64-NEXT: vandps {{.*}}(%rip), %xmm0, %xmm0
	; X64-NEXT: vmovss %xmm0, (%rsi)			; X64-NEXT: vmovss %xmm0, (%rsi)
	; X64-NEXT: retq			; X64-NEXT: retq
	%tmp1 = bitcast float* %A to <8 x float>*			%tmp1 = bitcast float* %A to <8 x float>*
	%tmp2 = load <8 x float>, <8 x float>* %tmp1, align 32			%tmp2 = load <8 x float>, <8 x float>* %tmp1, align 32
	%tmp3 = bitcast <8 x float> %tmp2 to <8 x i32>			%tmp3 = bitcast <8 x float> %tmp2 to <8 x i32>
	%tmp4 = and <8 x i32> %tmp3, <i32 2147483647, i32 2147483647, i32 2147483647, i32 2147483647, i32 2147483647, i32 2147483647, i32 2147483647, i32 2147483647>			%tmp4 = and <8 x i32> %tmp3, <i32 2147483647, i32 2147483647, i32 2147483647, i32 2147483647, i32 2147483647, i32 2147483647, i32 2147483647, i32 2147483647>
	%tmp5 = bitcast <8 x i32> %tmp4 to <8 x float>			%tmp5 = bitcast <8 x i32> %tmp4 to <8 x float>
	▲ Show 20 Lines • Show All 85 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512-hadd-hsub.ll

Show First 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
}		}

define float @fhadd_16(<16 x float> %x225) {		define float @fhadd_16(<16 x float> %x225) {
; KNL-LABEL: fhadd_16:		; KNL-LABEL: fhadd_16:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; KNL-NEXT: vaddps %xmm1, %xmm0, %xmm0		; KNL-NEXT: vaddps %xmm1, %xmm0, %xmm0
; KNL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; KNL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; KNL-NEXT: vaddps %xmm1, %xmm0, %xmm0		; KNL-NEXT: vaddss %xmm1, %xmm0, %xmm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: fhadd_16:		; SKX-LABEL: fhadd_16:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; SKX-NEXT: vaddps %xmm1, %xmm0, %xmm0		; SKX-NEXT: vaddps %xmm1, %xmm0, %xmm0
; SKX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; SKX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; SKX-NEXT: vaddps %xmm1, %xmm0, %xmm0		; SKX-NEXT: vaddss %xmm1, %xmm0, %xmm0
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x227 = fadd <16 x float> %x225, %x226		%x227 = fadd <16 x float> %x225, %x226
%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x229 = fadd <16 x float> %x227, %x228		%x229 = fadd <16 x float> %x227, %x228
%x230 = extractelement <16 x float> %x229, i32 0		%x230 = extractelement <16 x float> %x229, i32 0
ret float %x230		ret float %x230
}		}

define float @fhsub_16(<16 x float> %x225) {		define float @fhsub_16(<16 x float> %x225) {
; KNL-LABEL: fhsub_16:		; KNL-LABEL: fhsub_16:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; KNL-NEXT: vaddps %xmm1, %xmm0, %xmm0		; KNL-NEXT: vaddps %xmm1, %xmm0, %xmm0
; KNL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; KNL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; KNL-NEXT: vsubps %xmm1, %xmm0, %xmm0		; KNL-NEXT: vsubss %xmm1, %xmm0, %xmm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: fhsub_16:		; SKX-LABEL: fhsub_16:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; SKX-NEXT: vaddps %xmm1, %xmm0, %xmm0		; SKX-NEXT: vaddps %xmm1, %xmm0, %xmm0
; SKX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; SKX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; SKX-NEXT: vsubps %xmm1, %xmm0, %xmm0		; SKX-NEXT: vsubss %xmm1, %xmm0, %xmm0
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x227 = fadd <16 x float> %x225, %x226		%x227 = fadd <16 x float> %x225, %x226
%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x229 = fsub <16 x float> %x227, %x228		%x229 = fsub <16 x float> %x227, %x228
%x230 = extractelement <16 x float> %x229, i32 0		%x230 = extractelement <16 x float> %x229, i32 0
ret float %x230		ret float %x230
▲ Show 20 Lines • Show All 115 Lines • ▼ Show 20 Lines	i32 29, i32 31>
ret <8 x i32> %x230		ret <8 x i32> %x230
}		}


define double @fadd_noundef_eel(<8 x double> %x225, <8 x double> %x227) {		define double @fadd_noundef_eel(<8 x double> %x225, <8 x double> %x227) {
; KNL-LABEL: fadd_noundef_eel:		; KNL-LABEL: fadd_noundef_eel:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; KNL-NEXT: vaddpd %xmm1, %xmm0, %xmm0		; KNL-NEXT: vaddsd %xmm1, %xmm0, %xmm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: fadd_noundef_eel:		; SKX-LABEL: fadd_noundef_eel:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; SKX-NEXT: vaddpd %xmm1, %xmm0, %xmm0		; SKX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 0, i32 8, i32 2, i32 10, i32 4, i32 12, i32 6, i32 14>		%x226 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 0, i32 8, i32 2, i32 10, i32 4, i32 12, i32 6, i32 14>
%x228 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 1, i32 9, i32 3, i32 11, i32 5 ,i32 13, i32 7, i32 15>		%x228 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 1, i32 9, i32 3, i32 11, i32 5 ,i32 13, i32 7, i32 15>
%x229 = fadd <8 x double> %x226, %x228		%x229 = fadd <8 x double> %x226, %x228
%x230 = extractelement <8 x double> %x229, i32 0		%x230 = extractelement <8 x double> %x229, i32 0
ret double %x230		ret double %x230
}		}
Show All 29 Lines

llvm/test/CodeGen/X86/avx512-intrinsics-fast-isel.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 7,283 Lines • ▼ Show 20 Lines
	; X86-NEXT: .cfi_def_cfa_register %ebp			; X86-NEXT: .cfi_def_cfa_register %ebp
	; X86-NEXT: andl $-8, %esp			; X86-NEXT: andl $-8, %esp
	; X86-NEXT: subl $8, %esp			; X86-NEXT: subl $8, %esp
	; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; X86-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; X86-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; X86-NEXT: vextractf128 $1, %ymm0, %xmm1			; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X86-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; X86-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; X86-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; X86-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; X86-NEXT: vmovlpd %xmm0, (%esp)			; X86-NEXT: vmovsd %xmm0, (%esp)
	; X86-NEXT: fldl (%esp)			; X86-NEXT: fldl (%esp)
	; X86-NEXT: movl %ebp, %esp			; X86-NEXT: movl %ebp, %esp
	; X86-NEXT: popl %ebp			; X86-NEXT: popl %ebp
	; X86-NEXT: .cfi_def_cfa %esp, 4			; X86-NEXT: .cfi_def_cfa %esp, 4
	; X86-NEXT: vzeroupper			; X86-NEXT: vzeroupper
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_mm512_reduce_add_pd:			; X64-LABEL: test_mm512_reduce_add_pd:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; X64-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; X64-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; X64-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; X64-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; X64-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; X64-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; X64-NEXT: vzeroupper			; X64-NEXT: vzeroupper
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%shuffle.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%shuffle.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%shuffle1.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>			%shuffle1.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
	%add.i = fadd <4 x double> %shuffle.i, %shuffle1.i			%add.i = fadd <4 x double> %shuffle.i, %shuffle1.i
	%shuffle2.i = shufflevector <4 x double> %add.i, <4 x double> undef, <2 x i32> <i32 0, i32 1>			%shuffle2.i = shufflevector <4 x double> %add.i, <4 x double> undef, <2 x i32> <i32 0, i32 1>
	%shuffle3.i = shufflevector <4 x double> %add.i, <4 x double> undef, <2 x i32> <i32 2, i32 3>			%shuffle3.i = shufflevector <4 x double> %add.i, <4 x double> undef, <2 x i32> <i32 2, i32 3>
	Show All 14 Lines
	; X86-NEXT: .cfi_def_cfa_register %ebp			; X86-NEXT: .cfi_def_cfa_register %ebp
	; X86-NEXT: andl $-8, %esp			; X86-NEXT: andl $-8, %esp
	; X86-NEXT: subl $8, %esp			; X86-NEXT: subl $8, %esp
	; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; X86-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; X86-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; X86-NEXT: vextractf128 $1, %ymm0, %xmm1			; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X86-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; X86-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; X86-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; X86-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; X86-NEXT: vmovlpd %xmm0, (%esp)			; X86-NEXT: vmovsd %xmm0, (%esp)
	; X86-NEXT: fldl (%esp)			; X86-NEXT: fldl (%esp)
	; X86-NEXT: movl %ebp, %esp			; X86-NEXT: movl %ebp, %esp
	; X86-NEXT: popl %ebp			; X86-NEXT: popl %ebp
	; X86-NEXT: .cfi_def_cfa %esp, 4			; X86-NEXT: .cfi_def_cfa %esp, 4
	; X86-NEXT: vzeroupper			; X86-NEXT: vzeroupper
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_mm512_reduce_mul_pd:			; X64-LABEL: test_mm512_reduce_mul_pd:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; X64-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; X64-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; X64-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; X64-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; X64-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; X64-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; X64-NEXT: vzeroupper			; X64-NEXT: vzeroupper
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%shuffle.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%shuffle.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%shuffle1.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>			%shuffle1.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
	%mul.i = fmul <4 x double> %shuffle.i, %shuffle1.i			%mul.i = fmul <4 x double> %shuffle.i, %shuffle1.i
	%shuffle2.i = shufflevector <4 x double> %mul.i, <4 x double> undef, <2 x i32> <i32 0, i32 1>			%shuffle2.i = shufflevector <4 x double> %mul.i, <4 x double> undef, <2 x i32> <i32 0, i32 1>
	%shuffle3.i = shufflevector <4 x double> %mul.i, <4 x double> undef, <2 x i32> <i32 2, i32 3>			%shuffle3.i = shufflevector <4 x double> %mul.i, <4 x double> undef, <2 x i32> <i32 2, i32 3>
	Show All 11 Lines
	; X86-NEXT: .cfi_def_cfa_offset 8			; X86-NEXT: .cfi_def_cfa_offset 8
	; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; X86-NEXT: vaddps %ymm1, %ymm0, %ymm0			; X86-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; X86-NEXT: vextractf128 $1, %ymm0, %xmm1			; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X86-NEXT: vaddps %xmm1, %xmm0, %xmm0			; X86-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; X86-NEXT: vaddps %xmm1, %xmm0, %xmm0			; X86-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; X86-NEXT: vaddps %xmm1, %xmm0, %xmm0			; X86-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; X86-NEXT: vmovss %xmm0, (%esp)			; X86-NEXT: vmovss %xmm0, (%esp)
	; X86-NEXT: flds (%esp)			; X86-NEXT: flds (%esp)
	; X86-NEXT: popl %eax			; X86-NEXT: popl %eax
	; X86-NEXT: .cfi_def_cfa_offset 4			; X86-NEXT: .cfi_def_cfa_offset 4
	; X86-NEXT: vzeroupper			; X86-NEXT: vzeroupper
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_mm512_reduce_add_ps:			; X64-LABEL: test_mm512_reduce_add_ps:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; X64-NEXT: vaddps %ymm1, %ymm0, %ymm0			; X64-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; X64-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-NEXT: vaddps %xmm1, %xmm0, %xmm0			; X64-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; X64-NEXT: vaddps %xmm1, %xmm0, %xmm0			; X64-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; X64-NEXT: vaddps %xmm1, %xmm0, %xmm0			; X64-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; X64-NEXT: vzeroupper			; X64-NEXT: vzeroupper
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%0 = bitcast <16 x float> %__W to <8 x double>			%0 = bitcast <16 x float> %__W to <8 x double>
	%extract.i = shufflevector <8 x double> %0, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%extract.i = shufflevector <8 x double> %0, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%1 = bitcast <4 x double> %extract.i to <8 x float>			%1 = bitcast <4 x double> %extract.i to <8 x float>
	%extract2.i = shufflevector <8 x double> %0, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>			%extract2.i = shufflevector <8 x double> %0, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
	%2 = bitcast <4 x double> %extract2.i to <8 x float>			%2 = bitcast <4 x double> %extract2.i to <8 x float>
	Show All 16 Lines
	; X86-NEXT: .cfi_def_cfa_offset 8			; X86-NEXT: .cfi_def_cfa_offset 8
	; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; X86-NEXT: vmulps %ymm1, %ymm0, %ymm0			; X86-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; X86-NEXT: vextractf128 $1, %ymm0, %xmm1			; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X86-NEXT: vmulps %xmm1, %xmm0, %xmm0			; X86-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; X86-NEXT: vmulps %xmm1, %xmm0, %xmm0			; X86-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; X86-NEXT: vmulps %xmm1, %xmm0, %xmm0			; X86-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; X86-NEXT: vmovss %xmm0, (%esp)			; X86-NEXT: vmovss %xmm0, (%esp)
	; X86-NEXT: flds (%esp)			; X86-NEXT: flds (%esp)
	; X86-NEXT: popl %eax			; X86-NEXT: popl %eax
	; X86-NEXT: .cfi_def_cfa_offset 4			; X86-NEXT: .cfi_def_cfa_offset 4
	; X86-NEXT: vzeroupper			; X86-NEXT: vzeroupper
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_mm512_reduce_mul_ps:			; X64-LABEL: test_mm512_reduce_mul_ps:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; X64-NEXT: vmulps %ymm1, %ymm0, %ymm0			; X64-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; X64-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-NEXT: vmulps %xmm1, %xmm0, %xmm0			; X64-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; X64-NEXT: vmulps %xmm1, %xmm0, %xmm0			; X64-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; X64-NEXT: vmulps %xmm1, %xmm0, %xmm0			; X64-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; X64-NEXT: vzeroupper			; X64-NEXT: vzeroupper
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%0 = bitcast <16 x float> %__W to <8 x double>			%0 = bitcast <16 x float> %__W to <8 x double>
	%extract.i = shufflevector <8 x double> %0, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%extract.i = shufflevector <8 x double> %0, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%1 = bitcast <4 x double> %extract.i to <8 x float>			%1 = bitcast <4 x double> %extract.i to <8 x float>
	%extract2.i = shufflevector <8 x double> %0, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>			%extract2.i = shufflevector <8 x double> %0, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
	%2 = bitcast <4 x double> %extract2.i to <8 x float>			%2 = bitcast <4 x double> %extract2.i to <8 x float>
	Show All 22 Lines
	; X86-NEXT: movb 8(%ebp), %al			; X86-NEXT: movb 8(%ebp), %al
	; X86-NEXT: kmovw %eax, %k1			; X86-NEXT: kmovw %eax, %k1
	; X86-NEXT: vmovapd %zmm0, %zmm0 {%k1} {z}			; X86-NEXT: vmovapd %zmm0, %zmm0 {%k1} {z}
	; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; X86-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; X86-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; X86-NEXT: vextractf128 $1, %ymm0, %xmm1			; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X86-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; X86-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; X86-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; X86-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; X86-NEXT: vmovlpd %xmm0, (%esp)			; X86-NEXT: vmovsd %xmm0, (%esp)
	; X86-NEXT: fldl (%esp)			; X86-NEXT: fldl (%esp)
	; X86-NEXT: movl %ebp, %esp			; X86-NEXT: movl %ebp, %esp
	; X86-NEXT: popl %ebp			; X86-NEXT: popl %ebp
	; X86-NEXT: .cfi_def_cfa %esp, 4			; X86-NEXT: .cfi_def_cfa %esp, 4
	; X86-NEXT: vzeroupper			; X86-NEXT: vzeroupper
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_mm512_mask_reduce_add_pd:			; X64-LABEL: test_mm512_mask_reduce_add_pd:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovw %edi, %k1			; X64-NEXT: kmovw %edi, %k1
	; X64-NEXT: vmovapd %zmm0, %zmm0 {%k1} {z}			; X64-NEXT: vmovapd %zmm0, %zmm0 {%k1} {z}
	; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; X64-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; X64-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; X64-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; X64-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; X64-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; X64-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; X64-NEXT: vzeroupper			; X64-NEXT: vzeroupper
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%0 = bitcast i8 %__M to <8 x i1>			%0 = bitcast i8 %__M to <8 x i1>
	%1 = select <8 x i1> %0, <8 x double> %__W, <8 x double> zeroinitializer			%1 = select <8 x i1> %0, <8 x double> %__W, <8 x double> zeroinitializer
	%shuffle.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%shuffle.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%shuffle1.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>			%shuffle1.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
	%add.i = fadd <4 x double> %shuffle.i, %shuffle1.i			%add.i = fadd <4 x double> %shuffle.i, %shuffle1.i
	Show All 20 Lines
	; X86-NEXT: kmovw %eax, %k1			; X86-NEXT: kmovw %eax, %k1
	; X86-NEXT: vbroadcastsd {{.*#+}} zmm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]			; X86-NEXT: vbroadcastsd {{.*#+}} zmm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]
	; X86-NEXT: vmovapd %zmm0, %zmm1 {%k1}			; X86-NEXT: vmovapd %zmm0, %zmm1 {%k1}
	; X86-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; X86-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	; X86-NEXT: vmulpd %ymm0, %ymm1, %ymm0			; X86-NEXT: vmulpd %ymm0, %ymm1, %ymm0
	; X86-NEXT: vextractf128 $1, %ymm0, %xmm1			; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X86-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; X86-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; X86-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; X86-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; X86-NEXT: vmovlpd %xmm0, (%esp)			; X86-NEXT: vmovsd %xmm0, (%esp)
	; X86-NEXT: fldl (%esp)			; X86-NEXT: fldl (%esp)
	; X86-NEXT: movl %ebp, %esp			; X86-NEXT: movl %ebp, %esp
	; X86-NEXT: popl %ebp			; X86-NEXT: popl %ebp
	; X86-NEXT: .cfi_def_cfa %esp, 4			; X86-NEXT: .cfi_def_cfa %esp, 4
	; X86-NEXT: vzeroupper			; X86-NEXT: vzeroupper
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_mm512_mask_reduce_mul_pd:			; X64-LABEL: test_mm512_mask_reduce_mul_pd:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovw %edi, %k1			; X64-NEXT: kmovw %edi, %k1
	; X64-NEXT: vbroadcastsd {{.*#+}} zmm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]			; X64-NEXT: vbroadcastsd {{.*#+}} zmm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]
	; X64-NEXT: vmovapd %zmm0, %zmm1 {%k1}			; X64-NEXT: vmovapd %zmm0, %zmm1 {%k1}
	; X64-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; X64-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	; X64-NEXT: vmulpd %ymm0, %ymm1, %ymm0			; X64-NEXT: vmulpd %ymm0, %ymm1, %ymm0
	; X64-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; X64-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; X64-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; X64-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; X64-NEXT: vzeroupper			; X64-NEXT: vzeroupper
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%0 = bitcast i8 %__M to <8 x i1>			%0 = bitcast i8 %__M to <8 x i1>
	%1 = select <8 x i1> %0, <8 x double> %__W, <8 x double> <double 1.000000e+00, double 1.000000e+00, double 1.000000e+00, double 1.000000e+00, double 1.000000e+00, double 1.000000e+00, double 1.000000e+00, double 1.000000e+00>			%1 = select <8 x i1> %0, <8 x double> %__W, <8 x double> <double 1.000000e+00, double 1.000000e+00, double 1.000000e+00, double 1.000000e+00, double 1.000000e+00, double 1.000000e+00, double 1.000000e+00, double 1.000000e+00>
	%shuffle.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%shuffle.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%shuffle1.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>			%shuffle1.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
	%mul.i = fmul <4 x double> %shuffle.i, %shuffle1.i			%mul.i = fmul <4 x double> %shuffle.i, %shuffle1.i
	Show All 16 Lines
	; X86-NEXT: vmovaps %zmm0, %zmm0 {%k1} {z}			; X86-NEXT: vmovaps %zmm0, %zmm0 {%k1} {z}
	; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; X86-NEXT: vaddps %ymm1, %ymm0, %ymm0			; X86-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; X86-NEXT: vextractf128 $1, %ymm0, %xmm1			; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X86-NEXT: vaddps %xmm1, %xmm0, %xmm0			; X86-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; X86-NEXT: vaddps %xmm1, %xmm0, %xmm0			; X86-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; X86-NEXT: vaddps %xmm1, %xmm0, %xmm0			; X86-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; X86-NEXT: vmovss %xmm0, (%esp)			; X86-NEXT: vmovss %xmm0, (%esp)
	; X86-NEXT: flds (%esp)			; X86-NEXT: flds (%esp)
	; X86-NEXT: popl %eax			; X86-NEXT: popl %eax
	; X86-NEXT: .cfi_def_cfa_offset 4			; X86-NEXT: .cfi_def_cfa_offset 4
	; X86-NEXT: vzeroupper			; X86-NEXT: vzeroupper
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_mm512_mask_reduce_add_ps:			; X64-LABEL: test_mm512_mask_reduce_add_ps:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovw %edi, %k1			; X64-NEXT: kmovw %edi, %k1
	; X64-NEXT: vmovaps %zmm0, %zmm0 {%k1} {z}			; X64-NEXT: vmovaps %zmm0, %zmm0 {%k1} {z}
	; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; X64-NEXT: vaddps %ymm1, %ymm0, %ymm0			; X64-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; X64-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-NEXT: vaddps %xmm1, %xmm0, %xmm0			; X64-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; X64-NEXT: vaddps %xmm1, %xmm0, %xmm0			; X64-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; X64-NEXT: vaddps %xmm1, %xmm0, %xmm0			; X64-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; X64-NEXT: vzeroupper			; X64-NEXT: vzeroupper
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%0 = bitcast i16 %__M to <16 x i1>			%0 = bitcast i16 %__M to <16 x i1>
	%1 = select <16 x i1> %0, <16 x float> %__W, <16 x float> zeroinitializer			%1 = select <16 x i1> %0, <16 x float> %__W, <16 x float> zeroinitializer
	%2 = bitcast <16 x float> %1 to <8 x double>			%2 = bitcast <16 x float> %1 to <8 x double>
	%extract.i = shufflevector <8 x double> %2, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%extract.i = shufflevector <8 x double> %2, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%3 = bitcast <4 x double> %extract.i to <8 x float>			%3 = bitcast <4 x double> %extract.i to <8 x float>
	Show All 22 Lines
	; X86-NEXT: vmovaps %zmm0, %zmm1 {%k1}			; X86-NEXT: vmovaps %zmm0, %zmm1 {%k1}
	; X86-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; X86-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	; X86-NEXT: vmulps %ymm0, %ymm1, %ymm0			; X86-NEXT: vmulps %ymm0, %ymm1, %ymm0
	; X86-NEXT: vextractf128 $1, %ymm0, %xmm1			; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X86-NEXT: vmulps %xmm1, %xmm0, %xmm0			; X86-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; X86-NEXT: vmulps %xmm1, %xmm0, %xmm0			; X86-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; X86-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; X86-NEXT: vmulps %xmm1, %xmm0, %xmm0			; X86-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; X86-NEXT: vmovss %xmm0, (%esp)			; X86-NEXT: vmovss %xmm0, (%esp)
	; X86-NEXT: flds (%esp)			; X86-NEXT: flds (%esp)
	; X86-NEXT: popl %eax			; X86-NEXT: popl %eax
	; X86-NEXT: .cfi_def_cfa_offset 4			; X86-NEXT: .cfi_def_cfa_offset 4
	; X86-NEXT: vzeroupper			; X86-NEXT: vzeroupper
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_mm512_mask_reduce_mul_ps:			; X64-LABEL: test_mm512_mask_reduce_mul_ps:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovw %edi, %k1			; X64-NEXT: kmovw %edi, %k1
	; X64-NEXT: vbroadcastss {{.*#+}} zmm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]			; X64-NEXT: vbroadcastss {{.*#+}} zmm1 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0,1.0E+0]
	; X64-NEXT: vmovaps %zmm0, %zmm1 {%k1}			; X64-NEXT: vmovaps %zmm0, %zmm1 {%k1}
	; X64-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; X64-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	; X64-NEXT: vmulps %ymm0, %ymm1, %ymm0			; X64-NEXT: vmulps %ymm0, %ymm1, %ymm0
	; X64-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-NEXT: vmulps %xmm1, %xmm0, %xmm0			; X64-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; X64-NEXT: vmulps %xmm1, %xmm0, %xmm0			; X64-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; X64-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; X64-NEXT: vmulps %xmm1, %xmm0, %xmm0			; X64-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; X64-NEXT: vzeroupper			; X64-NEXT: vzeroupper
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%0 = bitcast i16 %__M to <16 x i1>			%0 = bitcast i16 %__M to <16 x i1>
	%1 = select <16 x i1> %0, <16 x float> %__W, <16 x float> <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>			%1 = select <16 x i1> %0, <16 x float> %__W, <16 x float> <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>
	%2 = bitcast <16 x float> %1 to <8 x double>			%2 = bitcast <16 x float> %1 to <8 x double>
	%extract.i = shufflevector <8 x double> %2, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%extract.i = shufflevector <8 x double> %2, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%3 = bitcast <4 x double> %extract.i to <8 x float>			%3 = bitcast <4 x double> %extract.i to <8 x float>
	▲ Show 20 Lines • Show All 2,223 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/exedeps-movq.ll

Show All 26 Lines	; AVX-NEXT: retq
%c = bitcast <2 x float> %b to i64		%c = bitcast <2 x float> %b to i64
store i64 %c, i64* %p		store i64 %c, i64* %p
ret void		ret void
}		}

define void @store_double(<2 x double> %x, i64* %p) {		define void @store_double(<2 x double> %x, i64* %p) {
; SSE-LABEL: store_double:		; SSE-LABEL: store_double:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: addpd %xmm0, %xmm0		; SSE-NEXT: addsd %xmm0, %xmm0
; SSE-NEXT: movlpd %xmm0, (%rdi)		; SSE-NEXT: movsd %xmm0, (%rdi)
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: store_double:		; AVX-LABEL: store_double:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vaddpd %xmm0, %xmm0, %xmm0		; AVX-NEXT: vaddsd %xmm0, %xmm0, %xmm0
; AVX-NEXT: vmovlpd %xmm0, (%rdi)		; AVX-NEXT: vmovsd %xmm0, (%rdi)
; AVX-NEXT: retq		; AVX-NEXT: retq
%a = fadd <2 x double> %x, %x		%a = fadd <2 x double> %x, %x
%b = extractelement <2 x double> %a, i32 0		%b = extractelement <2 x double> %a, i32 0
%c = bitcast double %b to i64		%c = bitcast double %b to i64
store i64 %c, i64* %p		store i64 %c, i64* %p
ret void		ret void
}		}

Show All 37 Lines

llvm/test/CodeGen/X86/extractelement-fp.ll

Show All 21 Lines	; CHECK-NEXT: retq
%v = fneg <4 x double> %x		%v = fneg <4 x double> %x
%r = extractelement <4 x double> %v, i32 0		%r = extractelement <4 x double> %v, i32 0
ret double %r		ret double %r
}		}

define float @fadd_v4f32(<4 x float> %x, <4 x float> %y) nounwind {		define float @fadd_v4f32(<4 x float> %x, <4 x float> %y) nounwind {
; CHECK-LABEL: fadd_v4f32:		; CHECK-LABEL: fadd_v4f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vaddps %xmm1, %xmm0, %xmm0		; CHECK-NEXT: vaddss %xmm1, %xmm0, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = fadd <4 x float> %x, %y		%v = fadd <4 x float> %x, %y
%r = extractelement <4 x float> %v, i32 0		%r = extractelement <4 x float> %v, i32 0
ret float %r		ret float %r
}		}

define double @fadd_v4f64(<4 x double> %x, <4 x double> %y) nounwind {		define double @fadd_v4f64(<4 x double> %x, <4 x double> %y) nounwind {
; CHECK-LABEL: fadd_v4f64:		; CHECK-LABEL: fadd_v4f64:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vaddpd %xmm1, %xmm0, %xmm0		; CHECK-NEXT: vaddsd %xmm1, %xmm0, %xmm0
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = fadd <4 x double> %x, %y		%v = fadd <4 x double> %x, %y
%r = extractelement <4 x double> %v, i32 0		%r = extractelement <4 x double> %v, i32 0
ret double %r		ret double %r
}		}

define float @fsub_v4f32(<4 x float> %x, <4 x float> %y) nounwind {		define float @fsub_v4f32(<4 x float> %x, <4 x float> %y) nounwind {
; CHECK-LABEL: fsub_v4f32:		; CHECK-LABEL: fsub_v4f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vsubps %xmm1, %xmm0, %xmm0		; CHECK-NEXT: vsubss %xmm1, %xmm0, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = fsub <4 x float> %x, %y		%v = fsub <4 x float> %x, %y
%r = extractelement <4 x float> %v, i32 0		%r = extractelement <4 x float> %v, i32 0
ret float %r		ret float %r
}		}

define double @fsub_v4f64(<4 x double> %x, <4 x double> %y) nounwind {		define double @fsub_v4f64(<4 x double> %x, <4 x double> %y) nounwind {
; CHECK-LABEL: fsub_v4f64:		; CHECK-LABEL: fsub_v4f64:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vsubpd %xmm1, %xmm0, %xmm0		; CHECK-NEXT: vsubsd %xmm1, %xmm0, %xmm0
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = fsub <4 x double> %x, %y		%v = fsub <4 x double> %x, %y
%r = extractelement <4 x double> %v, i32 0		%r = extractelement <4 x double> %v, i32 0
ret double %r		ret double %r
}		}

define float @fmul_v4f32(<4 x float> %x, <4 x float> %y) nounwind {		define float @fmul_v4f32(<4 x float> %x, <4 x float> %y) nounwind {
; CHECK-LABEL: fmul_v4f32:		; CHECK-LABEL: fmul_v4f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vmulps %xmm1, %xmm0, %xmm0		; CHECK-NEXT: vmulss %xmm1, %xmm0, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = fmul <4 x float> %x, %y		%v = fmul <4 x float> %x, %y
%r = extractelement <4 x float> %v, i32 0		%r = extractelement <4 x float> %v, i32 0
ret float %r		ret float %r
}		}

define double @fmul_v4f64(<4 x double> %x, <4 x double> %y) nounwind {		define double @fmul_v4f64(<4 x double> %x, <4 x double> %y) nounwind {
; CHECK-LABEL: fmul_v4f64:		; CHECK-LABEL: fmul_v4f64:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vmulpd %xmm1, %xmm0, %xmm0		; CHECK-NEXT: vmulsd %xmm1, %xmm0, %xmm0
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = fmul <4 x double> %x, %y		%v = fmul <4 x double> %x, %y
%r = extractelement <4 x double> %v, i32 0		%r = extractelement <4 x double> %v, i32 0
ret double %r		ret double %r
}		}

define float @fdiv_v4f32(<4 x float> %x, <4 x float> %y) nounwind {		define float @fdiv_v4f32(<4 x float> %x, <4 x float> %y) nounwind {
; CHECK-LABEL: fdiv_v4f32:		; CHECK-LABEL: fdiv_v4f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vdivps %xmm1, %xmm0, %xmm0		; CHECK-NEXT: vdivss %xmm1, %xmm0, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = fdiv <4 x float> %x, %y		%v = fdiv <4 x float> %x, %y
%r = extractelement <4 x float> %v, i32 0		%r = extractelement <4 x float> %v, i32 0
ret float %r		ret float %r
}		}

define double @fdiv_v4f64(<4 x double> %x, <4 x double> %y) nounwind {		define double @fdiv_v4f64(<4 x double> %x, <4 x double> %y) nounwind {
; CHECK-LABEL: fdiv_v4f64:		; CHECK-LABEL: fdiv_v4f64:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vdivpd %xmm1, %xmm0, %xmm0		; CHECK-NEXT: vdivsd %xmm1, %xmm0, %xmm0
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = fdiv <4 x double> %x, %y		%v = fdiv <4 x double> %x, %y
%r = extractelement <4 x double> %v, i32 0		%r = extractelement <4 x double> %v, i32 0
ret double %r		ret double %r
}		}

define float @frem_v4f32(<4 x float> %x, <4 x float> %y) nounwind {		define float @frem_v4f32(<4 x float> %x, <4 x float> %y) nounwind {
Show All 15 Lines	; CHECK-NEXT: jmp fmod # TAILCALL
%v = frem <4 x double> %x, %y		%v = frem <4 x double> %x, %y
%r = extractelement <4 x double> %v, i32 0		%r = extractelement <4 x double> %v, i32 0
ret double %r		ret double %r
}		}

define float @fsqrt_v4f32(<4 x float> %x) nounwind {		define float @fsqrt_v4f32(<4 x float> %x) nounwind {
; CHECK-LABEL: fsqrt_v4f32:		; CHECK-LABEL: fsqrt_v4f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vsqrtps %xmm0, %xmm0		; CHECK-NEXT: vsqrtss %xmm0, %xmm0, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x float> @llvm.sqrt.v4f32(<4 x float> %x)		%v = call <4 x float> @llvm.sqrt.v4f32(<4 x float> %x)
%r = extractelement <4 x float> %v, i32 0		%r = extractelement <4 x float> %v, i32 0
		RKSimonUnsubmitted Done Reply Inline Actions Should unary ops handle non-zero index extractions? RKSimon: Should unary ops handle non-zero index extractions?
		spatelAuthorUnsubmitted Done Reply Inline Actions There's some set of conditions under which we want to do that, but I don't think unary alone is it. For example, it probably makes sense to shuffle an fdiv to avoid the vector op. Also, anything that would get expanded via unrolling during legalization? I'll add a TODO note so we can follow-up. spatel: There's some set of conditions under which we want to do that, but I don't think unary alone is…
ret float %r		ret float %r
}		}

define double @fsqrt_v4f64(<4 x double> %x) nounwind {		define double @fsqrt_v4f64(<4 x double> %x) nounwind {
; CHECK-LABEL: fsqrt_v4f64:		; CHECK-LABEL: fsqrt_v4f64:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vsqrtpd %ymm0, %ymm0		; CHECK-NEXT: vsqrtsd %xmm0, %xmm0, %xmm0
; CHECK-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x double> @llvm.sqrt.v4f64(<4 x double> %x)		%v = call <4 x double> @llvm.sqrt.v4f64(<4 x double> %x)
%r = extractelement <4 x double> %v, i32 0		%r = extractelement <4 x double> %v, i32 0
ret double %r		ret double %r
}		}

define float @fsin_v4f32(<4 x float> %x) nounwind {		define float @fsin_v4f32(<4 x float> %x) nounwind {
Show All 14 Lines	; CHECK-NEXT: jmp sin # TAILCALL
%v = call <4 x double> @llvm.sin.v4f64(<4 x double> %x)		%v = call <4 x double> @llvm.sin.v4f64(<4 x double> %x)
%r = extractelement <4 x double> %v, i32 0		%r = extractelement <4 x double> %v, i32 0
ret double %r		ret double %r
}		}

define float @fma_v4f32(<4 x float> %x, <4 x float> %y, <4 x float> %z) nounwind {		define float @fma_v4f32(<4 x float> %x, <4 x float> %y, <4 x float> %z) nounwind {
; CHECK-LABEL: fma_v4f32:		; CHECK-LABEL: fma_v4f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vfmadd213ps {{.#+}} xmm0 = (xmm1 xmm0) + xmm2		; CHECK-NEXT: vfmadd213ss {{.#+}} xmm0 = (xmm1 xmm0) + xmm2
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x float> @llvm.fma.v4f32(<4 x float> %x, <4 x float> %y, <4 x float> %z)		%v = call <4 x float> @llvm.fma.v4f32(<4 x float> %x, <4 x float> %y, <4 x float> %z)
%r = extractelement <4 x float> %v, i32 0		%r = extractelement <4 x float> %v, i32 0
ret float %r		ret float %r
}		}

define double @fma_v4f64(<4 x double> %x, <4 x double> %y, <4 x double> %z) nounwind {		define double @fma_v4f64(<4 x double> %x, <4 x double> %y, <4 x double> %z) nounwind {
; CHECK-LABEL: fma_v4f64:		; CHECK-LABEL: fma_v4f64:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vfmadd213pd {{.#+}} ymm0 = (ymm1 ymm0) + ymm2		; CHECK-NEXT: vfmadd213sd {{.#+}} xmm0 = (xmm1 xmm0) + xmm2
; CHECK-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; CHECK-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x double> @llvm.fma.v4f64(<4 x double> %x, <4 x double> %y, <4 x double> %z)		%v = call <4 x double> @llvm.fma.v4f64(<4 x double> %x, <4 x double> %y, <4 x double> %z)
%r = extractelement <4 x double> %v, i32 0		%r = extractelement <4 x double> %v, i32 0
ret double %r		ret double %r
}		}

define float @fabs_v4f32(<4 x float> %x) nounwind {		define float @fabs_v4f32(<4 x float> %x) nounwind {
; CHECK-LABEL: fabs_v4f32:		; CHECK-LABEL: fabs_v4f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vbroadcastss {{.*#+}} xmm1 = [NaN,NaN,NaN,NaN]		; CHECK-NEXT: vbroadcastss {{.*#+}} xmm1 = [NaN,NaN,NaN,NaN]
; CHECK-NEXT: vandps %xmm1, %xmm0, %xmm0		; CHECK-NEXT: vandps %xmm1, %xmm0, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x float> @llvm.fabs.v4f32(<4 x float> %x)		%v = call <4 x float> @llvm.fabs.v4f32(<4 x float> %x)
%r = extractelement <4 x float> %v, i32 0		%r = extractelement <4 x float> %v, i32 0
ret float %r		ret float %r
}		}

define double @fabs_v4f64(<4 x double> %x) nounwind {		define double @fabs_v4f64(<4 x double> %x) nounwind {
; CHECK-LABEL: fabs_v4f64:		; CHECK-LABEL: fabs_v4f64:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vbroadcastsd {{.*#+}} ymm1 = [NaN,NaN,NaN,NaN]		; CHECK-NEXT: vandps {{.*}}(%rip), %xmm0, %xmm0
; CHECK-NEXT: vandps %xmm1, %xmm0, %xmm0
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x double> @llvm.fabs.v4f64(<4 x double> %x)		%v = call <4 x double> @llvm.fabs.v4f64(<4 x double> %x)
%r = extractelement <4 x double> %v, i32 0		%r = extractelement <4 x double> %v, i32 0
ret double %r		ret double %r
}		}

define float @fmaxnum_v4f32(<4 x float> %x, <4 x float> %y) nounwind {		define float @fmaxnum_v4f32(<4 x float> %x, <4 x float> %y) nounwind {
; CHECK-LABEL: fmaxnum_v4f32:		; CHECK-LABEL: fmaxnum_v4f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vmaxps %xmm0, %xmm1, %xmm2		; CHECK-NEXT: vmaxss %xmm0, %xmm1, %xmm2
; CHECK-NEXT: vcmpunordps %xmm0, %xmm0, %xmm0		; CHECK-NEXT: vcmpunordss %xmm0, %xmm0, %xmm0
; CHECK-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm0		; CHECK-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x float> @llvm.maxnum.v4f32(<4 x float> %x, <4 x float> %y)		%v = call <4 x float> @llvm.maxnum.v4f32(<4 x float> %x, <4 x float> %y)
%r = extractelement <4 x float> %v, i32 0		%r = extractelement <4 x float> %v, i32 0
ret float %r		ret float %r
}		}

define double @fmaxnum_v4f64(<4 x double> %x, <4 x double> %y) nounwind {		define double @fmaxnum_v4f64(<4 x double> %x, <4 x double> %y) nounwind {
; CHECK-LABEL: fmaxnum_v4f64:		; CHECK-LABEL: fmaxnum_v4f64:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vmaxpd %ymm0, %ymm1, %ymm2		; CHECK-NEXT: vmaxsd %xmm0, %xmm1, %xmm2
; CHECK-NEXT: vcmpunordpd %ymm0, %ymm0, %ymm0		; CHECK-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm0
; CHECK-NEXT: vblendvpd %ymm0, %ymm1, %ymm2, %ymm0		; CHECK-NEXT: vblendvpd %xmm0, %xmm1, %xmm2, %xmm0
; CHECK-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x double> @llvm.maxnum.v4f64(<4 x double> %x, <4 x double> %y)		%v = call <4 x double> @llvm.maxnum.v4f64(<4 x double> %x, <4 x double> %y)
%r = extractelement <4 x double> %v, i32 0		%r = extractelement <4 x double> %v, i32 0
ret double %r		ret double %r
}		}

define float @fminnum_v4f32(<4 x float> %x, <4 x float> %y) nounwind {		define float @fminnum_v4f32(<4 x float> %x, <4 x float> %y) nounwind {
; CHECK-LABEL: fminnum_v4f32:		; CHECK-LABEL: fminnum_v4f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vminps %xmm0, %xmm1, %xmm2		; CHECK-NEXT: vminss %xmm0, %xmm1, %xmm2
; CHECK-NEXT: vcmpunordps %xmm0, %xmm0, %xmm0		; CHECK-NEXT: vcmpunordss %xmm0, %xmm0, %xmm0
; CHECK-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm0		; CHECK-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x float> @llvm.minnum.v4f32(<4 x float> %x, <4 x float> %y)		%v = call <4 x float> @llvm.minnum.v4f32(<4 x float> %x, <4 x float> %y)
%r = extractelement <4 x float> %v, i32 0		%r = extractelement <4 x float> %v, i32 0
ret float %r		ret float %r
}		}

define double @fminnum_v4f64(<4 x double> %x, <4 x double> %y) nounwind {		define double @fminnum_v4f64(<4 x double> %x, <4 x double> %y) nounwind {
; CHECK-LABEL: fminnum_v4f64:		; CHECK-LABEL: fminnum_v4f64:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vminpd %ymm0, %ymm1, %ymm2		; CHECK-NEXT: vminsd %xmm0, %xmm1, %xmm2
; CHECK-NEXT: vcmpunordpd %ymm0, %ymm0, %ymm0		; CHECK-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm0
; CHECK-NEXT: vblendvpd %ymm0, %ymm1, %ymm2, %ymm0		; CHECK-NEXT: vblendvpd %xmm0, %xmm1, %xmm2, %xmm0
; CHECK-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x double> @llvm.minnum.v4f64(<4 x double> %x, <4 x double> %y)		%v = call <4 x double> @llvm.minnum.v4f64(<4 x double> %x, <4 x double> %y)
%r = extractelement <4 x double> %v, i32 0		%r = extractelement <4 x double> %v, i32 0
ret double %r		ret double %r
}		}

;define float @fmaximum_v4f32(<4 x float> %x, <4 x float> %y) nounwind {		;define float @fmaximum_v4f32(<4 x float> %x, <4 x float> %y) nounwind {
Show All 32 Lines	; CHECK-NEXT: retq
%v = call <4 x float> @llvm.copysign.v4f32(<4 x float> %x, <4 x float> %y)		%v = call <4 x float> @llvm.copysign.v4f32(<4 x float> %x, <4 x float> %y)
%r = extractelement <4 x float> %v, i32 0		%r = extractelement <4 x float> %v, i32 0
ret float %r		ret float %r
}		}

define double @copysign_v4f64(<4 x double> %x, <4 x double> %y) nounwind {		define double @copysign_v4f64(<4 x double> %x, <4 x double> %y) nounwind {
; CHECK-LABEL: copysign_v4f64:		; CHECK-LABEL: copysign_v4f64:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vbroadcastsd {{.*#+}} ymm2 = [NaN,NaN,NaN,NaN]		; CHECK-NEXT: vandps {{.*}}(%rip), %xmm1, %xmm1
; CHECK-NEXT: vbroadcastsd {{.*#+}} ymm3 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]		; CHECK-NEXT: vandps {{.*}}(%rip), %xmm0, %xmm0
		RKSimonUnsubmitted Done Reply Inline Actions Slightly annoying - the vector version broadcasts a scalar, the scalar version loads a whole vector..... Can you raise a bug on this please? RKSimon: Slightly annoying - the vector version broadcasts a scalar, the scalar version loads a whole…
		spatelAuthorUnsubmitted Done Reply Inline Actions https://bugs.llvm.org/show_bug.cgi?id=40905 spatel: https://bugs.llvm.org/show_bug.cgi?id=40905
; CHECK-NEXT: vandps %xmm3, %xmm1, %xmm1
; CHECK-NEXT: vandps %xmm2, %xmm0, %xmm0
; CHECK-NEXT: vorps %xmm1, %xmm0, %xmm0		; CHECK-NEXT: vorps %xmm1, %xmm0, %xmm0
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x double> @llvm.copysign.v4f64(<4 x double> %x, <4 x double> %y)		%v = call <4 x double> @llvm.copysign.v4f64(<4 x double> %x, <4 x double> %y)
%r = extractelement <4 x double> %v, i32 0		%r = extractelement <4 x double> %v, i32 0
ret double %r		ret double %r
}		}

define float @floor_v4f32(<4 x float> %x) nounwind {		define float @floor_v4f32(<4 x float> %x) nounwind {
; CHECK-LABEL: floor_v4f32:		; CHECK-LABEL: floor_v4f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vroundps $9, %xmm0, %xmm0		; CHECK-NEXT: vroundss $9, %xmm0, %xmm0, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x float> @llvm.floor.v4f32(<4 x float> %x)		%v = call <4 x float> @llvm.floor.v4f32(<4 x float> %x)
%r = extractelement <4 x float> %v, i32 0		%r = extractelement <4 x float> %v, i32 0
ret float %r		ret float %r
}		}

define double @floor_v4f64(<4 x double> %x) nounwind {		define double @floor_v4f64(<4 x double> %x) nounwind {
; CHECK-LABEL: floor_v4f64:		; CHECK-LABEL: floor_v4f64:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vroundpd $9, %ymm0, %ymm0		; CHECK-NEXT: vroundsd $9, %xmm0, %xmm0, %xmm0
; CHECK-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x double> @llvm.floor.v4f64(<4 x double> %x)		%v = call <4 x double> @llvm.floor.v4f64(<4 x double> %x)
%r = extractelement <4 x double> %v, i32 0		%r = extractelement <4 x double> %v, i32 0
ret double %r		ret double %r
}		}

define float @ceil_v4f32(<4 x float> %x) nounwind {		define float @ceil_v4f32(<4 x float> %x) nounwind {
; CHECK-LABEL: ceil_v4f32:		; CHECK-LABEL: ceil_v4f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vroundps $10, %xmm0, %xmm0		; CHECK-NEXT: vroundss $10, %xmm0, %xmm0, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x float> @llvm.ceil.v4f32(<4 x float> %x)		%v = call <4 x float> @llvm.ceil.v4f32(<4 x float> %x)
%r = extractelement <4 x float> %v, i32 0		%r = extractelement <4 x float> %v, i32 0
ret float %r		ret float %r
}		}

define double @ceil_v4f64(<4 x double> %x) nounwind {		define double @ceil_v4f64(<4 x double> %x) nounwind {
; CHECK-LABEL: ceil_v4f64:		; CHECK-LABEL: ceil_v4f64:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vroundpd $10, %ymm0, %ymm0		; CHECK-NEXT: vroundsd $10, %xmm0, %xmm0, %xmm0
; CHECK-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x double> @llvm.ceil.v4f64(<4 x double> %x)		%v = call <4 x double> @llvm.ceil.v4f64(<4 x double> %x)
%r = extractelement <4 x double> %v, i32 0		%r = extractelement <4 x double> %v, i32 0
ret double %r		ret double %r
}		}

define float @trunc_v4f32(<4 x float> %x) nounwind {		define float @trunc_v4f32(<4 x float> %x) nounwind {
; CHECK-LABEL: trunc_v4f32:		; CHECK-LABEL: trunc_v4f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vroundps $11, %xmm0, %xmm0		; CHECK-NEXT: vroundss $11, %xmm0, %xmm0, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x float> @llvm.trunc.v4f32(<4 x float> %x)		%v = call <4 x float> @llvm.trunc.v4f32(<4 x float> %x)
%r = extractelement <4 x float> %v, i32 0		%r = extractelement <4 x float> %v, i32 0
ret float %r		ret float %r
}		}

define double @trunc_v4f64(<4 x double> %x) nounwind {		define double @trunc_v4f64(<4 x double> %x) nounwind {
; CHECK-LABEL: trunc_v4f64:		; CHECK-LABEL: trunc_v4f64:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vroundpd $11, %ymm0, %ymm0		; CHECK-NEXT: vroundsd $11, %xmm0, %xmm0, %xmm0
; CHECK-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x double> @llvm.trunc.v4f64(<4 x double> %x)		%v = call <4 x double> @llvm.trunc.v4f64(<4 x double> %x)
%r = extractelement <4 x double> %v, i32 0		%r = extractelement <4 x double> %v, i32 0
ret double %r		ret double %r
}		}

define float @rint_v4f32(<4 x float> %x) nounwind {		define float @rint_v4f32(<4 x float> %x) nounwind {
; CHECK-LABEL: rint_v4f32:		; CHECK-LABEL: rint_v4f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vroundps $4, %xmm0, %xmm0		; CHECK-NEXT: vroundss $4, %xmm0, %xmm0, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x float> @llvm.rint.v4f32(<4 x float> %x)		%v = call <4 x float> @llvm.rint.v4f32(<4 x float> %x)
%r = extractelement <4 x float> %v, i32 0		%r = extractelement <4 x float> %v, i32 0
ret float %r		ret float %r
}		}

define double @rint_v4f64(<4 x double> %x) nounwind {		define double @rint_v4f64(<4 x double> %x) nounwind {
; CHECK-LABEL: rint_v4f64:		; CHECK-LABEL: rint_v4f64:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vroundpd $4, %ymm0, %ymm0		; CHECK-NEXT: vroundsd $4, %xmm0, %xmm0, %xmm0
; CHECK-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x double> @llvm.rint.v4f64(<4 x double> %x)		%v = call <4 x double> @llvm.rint.v4f64(<4 x double> %x)
%r = extractelement <4 x double> %v, i32 0		%r = extractelement <4 x double> %v, i32 0
ret double %r		ret double %r
}		}

define float @nearbyint_v4f32(<4 x float> %x) nounwind {		define float @nearbyint_v4f32(<4 x float> %x) nounwind {
; CHECK-LABEL: nearbyint_v4f32:		; CHECK-LABEL: nearbyint_v4f32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vroundps $12, %xmm0, %xmm0		; CHECK-NEXT: vroundss $12, %xmm0, %xmm0, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x float> @llvm.nearbyint.v4f32(<4 x float> %x)		%v = call <4 x float> @llvm.nearbyint.v4f32(<4 x float> %x)
%r = extractelement <4 x float> %v, i32 0		%r = extractelement <4 x float> %v, i32 0
ret float %r		ret float %r
}		}

define double @nearbyint_v4f64(<4 x double> %x) nounwind {		define double @nearbyint_v4f64(<4 x double> %x) nounwind {
; CHECK-LABEL: nearbyint_v4f64:		; CHECK-LABEL: nearbyint_v4f64:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vroundpd $12, %ymm0, %ymm0		; CHECK-NEXT: vroundsd $12, %xmm0, %xmm0, %xmm0
; CHECK-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = call <4 x double> @llvm.nearbyint.v4f64(<4 x double> %x)		%v = call <4 x double> @llvm.nearbyint.v4f64(<4 x double> %x)
%r = extractelement <4 x double> %v, i32 0		%r = extractelement <4 x double> %v, i32 0
ret double %r		ret double %r
}		}

define float @round_v4f32(<4 x float> %x) nounwind {		define float @round_v4f32(<4 x float> %x) nounwind {
▲ Show 20 Lines • Show All 49 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/ftrunc.ll

	Show All 37 Lines
	; SSE2-NEXT: cvttsd2si %xmm0, %rax			; SSE2-NEXT: cvttsd2si %xmm0, %rax
	; SSE2-NEXT: ucomisd %xmm1, %xmm0			; SSE2-NEXT: ucomisd %xmm1, %xmm0
	; SSE2-NEXT: cmovaeq %rcx, %rax			; SSE2-NEXT: cmovaeq %rcx, %rax
	; SSE2-NEXT: movq %rax, %xmm1			; SSE2-NEXT: movq %rax, %xmm1
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]
	; SSE2-NEXT: subpd {{.*}}(%rip), %xmm1			; SSE2-NEXT: subpd {{.*}}(%rip), %xmm1
	; SSE2-NEXT: movapd %xmm1, %xmm0			; SSE2-NEXT: movapd %xmm1, %xmm0
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE2-NEXT: addpd %xmm1, %xmm0			; SSE2-NEXT: addsd %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_unsigned_f64:			; SSE41-LABEL: trunc_unsigned_f64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: roundsd $11, %xmm0, %xmm0			; SSE41-NEXT: roundsd $11, %xmm0, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_unsigned_f64:			; AVX1-LABEL: trunc_unsigned_f64:
	▲ Show 20 Lines • Show All 353 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/haddsub.ll

	Show First 20 Lines • Show All 1,360 Lines • ▼ Show 20 Lines
	define float @fadd_reduce_v8f32(float %a0, <8 x float> %a1) {			define float @fadd_reduce_v8f32(float %a0, <8 x float> %a1) {
	; SSE3-SLOW-LABEL: fadd_reduce_v8f32:			; SSE3-SLOW-LABEL: fadd_reduce_v8f32:
	; SSE3-SLOW: # %bb.0:			; SSE3-SLOW: # %bb.0:
	; SSE3-SLOW-NEXT: addps %xmm2, %xmm1			; SSE3-SLOW-NEXT: addps %xmm2, %xmm1
	; SSE3-SLOW-NEXT: movaps %xmm1, %xmm2			; SSE3-SLOW-NEXT: movaps %xmm1, %xmm2
	; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE3-SLOW-NEXT: addps %xmm1, %xmm2			; SSE3-SLOW-NEXT: addps %xmm1, %xmm2
	; SSE3-SLOW-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE3-SLOW-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]
	; SSE3-SLOW-NEXT: addps %xmm2, %xmm0			; SSE3-SLOW-NEXT: addss %xmm2, %xmm0
	; SSE3-SLOW-NEXT: retq			; SSE3-SLOW-NEXT: retq
	;			;
	; SSE3-FAST-LABEL: fadd_reduce_v8f32:			; SSE3-FAST-LABEL: fadd_reduce_v8f32:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: addps %xmm2, %xmm1			; SSE3-FAST-NEXT: addps %xmm2, %xmm1
	; SSE3-FAST-NEXT: movaps %xmm1, %xmm0			; SSE3-FAST-NEXT: movaps %xmm1, %xmm0
	; SSE3-FAST-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE3-FAST-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE3-FAST-NEXT: addps %xmm1, %xmm0			; SSE3-FAST-NEXT: addps %xmm1, %xmm0
	; SSE3-FAST-NEXT: haddps %xmm0, %xmm0			; SSE3-FAST-NEXT: haddps %xmm0, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: fadd_reduce_v8f32:			; AVX-SLOW-LABEL: fadd_reduce_v8f32:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: fadd_reduce_v8f32:			; AVX-FAST-LABEL: fadd_reduce_v8f32:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX-FAST-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX-FAST-NEXT: vaddps %xmm0, %xmm1, %xmm0
	; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vzeroupper			; AVX-FAST-NEXT: vzeroupper
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)			%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %r			ret float %r
	}			}

	define double @fadd_reduce_v4f64(double %a0, <4 x double> %a1) {			define double @fadd_reduce_v4f64(double %a0, <4 x double> %a1) {
	; SSE3-SLOW-LABEL: fadd_reduce_v4f64:			; SSE3-SLOW-LABEL: fadd_reduce_v4f64:
	; SSE3-SLOW: # %bb.0:			; SSE3-SLOW: # %bb.0:
	; SSE3-SLOW-NEXT: addpd %xmm2, %xmm1			; SSE3-SLOW-NEXT: addpd %xmm2, %xmm1
	; SSE3-SLOW-NEXT: movapd %xmm1, %xmm0			; SSE3-SLOW-NEXT: movapd %xmm1, %xmm0
	; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE3-SLOW-NEXT: addpd %xmm1, %xmm0			; SSE3-SLOW-NEXT: addsd %xmm1, %xmm0
	; SSE3-SLOW-NEXT: retq			; SSE3-SLOW-NEXT: retq
	;			;
	; SSE3-FAST-LABEL: fadd_reduce_v4f64:			; SSE3-FAST-LABEL: fadd_reduce_v4f64:
	; SSE3-FAST: # %bb.0:			; SSE3-FAST: # %bb.0:
	; SSE3-FAST-NEXT: movapd %xmm1, %xmm0			; SSE3-FAST-NEXT: movapd %xmm1, %xmm0
	; SSE3-FAST-NEXT: addpd %xmm2, %xmm0			; SSE3-FAST-NEXT: addpd %xmm2, %xmm0
	; SSE3-FAST-NEXT: haddpd %xmm0, %xmm0			; SSE3-FAST-NEXT: haddpd %xmm0, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: fadd_reduce_v4f64:			; AVX-SLOW-LABEL: fadd_reduce_v4f64:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX-SLOW-NEXT: vaddpd %xmm0, %xmm1, %xmm0			; AVX-SLOW-NEXT: vaddpd %xmm0, %xmm1, %xmm0
	; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: fadd_reduce_v4f64:			; AVX-FAST-LABEL: fadd_reduce_v4f64:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX-FAST-NEXT: vaddpd %xmm0, %xmm1, %xmm0			; AVX-FAST-NEXT: vaddpd %xmm0, %xmm1, %xmm0
	; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vzeroupper			; AVX-FAST-NEXT: vzeroupper
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%r = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)			%r = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %r			ret double %r
	}			}

llvm/test/CodeGen/X86/scalar-int-to-fp.ll

	Show First 20 Lines • Show All 632 Lines • ▼ Show 20 Lines
	; SSE2_32-NEXT: movl %esp, %ebp			; SSE2_32-NEXT: movl %esp, %ebp
	; SSE2_32-NEXT: andl $-8, %esp			; SSE2_32-NEXT: andl $-8, %esp
	; SSE2_32-NEXT: subl $8, %esp			; SSE2_32-NEXT: subl $8, %esp
	; SSE2_32-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero			; SSE2_32-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
	; SSE2_32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; SSE2_32-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; SSE2_32-NEXT: subpd {{\.LCPI.*}}, %xmm0			; SSE2_32-NEXT: subpd {{\.LCPI.*}}, %xmm0
	; SSE2_32-NEXT: movapd %xmm0, %xmm1			; SSE2_32-NEXT: movapd %xmm0, %xmm1
	; SSE2_32-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2_32-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE2_32-NEXT: addpd %xmm0, %xmm1			; SSE2_32-NEXT: addsd %xmm0, %xmm1
	; SSE2_32-NEXT: movlpd %xmm1, (%esp)			; SSE2_32-NEXT: movsd %xmm1, (%esp)
	; SSE2_32-NEXT: fldl (%esp)			; SSE2_32-NEXT: fldl (%esp)
	; SSE2_32-NEXT: movl %ebp, %esp			; SSE2_32-NEXT: movl %ebp, %esp
	; SSE2_32-NEXT: popl %ebp			; SSE2_32-NEXT: popl %ebp
	; SSE2_32-NEXT: retl			; SSE2_32-NEXT: retl
	;			;
	; SSE2_64-LABEL: u64_to_d:			; SSE2_64-LABEL: u64_to_d:
	; SSE2_64: # %bb.0:			; SSE2_64: # %bb.0:
	; SSE2_64-NEXT: movq %rdi, %xmm1			; SSE2_64-NEXT: movq %rdi, %xmm1
	; SSE2_64-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]			; SSE2_64-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]
	; SSE2_64-NEXT: subpd {{.*}}(%rip), %xmm1			; SSE2_64-NEXT: subpd {{.*}}(%rip), %xmm1
	; SSE2_64-NEXT: movapd %xmm1, %xmm0			; SSE2_64-NEXT: movapd %xmm1, %xmm0
	; SSE2_64-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE2_64-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE2_64-NEXT: addpd %xmm1, %xmm0			; SSE2_64-NEXT: addsd %xmm1, %xmm0
	; SSE2_64-NEXT: retq			; SSE2_64-NEXT: retq
	;			;
	; X87-LABEL: u64_to_d:			; X87-LABEL: u64_to_d:
	; X87: # %bb.0:			; X87: # %bb.0:
	; X87-NEXT: pushl %ebp			; X87-NEXT: pushl %ebp
	; X87-NEXT: movl %esp, %ebp			; X87-NEXT: movl %esp, %ebp
	; X87-NEXT: andl $-8, %esp			; X87-NEXT: andl $-8, %esp
	; X87-NEXT: subl $16, %esp			; X87-NEXT: subl $16, %esp
	▲ Show 20 Lines • Show All 255 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vec_extract.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-linux-gnu -mattr=+sse2,-sse4.1 \| FileCheck %s --check-prefix=X32			; RUN: llc < %s -mtriple=i686-unknown-linux-gnu -mattr=+sse2,-sse4.1 \| FileCheck %s --check-prefix=X32
	; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=+sse2,-sse4.1 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=+sse2,-sse4.1 \| FileCheck %s --check-prefix=X64

	define void @test1(<4 x float>* %F, float* %f) nounwind {			define void @test1(<4 x float>* %F, float* %f) nounwind {
	; X32-LABEL: test1:			; X32-LABEL: test1:
	; X32: # %bb.0: # %entry			; X32: # %bb.0: # %entry
	; X32-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-NEXT: movaps (%ecx), %xmm0			; X32-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: addps %xmm0, %xmm0			; X32-NEXT: addss %xmm0, %xmm0
	; X32-NEXT: movss %xmm0, (%eax)			; X32-NEXT: movss %xmm0, (%eax)
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test1:			; X64-LABEL: test1:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: movaps (%rdi), %xmm0			; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: addps %xmm0, %xmm0			; X64-NEXT: addss %xmm0, %xmm0
	; X64-NEXT: movss %xmm0, (%rsi)			; X64-NEXT: movss %xmm0, (%rsi)
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%tmp = load <4 x float>, <4 x float>* %F			%tmp = load <4 x float>, <4 x float>* %F
	%tmp7 = fadd <4 x float> %tmp, %tmp			%tmp7 = fadd <4 x float> %tmp, %tmp
	%tmp2 = extractelement <4 x float> %tmp7, i32 0			%tmp2 = extractelement <4 x float> %tmp7, i32 0
	store float %tmp2, float* %f			store float %tmp2, float* %f
	ret void			ret void
	▲ Show 20 Lines • Show All 78 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-reduce-fadd-fast.ll

	Show All 9 Lines
	; vXf32 (accum)			; vXf32 (accum)
	;			;

	define float @test_v2f32(float %a0, <2 x float> %a1) {			define float @test_v2f32(float %a0, <2 x float> %a1) {
	; SSE2-LABEL: test_v2f32:			; SSE2-LABEL: test_v2f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2f32:			; SSE41-LABEL: test_v2f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: addps %xmm1, %xmm0			; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f32:			; AVX-LABEL: test_v2f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; AVX-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32:			; AVX512-LABEL: test_v2f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float %a0, <2 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float %a0, <2 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(float %a0, <4 x float> %a1) {			define float @test_v4f32(float %a0, <4 x float> %a1) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE2-NEXT: addps %xmm1, %xmm2			; SSE2-NEXT: addps %xmm1, %xmm2
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]
	; SSE2-NEXT: addps %xmm2, %xmm0			; SSE2-NEXT: addss %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v4f32:			; SSE41-LABEL: test_v4f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movaps %xmm1, %xmm2			; SSE41-NEXT: movaps %xmm1, %xmm2
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE41-NEXT: addps %xmm1, %xmm2			; SSE41-NEXT: addps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]
	; SSE41-NEXT: addps %xmm2, %xmm0			; SSE41-NEXT: addss %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32:			; AVX-LABEL: test_v4f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX-NEXT: vaddps %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX512-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddps %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float %a0, <4 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float %a0, <4 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32(float %a0, <8 x float> %a1) {			define float @test_v8f32(float %a0, <8 x float> %a1) {
	; SSE2-LABEL: test_v8f32:			; SSE2-LABEL: test_v8f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm2, %xmm1			; SSE2-NEXT: addps %xmm2, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE2-NEXT: addps %xmm1, %xmm2			; SSE2-NEXT: addps %xmm1, %xmm2
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]
	; SSE2-NEXT: addps %xmm2, %xmm0			; SSE2-NEXT: addss %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8f32:			; SSE41-LABEL: test_v8f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: addps %xmm2, %xmm1			; SSE41-NEXT: addps %xmm2, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm2			; SSE41-NEXT: movaps %xmm1, %xmm2
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE41-NEXT: addps %xmm1, %xmm2			; SSE41-NEXT: addps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]
	; SSE41-NEXT: addps %xmm2, %xmm0			; SSE41-NEXT: addss %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX-NEXT: vaddps %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX512-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddps %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(float %a0, <16 x float> %a1) {			define float @test_v16f32(float %a0, <16 x float> %a1) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm4, %xmm2			; SSE2-NEXT: addps %xmm4, %xmm2
	; SSE2-NEXT: addps %xmm3, %xmm1			; SSE2-NEXT: addps %xmm3, %xmm1
	; SSE2-NEXT: addps %xmm2, %xmm1			; SSE2-NEXT: addps %xmm2, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE2-NEXT: addps %xmm1, %xmm2			; SSE2-NEXT: addps %xmm1, %xmm2
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]
	; SSE2-NEXT: addps %xmm2, %xmm0			; SSE2-NEXT: addss %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16f32:			; SSE41-LABEL: test_v16f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: addps %xmm4, %xmm2			; SSE41-NEXT: addps %xmm4, %xmm2
	; SSE41-NEXT: addps %xmm3, %xmm1			; SSE41-NEXT: addps %xmm3, %xmm1
	; SSE41-NEXT: addps %xmm2, %xmm1			; SSE41-NEXT: addps %xmm2, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm2			; SSE41-NEXT: movaps %xmm1, %xmm2
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE41-NEXT: addps %xmm1, %xmm2			; SSE41-NEXT: addps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]
	; SSE41-NEXT: addps %xmm2, %xmm0			; SSE41-NEXT: addss %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32:			; AVX-LABEL: test_v16f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddps %ymm2, %ymm1, %ymm0			; AVX-NEXT: vaddps %ymm2, %ymm1, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	; AVX512-NEXT: vaddps %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vaddps %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (zero)			; vXf32 (zero)
	;			;

	define float @test_v2f32_zero(<2 x float> %a0) {			define float @test_v2f32_zero(<2 x float> %a0) {
	; SSE2-LABEL: test_v2f32_zero:			; SSE2-LABEL: test_v2f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
	; SSE2-NEXT: addps %xmm0, %xmm1			; SSE2-NEXT: addss %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2f32_zero:			; SSE41-LABEL: test_v2f32_zero:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: addps %xmm1, %xmm0			; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f32_zero:			; AVX-LABEL: test_v2f32_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_zero:			; AVX512-LABEL: test_v2f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float 0.0, <2 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float 0.0, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_zero(<4 x float> %a0) {			define float @test_v4f32_zero(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_zero:			; SSE2-LABEL: test_v4f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE2-NEXT: addps %xmm0, %xmm1			; SSE2-NEXT: addps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v4f32_zero:			; SSE41-LABEL: test_v4f32_zero:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE41-NEXT: addps %xmm0, %xmm1			; SSE41-NEXT: addps %xmm0, %xmm1
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: addps %xmm0, %xmm1			; SSE41-NEXT: addss %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32_zero:			; AVX-LABEL: test_v4f32_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_zero:			; AVX512-LABEL: test_v4f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float 0.0, <4 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float 0.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_zero(<8 x float> %a0) {			define float @test_v8f32_zero(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_zero:			; SSE2-LABEL: test_v8f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE2-NEXT: addps %xmm0, %xmm1			; SSE2-NEXT: addps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8f32_zero:			; SSE41-LABEL: test_v8f32_zero:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: addps %xmm1, %xmm0			; SSE41-NEXT: addps %xmm1, %xmm0
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE41-NEXT: addps %xmm0, %xmm1			; SSE41-NEXT: addps %xmm0, %xmm1
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: addps %xmm0, %xmm1			; SSE41-NEXT: addss %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32_zero:			; AVX-LABEL: test_v8f32_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_zero:			; AVX512-LABEL: test_v8f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float 0.0, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float 0.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_zero(<16 x float> %a0) {			define float @test_v16f32_zero(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_zero:			; SSE2-LABEL: test_v16f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm3, %xmm1			; SSE2-NEXT: addps %xmm3, %xmm1
	; SSE2-NEXT: addps %xmm2, %xmm0			; SSE2-NEXT: addps %xmm2, %xmm0
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE2-NEXT: addps %xmm0, %xmm1			; SSE2-NEXT: addps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16f32_zero:			; SSE41-LABEL: test_v16f32_zero:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: addps %xmm3, %xmm1			; SSE41-NEXT: addps %xmm3, %xmm1
	; SSE41-NEXT: addps %xmm2, %xmm0			; SSE41-NEXT: addps %xmm2, %xmm0
	; SSE41-NEXT: addps %xmm1, %xmm0			; SSE41-NEXT: addps %xmm1, %xmm0
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE41-NEXT: addps %xmm0, %xmm1			; SSE41-NEXT: addps %xmm0, %xmm1
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: addps %xmm0, %xmm1			; SSE41-NEXT: addss %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32_zero:			; AVX-LABEL: test_v16f32_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_zero:			; AVX512-LABEL: test_v16f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float 0.0, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float 0.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (undef)			; vXf32 (undef)
	;			;

	define float @test_v2f32_undef(<2 x float> %a0) {			define float @test_v2f32_undef(<2 x float> %a0) {
	; SSE2-LABEL: test_v2f32_undef:			; SSE2-LABEL: test_v2f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
	; SSE2-NEXT: addps %xmm0, %xmm1			; SSE2-NEXT: addss %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2f32_undef:			; SSE41-LABEL: test_v2f32_undef:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: addps %xmm1, %xmm0			; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f32_undef:			; AVX-LABEL: test_v2f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_undef:			; AVX512-LABEL: test_v2f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float undef, <2 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float undef, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_undef(<4 x float> %a0) {			define float @test_v4f32_undef(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_undef:			; SSE2-LABEL: test_v4f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE2-NEXT: addps %xmm0, %xmm1			; SSE2-NEXT: addps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v4f32_undef:			; SSE41-LABEL: test_v4f32_undef:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE41-NEXT: addps %xmm0, %xmm1			; SSE41-NEXT: addps %xmm0, %xmm1
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: addps %xmm0, %xmm1			; SSE41-NEXT: addss %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32_undef:			; AVX-LABEL: test_v4f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_undef:			; AVX512-LABEL: test_v4f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float undef, <4 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float undef, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_undef(<8 x float> %a0) {			define float @test_v8f32_undef(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_undef:			; SSE2-LABEL: test_v8f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE2-NEXT: addps %xmm0, %xmm1			; SSE2-NEXT: addps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8f32_undef:			; SSE41-LABEL: test_v8f32_undef:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: addps %xmm1, %xmm0			; SSE41-NEXT: addps %xmm1, %xmm0
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE41-NEXT: addps %xmm0, %xmm1			; SSE41-NEXT: addps %xmm0, %xmm1
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: addps %xmm0, %xmm1			; SSE41-NEXT: addss %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32_undef:			; AVX-LABEL: test_v8f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_undef:			; AVX512-LABEL: test_v8f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float undef, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float undef, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_undef(<16 x float> %a0) {			define float @test_v16f32_undef(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_undef:			; SSE2-LABEL: test_v16f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm3, %xmm1			; SSE2-NEXT: addps %xmm3, %xmm1
	; SSE2-NEXT: addps %xmm2, %xmm0			; SSE2-NEXT: addps %xmm2, %xmm0
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE2-NEXT: addps %xmm0, %xmm1			; SSE2-NEXT: addps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16f32_undef:			; SSE41-LABEL: test_v16f32_undef:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: addps %xmm3, %xmm1			; SSE41-NEXT: addps %xmm3, %xmm1
	; SSE41-NEXT: addps %xmm2, %xmm0			; SSE41-NEXT: addps %xmm2, %xmm0
	; SSE41-NEXT: addps %xmm1, %xmm0			; SSE41-NEXT: addps %xmm1, %xmm0
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE41-NEXT: addps %xmm0, %xmm1			; SSE41-NEXT: addps %xmm0, %xmm1
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: addps %xmm0, %xmm1			; SSE41-NEXT: addss %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32_undef:			; AVX-LABEL: test_v16f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_undef:			; AVX512-LABEL: test_v16f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float undef, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float undef, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	;			;

	define double @test_v2f64(double %a0, <2 x double> %a1) {			define double @test_v2f64(double %a0, <2 x double> %a1) {
	; SSE-LABEL: test_v2f64:			; SSE-LABEL: test_v2f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64:			; AVX-LABEL: test_v2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX-NEXT: vaddpd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX512-NEXT: vaddpd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double %a0, <2 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double %a0, <2 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(double %a0, <4 x double> %a1) {			define double @test_v4f64(double %a0, <4 x double> %a1) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm2, %xmm1			; SSE-NEXT: addpd %xmm2, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX-NEXT: vaddpd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vaddpd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX512-NEXT: vaddpd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddpd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm4, %xmm2			; SSE-NEXT: addpd %xmm4, %xmm2
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd %xmm2, %xmm1			; SSE-NEXT: addpd %xmm2, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm2, %ymm1, %ymm0			; AVX-NEXT: vaddpd %ymm2, %ymm1, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	; AVX512-NEXT: vaddpd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vaddpd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(double %a0, <16 x double> %a1) {			define double @test_v16f64(double %a0, <16 x double> %a1) {
	; SSE-LABEL: test_v16f64:			; SSE-LABEL: test_v16f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm6, %xmm2			; SSE-NEXT: addpd %xmm6, %xmm2
	; SSE-NEXT: addpd %xmm7, %xmm3			; SSE-NEXT: addpd %xmm7, %xmm3
	; SSE-NEXT: addpd %xmm5, %xmm1			; SSE-NEXT: addpd %xmm5, %xmm1
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd {{[0-9]+}}(%rsp), %xmm4			; SSE-NEXT: addpd {{[0-9]+}}(%rsp), %xmm4
	; SSE-NEXT: addpd %xmm2, %xmm4			; SSE-NEXT: addpd %xmm2, %xmm4
	; SSE-NEXT: addpd %xmm1, %xmm4			; SSE-NEXT: addpd %xmm1, %xmm4
	; SSE-NEXT: movapd %xmm4, %xmm0			; SSE-NEXT: movapd %xmm4, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm4[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm4[1]
	; SSE-NEXT: addpd %xmm4, %xmm0			; SSE-NEXT: addsd %xmm4, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64:			; AVX-LABEL: test_v16f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm4, %ymm2, %ymm0			; AVX-NEXT: vaddpd %ymm4, %ymm2, %ymm0
	; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vaddpd %ymm0, %ymm1, %ymm0			; AVX-NEXT: vaddpd %ymm0, %ymm1, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm0			; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (zero)			; vXf64 (zero)
	;			;

	define double @test_v2f64_zero(<2 x double> %a0) {			define double @test_v2f64_zero(<2 x double> %a0) {
	; SSE-LABEL: test_v2f64_zero:			; SSE-LABEL: test_v2f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: addpd %xmm0, %xmm1			; SSE-NEXT: addsd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64_zero:			; AVX-LABEL: test_v2f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_zero:			; AVX512-LABEL: test_v2f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double 0.0, <2 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double 0.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_zero(<4 x double> %a0) {			define double @test_v4f64_zero(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_zero:			; SSE-LABEL: test_v4f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: addpd %xmm0, %xmm1			; SSE-NEXT: addsd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64_zero:			; AVX-LABEL: test_v4f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_zero:			; AVX512-LABEL: test_v4f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double 0.0, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double 0.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_zero(<8 x double> %a0) {			define double @test_v8f64_zero(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_zero:			; SSE-LABEL: test_v8f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd %xmm2, %xmm0			; SSE-NEXT: addpd %xmm2, %xmm0
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: addpd %xmm0, %xmm1			; SSE-NEXT: addsd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64_zero:			; AVX-LABEL: test_v8f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_zero:			; AVX512-LABEL: test_v8f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double 0.0, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double 0.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_zero(<16 x double> %a0) {			define double @test_v16f64_zero(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_zero:			; SSE-LABEL: test_v16f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm6, %xmm2			; SSE-NEXT: addpd %xmm6, %xmm2
	; SSE-NEXT: addpd %xmm4, %xmm0			; SSE-NEXT: addpd %xmm4, %xmm0
	; SSE-NEXT: addpd %xmm2, %xmm0			; SSE-NEXT: addpd %xmm2, %xmm0
	; SSE-NEXT: addpd %xmm7, %xmm3			; SSE-NEXT: addpd %xmm7, %xmm3
	; SSE-NEXT: addpd %xmm5, %xmm1			; SSE-NEXT: addpd %xmm5, %xmm1
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd %xmm0, %xmm1			; SSE-NEXT: addpd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64_zero:			; AVX-LABEL: test_v16f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vaddpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_zero:			; AVX512-LABEL: test_v16f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double 0.0, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double 0.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (undef)			; vXf64 (undef)
	;			;

	define double @test_v2f64_undef(<2 x double> %a0) {			define double @test_v2f64_undef(<2 x double> %a0) {
	; SSE-LABEL: test_v2f64_undef:			; SSE-LABEL: test_v2f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: addpd %xmm0, %xmm1			; SSE-NEXT: addsd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64_undef:			; AVX-LABEL: test_v2f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_undef:			; AVX512-LABEL: test_v2f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double undef, <2 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double undef, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_undef(<4 x double> %a0) {			define double @test_v4f64_undef(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_undef:			; SSE-LABEL: test_v4f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: addpd %xmm0, %xmm1			; SSE-NEXT: addsd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64_undef:			; AVX-LABEL: test_v4f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_undef:			; AVX512-LABEL: test_v4f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double undef, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double undef, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd %xmm2, %xmm0			; SSE-NEXT: addpd %xmm2, %xmm0
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: addpd %xmm0, %xmm1			; SSE-NEXT: addsd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64_undef:			; AVX-LABEL: test_v8f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_undef:			; AVX512-LABEL: test_v8f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double undef, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double undef, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_undef:			; SSE-LABEL: test_v16f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm6, %xmm2			; SSE-NEXT: addpd %xmm6, %xmm2
	; SSE-NEXT: addpd %xmm4, %xmm0			; SSE-NEXT: addpd %xmm4, %xmm0
	; SSE-NEXT: addpd %xmm2, %xmm0			; SSE-NEXT: addpd %xmm2, %xmm0
	; SSE-NEXT: addpd %xmm7, %xmm3			; SSE-NEXT: addpd %xmm7, %xmm3
	; SSE-NEXT: addpd %xmm5, %xmm1			; SSE-NEXT: addpd %xmm5, %xmm1
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd %xmm0, %xmm1			; SSE-NEXT: addpd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64_undef:			; AVX-LABEL: test_v16f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vaddpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_undef:			; AVX512-LABEL: test_v16f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double undef, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double undef, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float, <2 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float, <8 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float, <16 x float>)

	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double, <2 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double, <4 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double, <8 x double>)			declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double, <8 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double, <16 x double>)			declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double, <16 x double>)

llvm/test/CodeGen/X86/vector-reduce-fmul-fast.ll

	Show All 9 Lines
	; vXf32 (accum)			; vXf32 (accum)
	;			;

	define float @test_v2f32(float %a0, <2 x float> %a1) {			define float @test_v2f32(float %a0, <2 x float> %a1) {
	; SSE2-LABEL: test_v2f32:			; SSE2-LABEL: test_v2f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2f32:			; SSE41-LABEL: test_v2f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: mulps %xmm1, %xmm0			; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f32:			; AVX-LABEL: test_v2f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; AVX-NEXT: vmulps %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32:			; AVX512-LABEL: test_v2f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float %a0, <2 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float %a0, <2 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(float %a0, <4 x float> %a1) {			define float @test_v4f32(float %a0, <4 x float> %a1) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE2-NEXT: mulps %xmm1, %xmm2			; SSE2-NEXT: mulps %xmm1, %xmm2
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]
	; SSE2-NEXT: mulps %xmm2, %xmm0			; SSE2-NEXT: mulss %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v4f32:			; SSE41-LABEL: test_v4f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movaps %xmm1, %xmm2			; SSE41-NEXT: movaps %xmm1, %xmm2
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE41-NEXT: mulps %xmm1, %xmm2			; SSE41-NEXT: mulps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]
	; SSE41-NEXT: mulps %xmm2, %xmm0			; SSE41-NEXT: mulss %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32:			; AVX-LABEL: test_v4f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX-NEXT: vmulps %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float %a0, <4 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float %a0, <4 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32(float %a0, <8 x float> %a1) {			define float @test_v8f32(float %a0, <8 x float> %a1) {
	; SSE2-LABEL: test_v8f32:			; SSE2-LABEL: test_v8f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm2, %xmm1			; SSE2-NEXT: mulps %xmm2, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE2-NEXT: mulps %xmm1, %xmm2			; SSE2-NEXT: mulps %xmm1, %xmm2
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]
	; SSE2-NEXT: mulps %xmm2, %xmm0			; SSE2-NEXT: mulss %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8f32:			; SSE41-LABEL: test_v8f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: mulps %xmm2, %xmm1			; SSE41-NEXT: mulps %xmm2, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm2			; SSE41-NEXT: movaps %xmm1, %xmm2
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE41-NEXT: mulps %xmm1, %xmm2			; SSE41-NEXT: mulps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]
	; SSE41-NEXT: mulps %xmm2, %xmm0			; SSE41-NEXT: mulss %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX-NEXT: vmulps %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(float %a0, <16 x float> %a1) {			define float @test_v16f32(float %a0, <16 x float> %a1) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm4, %xmm2			; SSE2-NEXT: mulps %xmm4, %xmm2
	; SSE2-NEXT: mulps %xmm3, %xmm1			; SSE2-NEXT: mulps %xmm3, %xmm1
	; SSE2-NEXT: mulps %xmm2, %xmm1			; SSE2-NEXT: mulps %xmm2, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE2-NEXT: mulps %xmm1, %xmm2			; SSE2-NEXT: mulps %xmm1, %xmm2
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]
	; SSE2-NEXT: mulps %xmm2, %xmm0			; SSE2-NEXT: mulss %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16f32:			; SSE41-LABEL: test_v16f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: mulps %xmm4, %xmm2			; SSE41-NEXT: mulps %xmm4, %xmm2
	; SSE41-NEXT: mulps %xmm3, %xmm1			; SSE41-NEXT: mulps %xmm3, %xmm1
	; SSE41-NEXT: mulps %xmm2, %xmm1			; SSE41-NEXT: mulps %xmm2, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm2			; SSE41-NEXT: movaps %xmm1, %xmm2
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE41-NEXT: mulps %xmm1, %xmm2			; SSE41-NEXT: mulps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]
	; SSE41-NEXT: mulps %xmm2, %xmm0			; SSE41-NEXT: mulss %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32:			; AVX-LABEL: test_v16f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulps %ymm2, %ymm1, %ymm0			; AVX-NEXT: vmulps %ymm2, %ymm1, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	; AVX512-NEXT: vmulps %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vmulps %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (one)			; vXf32 (one)
	;			;

	define float @test_v2f32_zero(<2 x float> %a0) {			define float @test_v2f32_zero(<2 x float> %a0) {
	; SSE2-LABEL: test_v2f32_zero:			; SSE2-LABEL: test_v2f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
	; SSE2-NEXT: mulps %xmm0, %xmm1			; SSE2-NEXT: mulss %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2f32_zero:			; SSE41-LABEL: test_v2f32_zero:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: mulps %xmm1, %xmm0			; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f32_zero:			; AVX-LABEL: test_v2f32_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_zero:			; AVX512-LABEL: test_v2f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float 1.0, <2 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float 1.0, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_zero(<4 x float> %a0) {			define float @test_v4f32_zero(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_zero:			; SSE2-LABEL: test_v4f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE2-NEXT: mulps %xmm0, %xmm1			; SSE2-NEXT: mulps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v4f32_zero:			; SSE41-LABEL: test_v4f32_zero:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulps %xmm0, %xmm1
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulss %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32_zero:			; AVX-LABEL: test_v4f32_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_zero:			; AVX512-LABEL: test_v4f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float 1.0, <4 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float 1.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_zero(<8 x float> %a0) {			define float @test_v8f32_zero(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_zero:			; SSE2-LABEL: test_v8f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE2-NEXT: mulps %xmm0, %xmm1			; SSE2-NEXT: mulps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8f32_zero:			; SSE41-LABEL: test_v8f32_zero:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: mulps %xmm1, %xmm0			; SSE41-NEXT: mulps %xmm1, %xmm0
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulps %xmm0, %xmm1
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulss %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32_zero:			; AVX-LABEL: test_v8f32_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_zero:			; AVX512-LABEL: test_v8f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float 1.0, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float 1.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_zero(<16 x float> %a0) {			define float @test_v16f32_zero(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_zero:			; SSE2-LABEL: test_v16f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm3, %xmm1			; SSE2-NEXT: mulps %xmm3, %xmm1
	; SSE2-NEXT: mulps %xmm2, %xmm0			; SSE2-NEXT: mulps %xmm2, %xmm0
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE2-NEXT: mulps %xmm0, %xmm1			; SSE2-NEXT: mulps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16f32_zero:			; SSE41-LABEL: test_v16f32_zero:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: mulps %xmm3, %xmm1			; SSE41-NEXT: mulps %xmm3, %xmm1
	; SSE41-NEXT: mulps %xmm2, %xmm0			; SSE41-NEXT: mulps %xmm2, %xmm0
	; SSE41-NEXT: mulps %xmm1, %xmm0			; SSE41-NEXT: mulps %xmm1, %xmm0
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulps %xmm0, %xmm1
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulss %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32_zero:			; AVX-LABEL: test_v16f32_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_zero:			; AVX512-LABEL: test_v16f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float 1.0, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float 1.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (undef)			; vXf32 (undef)
	;			;

	define float @test_v2f32_undef(<2 x float> %a0) {			define float @test_v2f32_undef(<2 x float> %a0) {
	; SSE2-LABEL: test_v2f32_undef:			; SSE2-LABEL: test_v2f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
	; SSE2-NEXT: mulps %xmm0, %xmm1			; SSE2-NEXT: mulss %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2f32_undef:			; SSE41-LABEL: test_v2f32_undef:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: mulps %xmm1, %xmm0			; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f32_undef:			; AVX-LABEL: test_v2f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_undef:			; AVX512-LABEL: test_v2f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float undef, <2 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float undef, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_undef(<4 x float> %a0) {			define float @test_v4f32_undef(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_undef:			; SSE2-LABEL: test_v4f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE2-NEXT: mulps %xmm0, %xmm1			; SSE2-NEXT: mulps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v4f32_undef:			; SSE41-LABEL: test_v4f32_undef:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulps %xmm0, %xmm1
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulss %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32_undef:			; AVX-LABEL: test_v4f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_undef:			; AVX512-LABEL: test_v4f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float undef, <4 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float undef, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_undef(<8 x float> %a0) {			define float @test_v8f32_undef(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_undef:			; SSE2-LABEL: test_v8f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE2-NEXT: mulps %xmm0, %xmm1			; SSE2-NEXT: mulps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8f32_undef:			; SSE41-LABEL: test_v8f32_undef:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: mulps %xmm1, %xmm0			; SSE41-NEXT: mulps %xmm1, %xmm0
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulps %xmm0, %xmm1
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulss %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32_undef:			; AVX-LABEL: test_v8f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_undef:			; AVX512-LABEL: test_v8f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float undef, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float undef, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_undef(<16 x float> %a0) {			define float @test_v16f32_undef(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_undef:			; SSE2-LABEL: test_v16f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm3, %xmm1			; SSE2-NEXT: mulps %xmm3, %xmm1
	; SSE2-NEXT: mulps %xmm2, %xmm0			; SSE2-NEXT: mulps %xmm2, %xmm0
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE2-NEXT: mulps %xmm0, %xmm1			; SSE2-NEXT: mulps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16f32_undef:			; SSE41-LABEL: test_v16f32_undef:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: mulps %xmm3, %xmm1			; SSE41-NEXT: mulps %xmm3, %xmm1
	; SSE41-NEXT: mulps %xmm2, %xmm0			; SSE41-NEXT: mulps %xmm2, %xmm0
	; SSE41-NEXT: mulps %xmm1, %xmm0			; SSE41-NEXT: mulps %xmm1, %xmm0
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulps %xmm0, %xmm1
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulss %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32_undef:			; AVX-LABEL: test_v16f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_undef:			; AVX512-LABEL: test_v16f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float undef, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float undef, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	;			;

	define double @test_v2f64(double %a0, <2 x double> %a1) {			define double @test_v2f64(double %a0, <2 x double> %a1) {
	; SSE-LABEL: test_v2f64:			; SSE-LABEL: test_v2f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64:			; AVX-LABEL: test_v2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX-NEXT: vmulpd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX512-NEXT: vmulpd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double %a0, <2 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double %a0, <2 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(double %a0, <4 x double> %a1) {			define double @test_v4f64(double %a0, <4 x double> %a1) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm2, %xmm1			; SSE-NEXT: mulpd %xmm2, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX-NEXT: vmulpd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulpd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX512-NEXT: vmulpd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulpd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm4, %xmm2			; SSE-NEXT: mulpd %xmm4, %xmm2
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm2, %xmm1			; SSE-NEXT: mulpd %xmm2, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	; AVX512-NEXT: vmulpd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vmulpd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(double %a0, <16 x double> %a1) {			define double @test_v16f64(double %a0, <16 x double> %a1) {
	; SSE-LABEL: test_v16f64:			; SSE-LABEL: test_v16f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm6, %xmm2			; SSE-NEXT: mulpd %xmm6, %xmm2
	; SSE-NEXT: mulpd %xmm7, %xmm3			; SSE-NEXT: mulpd %xmm7, %xmm3
	; SSE-NEXT: mulpd %xmm5, %xmm1			; SSE-NEXT: mulpd %xmm5, %xmm1
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd {{[0-9]+}}(%rsp), %xmm4			; SSE-NEXT: mulpd {{[0-9]+}}(%rsp), %xmm4
	; SSE-NEXT: mulpd %xmm2, %xmm4			; SSE-NEXT: mulpd %xmm2, %xmm4
	; SSE-NEXT: mulpd %xmm1, %xmm4			; SSE-NEXT: mulpd %xmm1, %xmm4
	; SSE-NEXT: movapd %xmm4, %xmm0			; SSE-NEXT: movapd %xmm4, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm4[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm4[1]
	; SSE-NEXT: mulpd %xmm4, %xmm0			; SSE-NEXT: mulsd %xmm4, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64:			; AVX-LABEL: test_v16f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm4, %ymm2, %ymm0			; AVX-NEXT: vmulpd %ymm4, %ymm2, %ymm0
	; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vmulpd %ymm0, %ymm1, %ymm0			; AVX-NEXT: vmulpd %ymm0, %ymm1, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm0			; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (one)			; vXf64 (one)
	;			;

	define double @test_v2f64_zero(<2 x double> %a0) {			define double @test_v2f64_zero(<2 x double> %a0) {
	; SSE-LABEL: test_v2f64_zero:			; SSE-LABEL: test_v2f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: mulpd %xmm0, %xmm1			; SSE-NEXT: mulsd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64_zero:			; AVX-LABEL: test_v2f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_zero:			; AVX512-LABEL: test_v2f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double 1.0, <2 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double 1.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_zero(<4 x double> %a0) {			define double @test_v4f64_zero(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_zero:			; SSE-LABEL: test_v4f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: mulpd %xmm0, %xmm1			; SSE-NEXT: mulsd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64_zero:			; AVX-LABEL: test_v4f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_zero:			; AVX512-LABEL: test_v4f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double 1.0, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double 1.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_zero(<8 x double> %a0) {			define double @test_v8f64_zero(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_zero:			; SSE-LABEL: test_v8f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm2, %xmm0			; SSE-NEXT: mulpd %xmm2, %xmm0
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: mulpd %xmm0, %xmm1			; SSE-NEXT: mulsd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64_zero:			; AVX-LABEL: test_v8f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_zero:			; AVX512-LABEL: test_v8f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double 1.0, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double 1.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_zero(<16 x double> %a0) {			define double @test_v16f64_zero(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_zero:			; SSE-LABEL: test_v16f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm6, %xmm2			; SSE-NEXT: mulpd %xmm6, %xmm2
	; SSE-NEXT: mulpd %xmm4, %xmm0			; SSE-NEXT: mulpd %xmm4, %xmm0
	; SSE-NEXT: mulpd %xmm2, %xmm0			; SSE-NEXT: mulpd %xmm2, %xmm0
	; SSE-NEXT: mulpd %xmm7, %xmm3			; SSE-NEXT: mulpd %xmm7, %xmm3
	; SSE-NEXT: mulpd %xmm5, %xmm1			; SSE-NEXT: mulpd %xmm5, %xmm1
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm0, %xmm1			; SSE-NEXT: mulpd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64_zero:			; AVX-LABEL: test_v16f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vmulpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_zero:			; AVX512-LABEL: test_v16f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double 1.0, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double 1.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (undef)			; vXf64 (undef)
	;			;

	define double @test_v2f64_undef(<2 x double> %a0) {			define double @test_v2f64_undef(<2 x double> %a0) {
	; SSE-LABEL: test_v2f64_undef:			; SSE-LABEL: test_v2f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: mulpd %xmm0, %xmm1			; SSE-NEXT: mulsd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64_undef:			; AVX-LABEL: test_v2f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_undef:			; AVX512-LABEL: test_v2f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double undef, <2 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double undef, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_undef(<4 x double> %a0) {			define double @test_v4f64_undef(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_undef:			; SSE-LABEL: test_v4f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: mulpd %xmm0, %xmm1			; SSE-NEXT: mulsd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64_undef:			; AVX-LABEL: test_v4f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_undef:			; AVX512-LABEL: test_v4f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double undef, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double undef, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm2, %xmm0			; SSE-NEXT: mulpd %xmm2, %xmm0
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: mulpd %xmm0, %xmm1			; SSE-NEXT: mulsd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64_undef:			; AVX-LABEL: test_v8f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_undef:			; AVX512-LABEL: test_v8f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double undef, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double undef, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_undef:			; SSE-LABEL: test_v16f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm6, %xmm2			; SSE-NEXT: mulpd %xmm6, %xmm2
	; SSE-NEXT: mulpd %xmm4, %xmm0			; SSE-NEXT: mulpd %xmm4, %xmm0
	; SSE-NEXT: mulpd %xmm2, %xmm0			; SSE-NEXT: mulpd %xmm2, %xmm0
	; SSE-NEXT: mulpd %xmm7, %xmm3			; SSE-NEXT: mulpd %xmm7, %xmm3
	; SSE-NEXT: mulpd %xmm5, %xmm1			; SSE-NEXT: mulpd %xmm5, %xmm1
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm0, %xmm1			; SSE-NEXT: mulpd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64_undef:			; AVX-LABEL: test_v16f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vmulpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_undef:			; AVX512-LABEL: test_v16f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double undef, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double undef, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float, <2 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float, <8 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float, <16 x float>)

	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double, <2 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double, <4 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double, <8 x double>)			declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double, <8 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double, <16 x double>)			declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double, <16 x double>)

This is an archive of the discontinued LLVM Phabricator instance.

[x86] scalarize extract element 0 of FP mathClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 187027

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/test/CodeGen/X86/avx1-logical-load-folding.ll

llvm/test/CodeGen/X86/avx512-hadd-hsub.ll

llvm/test/CodeGen/X86/avx512-intrinsics-fast-isel.ll

llvm/test/CodeGen/X86/exedeps-movq.ll

llvm/test/CodeGen/X86/extractelement-fp.ll

llvm/test/CodeGen/X86/ftrunc.ll

llvm/test/CodeGen/X86/haddsub.ll

llvm/test/CodeGen/X86/scalar-int-to-fp.ll

llvm/test/CodeGen/X86/vec_extract.ll

llvm/test/CodeGen/X86/vector-reduce-fadd-fast.ll

llvm/test/CodeGen/X86/vector-reduce-fmul-fast.ll

[x86] scalarize extract element 0 of FP math
ClosedPublic