This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
include/llvm/Transforms/Utils/
-
llvm/
-
Transforms/
-
Utils/
-
LoopUtils.h
-
lib/
-
CodeGen/
-
ExpandReductions.cpp
-
Transforms/Utils/
-
Utils/
7
LoopUtils.cpp
-
test/CodeGen/
-
CodeGen/
-
Generic/
1
expand-experimental-reductions.ll
-
X86/
-
vector-reduce-fadd-fast.ll
-
vector-reduce-fmul-fast.ll

Differential D45336

Apply accumulator to fadd/fmul experimental vector reductions (PR36734)
AbandonedPublic

Authored by RKSimon on Apr 5 2018, 2:48 PM.

Download Raw Diff

Details

Reviewers

chandlerc
hfinkel
rengolin
mkuper
ABataev
spatel
aemerson

Summary

The llvm.experimental.vector.reduce.fadd/fmul intrinsic expansions were ignoring the accumulator scalar argument which should be added/multiplied to the scalar value from the vector reduction.

For (fast) shuffle reductions we should be able to apply the accumulator at the end of the sequence.

NOTE: I am currently working on a second patch for scalarizing strict fadd/fmul vector reductions (PR36732)

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon created this revision.Apr 5 2018, 2:48 PM

• gnzlbg added a subscriber: • gnzlbg.Apr 6 2018, 4:56 AM

• gnzlbg added inline comments.

lib/Transforms/Utils/LoopUtils.cpp
1545	Could you add a note explaining why this is the case? If this isn't the case adding fast math flags is going to have a lot of unexpected side-effects for the users. Is there a way to verify this or assert this?

RKSimon added inline comments.Apr 6 2018, 6:28 AM

lib/Transforms/Utils/LoopUtils.cpp
1545	This is a cut and paste from the code below so I didn't introduce this - but for shuffle reduction you do have to assume fast math (see the equivalent comments further down in the createSimpleTargetReduction calling function).

ABataev added inline comments.Apr 6 2018, 6:32 AM

lib/Transforms/Utils/LoopUtils.cpp
1542	`auto`->`auto &&` It is a bad idea to capture everything by reference, most of the variables can be captured by value, like `Op` or `RedOps`. It is better to use explicit capturing rather than implict.
1578–1579	Why are you excluding `UndefValue` here? If `Acc` is `Undef`, the `Result` must be `Undef` too, no?
test/CodeGen/Generic/expand-experimental-reductions.ll
103–118	Could you commit these tests separately as NFC and then update them using your changes to see the real effect of your patch?

RKSimon added inline comments.Apr 6 2018, 6:39 AM

lib/Transforms/Utils/LoopUtils.cpp
1578–1579	Undef appears to have been used to ignore the accumulator.... @aemerson can you confirm please?

aemerson added inline comments.Apr 6 2018, 7:11 AM

lib/Transforms/Utils/LoopUtils.cpp
1578–1579	I think I missed out a detail when I wrote the langref, original motivation of the scalar accumulator argument was for the use in strictly ordered FP reductions only. I.e. when the intrinsic call has no FMF flags attached then the accumulator argument is used, otherwise if there are no FMF flags then the argument is meant to be ignored. If we're talking about the semantics of the intrinsics: whether or not the accumulator is undef should have no effect on the codegen for fast reductions. If it did, as your patch implements, then @ABataev is right in that a value + undef = undef. We would then have to ensure that we generate identity values for the particular reduction kind in the cases where we don't have an accumulator.

• gnzlbg added inline comments.Apr 6 2018, 8:02 AM

lib/Transforms/Utils/LoopUtils.cpp
1545	but for shuffle reduction you do have to assume fast math I think one just needs to assume floating-point math to be associative, but one does not need to assume that floating-point math is, for example, finite.

@aemerson

I think I missed out a detail when I wrote the langref, original motivation of the scalar accumulator argument was for the use in strictly ordered FP reductions only. I.e. when the intrinsic call has no FMF flags attached then the accumulator argument is used, otherwise if there are no FMF flags then the argument is meant to be ignored.

Why do we need the accumulator for this case? That is, why can't we just do:

result = vector[0];
for i in [1, vector.len) {
    result = binary_op(result, vector[i]);
}
return result;

I also wonder whether requiring fast-math to allow tree reductions is overkill. Tree reductions can be implemented reasonably efficiently in many architectures, while linearly ordered reduction appear to me to be more of a niche. Therefore, I wonder if it wouldn't make more sense to add llvm.experimental.vector.reduce.tree.{add,mul} that perform tree reductions without requiring fast math, and to just call those from here if fast-math is enabled.

I also wonder whether requiring fast-math to allow tree reductions is overkill. Tree reductions can be implemented reasonably efficiently in many architectures, while linearly ordered reduction appear to me to be more of a niche.

Agreed. Tree-reduction is significantly faster and has smaller average error; it should really be the default in both LLVM and source languages except where there's an explicit constraint that forces linear reduction.

it should really be the default in both LLVM and source languages except where there's an explicit constraint that forces linear reduction.

Tree reductions is what Rust portable packed SIMD RFC [0] currently specifies.

@aemerson

For strictly ordered reductions which are supported on some vector architectures like ARM SVE, then
the accumulator operand is used when there are no FMF flags on the call.

This makes sense. Reading from the ARM SVE spec [1]:

Horizontal reductions

These instructions perform arithmetic horizontally across Active elements of a single source vector and deliver a
scalar result.

The floating-point horizontal accumulating sum instruction, FADDA, operates strictly in order of increasing Element
number across a vector, using the scalar destination register as a source for the initial value of the accumulator. This
preserves the original program evaluation order where non-associativity is required.
The other floating-point reductions calculate their result using a recursive pair-wise algorithm that does not preserve
the original program order, but permits increased parallelism for code that does not require strict order of evaluation.

The accumulator does really make sense for FADDA: one can iterate over a large sequence of memory, adding horizontal vectors to the accumulator, and get a result that preserves the ordered arithmetic. That's pretty cool.

[0]: https://github.com/rust-lang/rfcs/pull/2366
[1]: https://static.docs.arm.com/ddi0584/a/DDI0584A_b_SVE_supp_armv8A.pdf

In D45336#1059781, @gnzlbg wrote:
@aemerson

I think I missed out a detail when I wrote the langref, original motivation of the scalar accumulator argument was for the use in strictly ordered FP reductions only. I.e. when the intrinsic call has no FMF flags attached then the accumulator argument is used, otherwise if there are no FMF flags then the argument is meant to be ignored.

Why do we need the accumulator for this case? That is, why can't we just do:
result = vector[0];
for i in [1, vector.len) {
    result = binary_op(result, vector[i]);
}
return result;
I also wonder whether requiring fast-math to allow tree reductions is overkill. Tree reductions can be implemented reasonably efficiently in many architectures, while linearly ordered reduction appear to me to be more of a niche. Therefore, I wonder if it wouldn't make more sense to add llvm.experimental.vector.reduce.tree.{add,mul} that perform tree reductions without requiring fast math, and to just call those from here if fast-math is enabled.

Because not every architecture has a statically defined vector length, so you may need to generate IR loops in order to express it unless you use these intrinsics.

RKSimon mentioned this in D45366: Support generic expansion of ordered vector reduction (PR36732).Apr 6 2018, 9:56 AM

In D45336#1059881, @gnzlbg wrote:

it should really be the default in both LLVM and source languages except where there's an explicit constraint that forces linear reduction.

Tree reductions is what Rust portable packed SIMD RFC [0] currently specifies.

Yup, it's also what the Apple simd module uses.

RKSimon mentioned this in rL329427: Add additional tests from D45336.Apr 6 2018, 10:21 AM

rebased - always apply accumulator if not null

Simon asked this on the PR, let's continue the discussion in one place:

Do we really want to completely ignore an intrinsic argument depending on the fast flags? There might be valid reasons to want to include an accumulation value.

The raison d'être for the argument is for ordered reductions, and the intrinsics were designed to allow the expression of the reduction idiom only, in light of newer vector architectures where the previous representation was inadequate. The use of an accumulator argument for fast reductions wasn't necessary, so the semantics were supposed to be defined in the most minimal form. The accumulator can easily be expressed as a extractelement->op->insertelement sequence. The question here I think becomes our good old friend: what should the canonical form be?

The other issue is that while these intrinsics were experimental (it was on my todo list for later this year to change that), AArch64 has been using them with their original intended semantics for a while now. If we change that, IR generated from a released compiler will be miscompiled since it now becomes legal to fold away undef accumulator reductions to undef, unless we do some IR auto-upgrading based on the bitcode version.

In D45336#1060080, @aemerson wrote:

The other issue is that while these intrinsics were experimental (it was on my todo list for later this year to change that), AArch64 has been using them with their original intended semantics for a while now. If we change that, IR generated from a released compiler will be miscompiled since it now becomes legal to fold away undef accumulator reductions to undef, unless we do some IR auto-upgrading based on the bitcode version.

If they are flagged as experimental surely we can't be held resposible for changes in behaviour?

In D45336#1060178, @RKSimon wrote:

In D45336#1060080, @aemerson wrote:

The other issue is that while these intrinsics were experimental (it was on my todo list for later this year to change that), AArch64 has been using them with their original intended semantics for a while now. If we change that, IR generated from a released compiler will be miscompiled since it now becomes legal to fold away undef accumulator reductions to undef, unless we do some IR auto-upgrading based on the bitcode version.

If they are flagged as experimental surely we can't be held resposible for changes in behaviour?

AArch64 was the test guinea pig for this new representation, and it's proved to be a smooth transition. If you change the semantics now, even if the intrinsics are still experimental in name, IR from LLVM 6.0 may be silently miscompiled if someone implements a valid optimization based on your new proposal. That's a fact, and I don't think this patch review is the right place to discuss that if you want to do this, I suggest you send a new RFC or revive the old one.

I'll work on reductions later this year (just like I said last year...). Resigning to get this off my review dashboard.

RKSimon abandoned this revision.Jan 15 2020, 12:42 PM

Herald added a project: Restricted Project. · View Herald TranscriptJan 15 2020, 12:42 PM

Revision Contents

Path

Size

include/

llvm/

Transforms/

Utils/

	LoopUtils.h
	LoopUtils.h (revision 329432)

9 lines

lib/

CodeGen/

	ExpandReductions.cpp
	ExpandReductions.cpp (revision 329432)

6 lines

Transforms/

Utils/

	LoopUtils.cpp
	LoopUtils.cpp (revision 329432)

41 lines

test/

CodeGen/

Generic/

	expand-experimental-reductions.ll
	expand-experimental-reductions.ll (revision 329432)

12 lines

X86/

	vector-reduce-fadd-fast.ll
	vector-reduce-fadd-fast.ll (revision 329432)

285 lines

	vector-reduce-fmul-fast.ll
	vector-reduce-fmul-fast.ll (revision 329432)

290 lines

Diff 141381

include/llvm/Transforms/Utils/LoopUtils.h

	Show First 20 Lines • Show All 504 Lines • ▼ Show 20 Lines
	/// can execute speculatively.			/// can execute speculatively.
	/// If \p ORE is set use it to emit optimization remarks.			/// If \p ORE is set use it to emit optimization remarks.
	bool canSinkOrHoistInst(Instruction &I, AAResults AA, DominatorTree DT,			bool canSinkOrHoistInst(Instruction &I, AAResults AA, DominatorTree DT,
	Loop CurLoop, AliasSetTracker CurAST,			Loop CurLoop, AliasSetTracker CurAST,
	LoopSafetyInfo *SafetyInfo,			LoopSafetyInfo *SafetyInfo,
	OptimizationRemarkEmitter *ORE = nullptr);			OptimizationRemarkEmitter *ORE = nullptr);

	/// Generates a vector reduction using shufflevectors to reduce the value.			/// Generates a vector reduction using shufflevectors to reduce the value.
	Value getShuffleReduction(IRBuilder<> &Builder, Value Src, unsigned Op,			Value *
	RecurrenceDescriptor::MinMaxRecurrenceKind			getShuffleReduction(IRBuilder<> &Builder, Value Acc, Value Src, unsigned Op,
	MinMaxKind = RecurrenceDescriptor::MRK_Invalid,			RecurrenceDescriptor::MinMaxRecurrenceKind MinMaxKind =
				RecurrenceDescriptor::MRK_Invalid,
	ArrayRef<Value *> RedOps = None);			ArrayRef<Value *> RedOps = None);

	/// Create a target reduction of the given vector. The reduction operation			/// Create a target reduction of the given vector. The reduction operation
	/// is described by the \p Opcode parameter. min/max reductions require			/// is described by the \p Opcode parameter. min/max reductions require
	/// additional information supplied in \p Flags.			/// additional information supplied in \p Flags.
	/// The target is queried to determine if intrinsics or shuffle sequences are			/// The target is queried to determine if intrinsics or shuffle sequences are
	/// required to implement the reduction.			/// required to implement the reduction.
	Value *			Value *
	createSimpleTargetReduction(IRBuilder<> &B, const TargetTransformInfo *TTI,			createSimpleTargetReduction(IRBuilder<> &B, const TargetTransformInfo *TTI,
	Show All 22 Lines

lib/CodeGen/ExpandReductions.cpp

Show First 20 Lines • Show All 72 Lines • ▼ Show 20 Lines	case Intrinsic::experimental_vector_reduce_fmin:
return RecurrenceDescriptor::MRK_FloatMin;		return RecurrenceDescriptor::MRK_FloatMin;
default:		default:
return RecurrenceDescriptor::MRK_Invalid;		return RecurrenceDescriptor::MRK_Invalid;
}		}
}		}

bool expandReductions(Function &F, const TargetTransformInfo *TTI) {		bool expandReductions(Function &F, const TargetTransformInfo *TTI) {
bool Changed = false;		bool Changed = false;
SmallVector<IntrinsicInst*, 4> Worklist;		SmallVector<IntrinsicInst *, 4> Worklist;
for (inst_iterator I = inst_begin(F), E = inst_end(F); I != E; ++I)		for (inst_iterator I = inst_begin(F), E = inst_end(F); I != E; ++I)
if (auto II = dyn_cast<IntrinsicInst>(&*I))		if (auto II = dyn_cast<IntrinsicInst>(&*I))
Worklist.push_back(II);		Worklist.push_back(II);

for (auto *II : Worklist) {		for (auto *II : Worklist) {
IRBuilder<> Builder(II);		IRBuilder<> Builder(II);
		Value *Acc = nullptr;
Value *Vec = nullptr;		Value *Vec = nullptr;
auto ID = II->getIntrinsicID();		auto ID = II->getIntrinsicID();
auto MRK = RecurrenceDescriptor::MRK_Invalid;		auto MRK = RecurrenceDescriptor::MRK_Invalid;
switch (ID) {		switch (ID) {
case Intrinsic::experimental_vector_reduce_fadd:		case Intrinsic::experimental_vector_reduce_fadd:
case Intrinsic::experimental_vector_reduce_fmul:		case Intrinsic::experimental_vector_reduce_fmul:
// FMFs must be attached to the call, otherwise it's an ordered reduction		// FMFs must be attached to the call, otherwise it's an ordered reduction
// and it can't be handled by generating this shuffle sequence.		// and it can't be handled by generating this shuffle sequence.
// TODO: Implement scalarization of ordered reductions here for targets		// TODO: Implement scalarization of ordered reductions here for targets
// without native support.		// without native support.
if (!II->getFastMathFlags().isFast())		if (!II->getFastMathFlags().isFast())
continue;		continue;
		Acc = II->getArgOperand(0);
Vec = II->getArgOperand(1);		Vec = II->getArgOperand(1);
break;		break;
case Intrinsic::experimental_vector_reduce_add:		case Intrinsic::experimental_vector_reduce_add:
case Intrinsic::experimental_vector_reduce_mul:		case Intrinsic::experimental_vector_reduce_mul:
case Intrinsic::experimental_vector_reduce_and:		case Intrinsic::experimental_vector_reduce_and:
case Intrinsic::experimental_vector_reduce_or:		case Intrinsic::experimental_vector_reduce_or:
case Intrinsic::experimental_vector_reduce_xor:		case Intrinsic::experimental_vector_reduce_xor:
case Intrinsic::experimental_vector_reduce_smax:		case Intrinsic::experimental_vector_reduce_smax:
case Intrinsic::experimental_vector_reduce_smin:		case Intrinsic::experimental_vector_reduce_smin:
case Intrinsic::experimental_vector_reduce_umax:		case Intrinsic::experimental_vector_reduce_umax:
case Intrinsic::experimental_vector_reduce_umin:		case Intrinsic::experimental_vector_reduce_umin:
case Intrinsic::experimental_vector_reduce_fmax:		case Intrinsic::experimental_vector_reduce_fmax:
case Intrinsic::experimental_vector_reduce_fmin:		case Intrinsic::experimental_vector_reduce_fmin:
Vec = II->getArgOperand(0);		Vec = II->getArgOperand(0);
MRK = getMRK(ID);		MRK = getMRK(ID);
break;		break;
default:		default:
continue;		continue;
}		}
if (!TTI->shouldExpandReduction(II))		if (!TTI->shouldExpandReduction(II))
continue;		continue;
auto Rdx = getShuffleReduction(Builder, Vec, getOpcode(ID), MRK);		Value *Rdx = getShuffleReduction(Builder, Acc, Vec, getOpcode(ID), MRK);
II->replaceAllUsesWith(Rdx);		II->replaceAllUsesWith(Rdx);
II->eraseFromParent();		II->eraseFromParent();
Changed = true;		Changed = true;
}		}
return Changed;		return Changed;
}		}

class ExpandReductions : public FunctionPass {		class ExpandReductions : public FunctionPass {
Show All 38 Lines

lib/Transforms/Utils/LoopUtils.cpp

Show First 20 Lines • Show All 1,522 Lines • ▼ Show 20 Lines	if (isa<FPMathOperator>(V)) {
Flags.setFast();		Flags.setFast();
cast<Instruction>(V)->setFastMathFlags(Flags);		cast<Instruction>(V)->setFastMathFlags(Flags);
}		}
return V;		return V;
}		}

// Helper to generate a log2 shuffle reduction.		// Helper to generate a log2 shuffle reduction.
Value *		Value *
llvm::getShuffleReduction(IRBuilder<> &Builder, Value *Src, unsigned Op,		llvm::getShuffleReduction(IRBuilder<> &Builder, Value Acc, Value Src,
		unsigned Op,
RecurrenceDescriptor::MinMaxRecurrenceKind MinMaxKind,		RecurrenceDescriptor::MinMaxRecurrenceKind MinMaxKind,
ArrayRef<Value *> RedOps) {		ArrayRef<Value *> RedOps) {
unsigned VF = Src->getType()->getVectorNumElements();		unsigned VF = Src->getType()->getVectorNumElements();
// VF is a power of 2 so we can emit the reduction using log2(VF) shuffles		// VF is a power of 2 so we can emit the reduction using log2(VF) shuffles
// and vector ops, reducing the set of values being computed by half each		// and vector ops, reducing the set of values being computed by half each
// round.		// round.
assert(isPowerOf2_32(VF) &&		assert(isPowerOf2_32(VF) &&
"Reduction emission only supported for pow2 vectors!");		"Reduction emission only supported for pow2 vectors!");

		auto CreateReductionOp = [&](Value X, Value Y) {
		ABataevUnsubmitted Not Done Reply Inline Actions `auto`->`auto &&` It is a bad idea to capture everything by reference, most of the variables can be captured by value, like `Op` or `RedOps`. It is better to use explicit capturing rather than implict. ABataev: 1. `auto`->`auto &&` 2. It is a bad idea to capture everything by reference, most of the…
		Value *Result;
		if (Op != Instruction::ICmp && Op != Instruction::FCmp) {
		// Floating point operations had to be 'fast' to enable the reduction.
		gnzlbgUnsubmitted Not Done Reply Inline Actions Could you add a note explaining why this is the case? If this isn't the case adding fast math flags is going to have a lot of unexpected side-effects for the users. Is there a way to verify this or assert this? gnzlbg: Could you add a note explaining why this is the case? If this isn't the case adding fast math…
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions This is a cut and paste from the code below so I didn't introduce this - but for shuffle reduction you do have to assume fast math (see the equivalent comments further down in the createSimpleTargetReduction calling function). RKSimon: This is a cut and paste from the code below so I didn't introduce this - but for shuffle…
		gnzlbgUnsubmitted Not Done Reply Inline Actions but for shuffle reduction you do have to assume fast math I think one just needs to assume floating-point math to be associative, but one does not need to assume that floating-point math is, for example, finite. gnzlbg: > but for shuffle reduction you do have to assume fast math I think one just needs to assume…
		Result = addFastMathFlag(
		Builder.CreateBinOp((Instruction::BinaryOps)Op, X, Y, "bin.rdx"));
		} else {
		assert(MinMaxKind != RecurrenceDescriptor::MRK_Invalid &&
		"Invalid min/max");
		Result = RecurrenceDescriptor::createMinMaxOp(Builder, MinMaxKind, X, Y);
		}
		if (!RedOps.empty())
		propagateIRFlags(Result, RedOps);
		return Result;
		};

Value *TmpVec = Src;		Value *TmpVec = Src;
SmallVector<Constant *, 32> ShuffleMask(VF, nullptr);		SmallVector<Constant *, 32> ShuffleMask(VF, nullptr);
for (unsigned i = VF; i != 1; i >>= 1) {		for (unsigned i = VF; i != 1; i >>= 1) {
// Move the upper half of the vector to the lower half.		// Move the upper half of the vector to the lower half.
for (unsigned j = 0; j != i / 2; ++j)		for (unsigned j = 0; j != i / 2; ++j)
ShuffleMask[j] = Builder.getInt32(i / 2 + j);		ShuffleMask[j] = Builder.getInt32(i / 2 + j);

// Fill the rest of the mask with undef.		// Fill the rest of the mask with undef.
std::fill(&ShuffleMask[i / 2], ShuffleMask.end(),		std::fill(&ShuffleMask[i / 2], ShuffleMask.end(),
UndefValue::get(Builder.getInt32Ty()));		UndefValue::get(Builder.getInt32Ty()));

Value *Shuf = Builder.CreateShuffleVector(		Value *Shuf = Builder.CreateShuffleVector(
TmpVec, UndefValue::get(TmpVec->getType()),		TmpVec, UndefValue::get(TmpVec->getType()),
ConstantVector::get(ShuffleMask), "rdx.shuf");		ConstantVector::get(ShuffleMask), "rdx.shuf");

if (Op != Instruction::ICmp && Op != Instruction::FCmp) {		TmpVec = CreateReductionOp(TmpVec, Shuf);
// Floating point operations had to be 'fast' to enable the reduction.
TmpVec = addFastMathFlag(Builder.CreateBinOp((Instruction::BinaryOps)Op,
TmpVec, Shuf, "bin.rdx"));
} else {
assert(MinMaxKind != RecurrenceDescriptor::MRK_Invalid &&
"Invalid min/max");
TmpVec = RecurrenceDescriptor::createMinMaxOp(Builder, MinMaxKind, TmpVec,
Shuf);
}
if (!RedOps.empty())
propagateIRFlags(TmpVec, RedOps);
}		}

// The result is in the first element of the vector.		// The result is in the first element of the vector.
return Builder.CreateExtractElement(TmpVec, Builder.getInt32(0));		Value *Result = Builder.CreateExtractElement(TmpVec, Builder.getInt32(0));
		if (Acc)
		Result = CreateReductionOp(Acc, Result);
		ABataevUnsubmitted Not Done Reply Inline Actions Why are you excluding `UndefValue` here? If `Acc` is `Undef`, the `Result` must be `Undef` too, no? ABataev: Why are you excluding `UndefValue` here? If `Acc` is `Undef`, the `Result` must be `Undef` too…
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions Undef appears to have been used to ignore the accumulator.... @aemerson can you confirm please? RKSimon: Undef appears to have been used to ignore the accumulator.... @aemerson can you confirm please?
		aemersonUnsubmitted Not Done Reply Inline Actions I think I missed out a detail when I wrote the langref, original motivation of the scalar accumulator argument was for the use in strictly ordered FP reductions only. I.e. when the intrinsic call has no FMF flags attached then the accumulator argument is used, otherwise if there are no FMF flags then the argument is meant to be ignored. If we're talking about the semantics of the intrinsics: whether or not the accumulator is undef should have no effect on the codegen for fast reductions. If it did, as your patch implements, then @ABataev is right in that a value + undef = undef. We would then have to ensure that we generate identity values for the particular reduction kind in the cases where we don't have an accumulator. aemerson: I think I missed out a detail when I wrote the langref, original motivation of the scalar…
		return Result;
}		}

/// Create a simple vector reduction specified by an opcode and some		/// Create a simple vector reduction specified by an opcode and some
/// flags (if generating min/max reductions).		/// flags (if generating min/max reductions).
Value *llvm::createSimpleTargetReduction(		Value *llvm::createSimpleTargetReduction(
IRBuilder<> &Builder, const TargetTransformInfo *TTI, unsigned Opcode,		IRBuilder<> &Builder, const TargetTransformInfo *TTI, unsigned Opcode,
Value *Src, TargetTransformInfo::ReductionFlags Flags,		Value *Src, TargetTransformInfo::ReductionFlags Flags,
ArrayRef<Value *> RedOps) {		ArrayRef<Value *> RedOps) {
▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines	case Instruction::FCmp:
}		}
break;		break;
default:		default:
llvm_unreachable("Unhandled opcode");		llvm_unreachable("Unhandled opcode");
break;		break;
}		}
if (TTI->useReductionIntrinsic(Opcode, Src->getType(), Flags))		if (TTI->useReductionIntrinsic(Opcode, Src->getType(), Flags))
return BuildFunc();		return BuildFunc();
return getShuffleReduction(Builder, Src, Opcode, MinMaxKind, RedOps);		return getShuffleReduction(Builder, nullptr, Src, Opcode, MinMaxKind, RedOps);
}		}

/// Create a vector reduction using a given recurrence descriptor.		/// Create a vector reduction using a given recurrence descriptor.
Value *llvm::createTargetReduction(IRBuilder<> &B,		Value *llvm::createTargetReduction(IRBuilder<> &B,
const TargetTransformInfo *TTI,		const TargetTransformInfo *TTI,
RecurrenceDescriptor &Desc, Value *Src,		RecurrenceDescriptor &Desc, Value *Src,
bool NoNaN) {		bool NoNaN) {
// TODO: Support in-order reductions based on the recurrence descriptor.		// TODO: Support in-order reductions based on the recurrence descriptor.
▲ Show 20 Lines • Show All 52 Lines • Show Last 20 Lines

test/CodeGen/Generic/expand-experimental-reductions.ll

	Show First 20 Lines • Show All 86 Lines • ▼ Show 20 Lines
	define float @fadd_f32(<4 x float> %vec) {			define float @fadd_f32(<4 x float> %vec) {
	; CHECK-LABEL: @fadd_f32(			; CHECK-LABEL: @fadd_f32(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd fast <4 x float> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd fast <4 x float> [[VEC]], [[RDX_SHUF]]
	; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0
	; CHECK-NEXT: ret float [[TMP0]]			; CHECK-NEXT: [[BIN_RDX3:%.*]] = fadd fast float undef, [[TMP0]]
				; CHECK-NEXT: ret float [[BIN_RDX3]]
	;			;
	entry:			entry:
	%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %vec)			%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fadd_f32_accum(float %accum, <4 x float> %vec) {			define float @fadd_f32_accum(float %accum, <4 x float> %vec) {
	; CHECK-LABEL: @fadd_f32_accum(			; CHECK-LABEL: @fadd_f32_accum(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd fast <4 x float> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd fast <4 x float> [[VEC]], [[RDX_SHUF]]
	; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0
	; CHECK-NEXT: ret float [[TMP0]]			; CHECK-NEXT: [[BIN_RDX3:%.]] = fadd fast float [[ACCUM:%.]], [[TMP0]]
				; CHECK-NEXT: ret float [[BIN_RDX3]]
	;			;
	entry:			entry:
	%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %accum, <4 x float> %vec)			%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %accum, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

				ABataevUnsubmitted Not Done Reply Inline Actions Could you commit these tests separately as NFC and then update them using your changes to see the real effect of your patch? ABataev: Could you commit these tests separately as NFC and then update them using your changes to see…
	define float @fadd_f32_strict(<4 x float> %vec) {			define float @fadd_f32_strict(<4 x float> %vec) {
	; CHECK-LABEL: @fadd_f32_strict(			; CHECK-LABEL: @fadd_f32_strict(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[R:%.]] = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float undef, <4 x float> [[VEC:%.]])			; CHECK-NEXT: [[R:%.]] = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float undef, <4 x float> [[VEC:%.]])
	; CHECK-NEXT: ret float [[R]]			; CHECK-NEXT: ret float [[R]]
	;			;
	entry:			entry:
	%r = call float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %vec)			%r = call float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %vec)
	Show All 14 Lines
	define float @fmul_f32(<4 x float> %vec) {			define float @fmul_f32(<4 x float> %vec) {
	; CHECK-LABEL: @fmul_f32(			; CHECK-LABEL: @fmul_f32(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul fast <4 x float> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul fast <4 x float> [[VEC]], [[RDX_SHUF]]
	; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0
	; CHECK-NEXT: ret float [[TMP0]]			; CHECK-NEXT: [[BIN_RDX3:%.*]] = fmul fast float undef, [[TMP0]]
				; CHECK-NEXT: ret float [[BIN_RDX3]]
	;			;
	entry:			entry:
	%r = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %vec)			%r = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fmul_f32_accum(float %accum, <4 x float> %vec) {			define float @fmul_f32_accum(float %accum, <4 x float> %vec) {
	; CHECK-LABEL: @fmul_f32_accum(			; CHECK-LABEL: @fmul_f32_accum(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul fast <4 x float> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul fast <4 x float> [[VEC]], [[RDX_SHUF]]
	; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0
	; CHECK-NEXT: ret float [[TMP0]]			; CHECK-NEXT: [[BIN_RDX3:%.]] = fmul fast float [[ACCUM:%.]], [[TMP0]]
				; CHECK-NEXT: ret float [[BIN_RDX3]]
	;			;
	entry:			entry:
	%r = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %accum, <4 x float> %vec)			%r = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %accum, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fmul_f32_strict(<4 x float> %vec) {			define float @fmul_f32_strict(<4 x float> %vec) {
	; CHECK-LABEL: @fmul_f32_strict(			; CHECK-LABEL: @fmul_f32_strict(
	▲ Show 20 Lines • Show All 103 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-reduce-fadd-fast.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE41			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE41
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512BW			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512BW
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512VL			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512VL

	;			;
	; vXf32 (accum)			; vXf32 (accum)
	;			;

	define float @test_v2f32(float %a0, <2 x float> %a1) {			define float @test_v2f32(float %a0, <2 x float> %a1) {
	; SSE2-LABEL: test_v2f32:			; SSE2-LABEL: test_v2f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm1[2,3]
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addps %xmm1, %xmm2
				; SSE2-NEXT: addss %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2f32:			; SSE41-LABEL: test_v2f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: haddps %xmm1, %xmm1			; SSE41-NEXT: haddps %xmm1, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f32:			; AVX-LABEL: test_v2f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vhaddps %xmm1, %xmm1, %xmm0			; AVX-NEXT: vhaddps %xmm1, %xmm1, %xmm1
				; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32:			; AVX512-LABEL: test_v2f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vhaddps %xmm1, %xmm1, %xmm0			; AVX512-NEXT: vhaddps %xmm1, %xmm1, %xmm1
				; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float %a0, <2 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float %a0, <2 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(float %a0, <4 x float> %a1) {			define float @test_v4f32(float %a0, <4 x float> %a1) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]			; SSE2-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]
	; SSE2-NEXT: addps %xmm1, %xmm2			; SSE2-NEXT: addps %xmm1, %xmm2
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm2[2,3]
	; SSE2-NEXT: addps %xmm2, %xmm0			; SSE2-NEXT: addps %xmm2, %xmm1
				; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v4f32:			; SSE41-LABEL: test_v4f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm2
	; SSE41-NEXT: movhlps {{.*#+}} xmm0 = xmm1[1],xmm0[1]			; SSE41-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]
	; SSE41-NEXT: addps %xmm1, %xmm0			; SSE41-NEXT: addps %xmm1, %xmm2
	; SSE41-NEXT: haddps %xmm0, %xmm0			; SSE41-NEXT: haddps %xmm2, %xmm2
				; SSE41-NEXT: addss %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32:			; AVX-LABEL: test_v4f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-NEXT: vhaddps %xmm1, %xmm1, %xmm1
				; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vhaddps %xmm1, %xmm1, %xmm1
				; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float %a0, <4 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float %a0, <4 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32(float %a0, <8 x float> %a1) {			define float @test_v8f32(float %a0, <8 x float> %a1) {
	; SSE2-LABEL: test_v8f32:			; SSE2-LABEL: test_v8f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm2, %xmm1			; SSE2-NEXT: addps %xmm2, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]			; SSE2-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]
	; SSE2-NEXT: addps %xmm1, %xmm2			; SSE2-NEXT: addps %xmm1, %xmm2
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm2[2,3]
	; SSE2-NEXT: addps %xmm2, %xmm0			; SSE2-NEXT: addps %xmm2, %xmm1
				; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8f32:			; SSE41-LABEL: test_v8f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: addps %xmm2, %xmm1			; SSE41-NEXT: addps %xmm2, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm2
	; SSE41-NEXT: movhlps {{.*#+}} xmm0 = xmm1[1],xmm0[1]			; SSE41-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]
	; SSE41-NEXT: addps %xmm1, %xmm0			; SSE41-NEXT: addps %xmm1, %xmm2
	; SSE41-NEXT: haddps %xmm0, %xmm0			; SSE41-NEXT: haddps %xmm2, %xmm2
				; SSE41-NEXT: addss %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-NEXT: vaddps %ymm0, %ymm1, %ymm0			; AVX-NEXT: vaddps %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vhaddps %ymm0, %ymm0, %ymm0			; AVX-NEXT: vhaddps %ymm1, %ymm1, %ymm1
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vaddps %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vaddps %ymm2, %ymm1, %ymm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddps %ymm2, %ymm1, %ymm1
	; AVX512-NEXT: vhaddps %ymm0, %ymm0, %ymm0			; AVX512-NEXT: vhaddps %ymm1, %ymm1, %ymm1
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(float %a0, <16 x float> %a1) {			define float @test_v16f32(float %a0, <16 x float> %a1) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm4, %xmm2			; SSE2-NEXT: addps %xmm4, %xmm2
	; SSE2-NEXT: addps %xmm3, %xmm1			; SSE2-NEXT: addps %xmm3, %xmm1
	; SSE2-NEXT: addps %xmm2, %xmm1			; SSE2-NEXT: addps %xmm2, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]			; SSE2-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]
	; SSE2-NEXT: addps %xmm1, %xmm2			; SSE2-NEXT: addps %xmm1, %xmm2
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm2[2,3]
	; SSE2-NEXT: addps %xmm2, %xmm0			; SSE2-NEXT: addps %xmm2, %xmm1
				; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16f32:			; SSE41-LABEL: test_v16f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: addps %xmm4, %xmm2			; SSE41-NEXT: addps %xmm4, %xmm2
	; SSE41-NEXT: addps %xmm3, %xmm1			; SSE41-NEXT: addps %xmm3, %xmm1
	; SSE41-NEXT: addps %xmm2, %xmm1			; SSE41-NEXT: addps %xmm2, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm2
	; SSE41-NEXT: movhlps {{.*#+}} xmm0 = xmm1[1],xmm0[1]			; SSE41-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]
	; SSE41-NEXT: addps %xmm1, %xmm0			; SSE41-NEXT: addps %xmm1, %xmm2
	; SSE41-NEXT: haddps %xmm0, %xmm0			; SSE41-NEXT: haddps %xmm2, %xmm2
				; SSE41-NEXT: addss %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32:			; AVX-LABEL: test_v16f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddps %ymm2, %ymm1, %ymm0			; AVX-NEXT: vaddps %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vhaddps %ymm0, %ymm0, %ymm0			; AVX-NEXT: vhaddps %ymm1, %ymm1, %ymm1
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2
	; AVX512-NEXT: vaddps %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vaddps %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (zero)			; vXf32 (zero)
	▲ Show 20 Lines • Show All 170 Lines • ▼ Show 20 Lines
	;			;

	define float @test_v2f32_undef(<2 x float> %a0) {			define float @test_v2f32_undef(<2 x float> %a0) {
	; SSE2-LABEL: test_v2f32_undef:			; SSE2-LABEL: test_v2f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
	; SSE2-NEXT: addps %xmm0, %xmm1			; SSE2-NEXT: addps %xmm0, %xmm1
				; SSE2-NEXT: addss %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2f32_undef:			; SSE41-LABEL: test_v2f32_undef:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: haddps %xmm0, %xmm0			; SSE41-NEXT: haddps %xmm0, %xmm0
				; SSE41-NEXT: addss %xmm0, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f32_undef:			; AVX-LABEL: test_v2f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0
				; AVX-NEXT: vaddss %xmm0, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_undef:			; AVX512-LABEL: test_v2f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vhaddps %xmm0, %xmm0, %xmm0
				; AVX512-NEXT: vaddss %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float undef, <2 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float undef, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_undef(<4 x float> %a0) {			define float @test_v4f32_undef(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_undef:			; SSE2-LABEL: test_v4f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]			; SSE2-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
	; SSE2-NEXT: addps %xmm0, %xmm1			; SSE2-NEXT: addps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addps %xmm1, %xmm0
				; SSE2-NEXT: addss %xmm0, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v4f32_undef:			; SSE41-LABEL: test_v4f32_undef:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]			; SSE41-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
	; SSE41-NEXT: addps %xmm0, %xmm1			; SSE41-NEXT: addps %xmm0, %xmm1
	; SSE41-NEXT: haddps %xmm1, %xmm1			; SSE41-NEXT: haddps %xmm1, %xmm1
				; SSE41-NEXT: addss %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32_undef:			; AVX-LABEL: test_v4f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0
				; AVX-NEXT: vaddss %xmm0, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_undef:			; AVX512-LABEL: test_v4f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vhaddps %xmm0, %xmm0, %xmm0
				; AVX512-NEXT: vaddss %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float undef, <4 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float undef, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_undef(<8 x float> %a0) {			define float @test_v8f32_undef(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_undef:			; SSE2-LABEL: test_v8f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]			; SSE2-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
	; SSE2-NEXT: addps %xmm0, %xmm1			; SSE2-NEXT: addps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addps %xmm1, %xmm0
				; SSE2-NEXT: addss %xmm0, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8f32_undef:			; SSE41-LABEL: test_v8f32_undef:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: addps %xmm1, %xmm0			; SSE41-NEXT: addps %xmm1, %xmm0
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]			; SSE41-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
	; SSE41-NEXT: addps %xmm0, %xmm1			; SSE41-NEXT: addps %xmm0, %xmm1
	; SSE41-NEXT: haddps %xmm1, %xmm1			; SSE41-NEXT: haddps %xmm1, %xmm1
				; SSE41-NEXT: addss %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32_undef:			; AVX-LABEL: test_v8f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vhaddps %ymm0, %ymm0, %ymm0			; AVX-NEXT: vhaddps %ymm0, %ymm0, %ymm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX-NEXT: vaddss %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_undef:			; AVX512-LABEL: test_v8f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vhaddps %ymm0, %ymm0, %ymm0			; AVX512-NEXT: vhaddps %ymm0, %ymm0, %ymm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX512-NEXT: vaddss %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float undef, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float undef, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_undef(<16 x float> %a0) {			define float @test_v16f32_undef(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_undef:			; SSE2-LABEL: test_v16f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm3, %xmm1			; SSE2-NEXT: addps %xmm3, %xmm1
	; SSE2-NEXT: addps %xmm2, %xmm0			; SSE2-NEXT: addps %xmm2, %xmm0
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]			; SSE2-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
	; SSE2-NEXT: addps %xmm0, %xmm1			; SSE2-NEXT: addps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addps %xmm1, %xmm0
				; SSE2-NEXT: addss %xmm0, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16f32_undef:			; SSE41-LABEL: test_v16f32_undef:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: addps %xmm3, %xmm1			; SSE41-NEXT: addps %xmm3, %xmm1
	; SSE41-NEXT: addps %xmm2, %xmm0			; SSE41-NEXT: addps %xmm2, %xmm0
	; SSE41-NEXT: addps %xmm1, %xmm0			; SSE41-NEXT: addps %xmm1, %xmm0
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]			; SSE41-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
	; SSE41-NEXT: addps %xmm0, %xmm1			; SSE41-NEXT: addps %xmm0, %xmm1
	; SSE41-NEXT: haddps %xmm1, %xmm1			; SSE41-NEXT: haddps %xmm1, %xmm1
				; SSE41-NEXT: addss %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32_undef:			; AVX-LABEL: test_v16f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vhaddps %ymm0, %ymm0, %ymm0			; AVX-NEXT: vhaddps %ymm0, %ymm0, %ymm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX-NEXT: vaddss %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_undef:			; AVX512-LABEL: test_v16f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512-NEXT: vaddss %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float undef, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float undef, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	;			;

	define double @test_v2f64(double %a0, <2 x double> %a1) {			define double @test_v2f64(double %a0, <2 x double> %a1) {
	; SSE2-LABEL: test_v2f64:			; SSE2-LABEL: test_v2f64:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: movhlps {{.*#+}} xmm0 = xmm1[1],xmm0[1]			; SSE2-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]
	; SSE2-NEXT: addpd %xmm1, %xmm0			; SSE2-NEXT: addpd %xmm1, %xmm2
				; SSE2-NEXT: addsd %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2f64:			; SSE41-LABEL: test_v2f64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: haddpd %xmm1, %xmm1			; SSE41-NEXT: haddpd %xmm1, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm0			; SSE41-NEXT: addsd %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64:			; AVX-LABEL: test_v2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vhaddpd %xmm1, %xmm1, %xmm0			; AVX-NEXT: vhaddpd %xmm1, %xmm1, %xmm1
				; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vhaddpd %xmm1, %xmm1, %xmm0			; AVX512-NEXT: vhaddpd %xmm1, %xmm1, %xmm1
				; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double %a0, <2 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double %a0, <2 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(double %a0, <4 x double> %a1) {			define double @test_v4f64(double %a0, <4 x double> %a1) {
	; SSE2-LABEL: test_v4f64:			; SSE2-LABEL: test_v4f64:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addpd %xmm2, %xmm1			; SSE2-NEXT: addpd %xmm2, %xmm1
	; SSE2-NEXT: movapd %xmm1, %xmm0			; SSE2-NEXT: movapd %xmm1, %xmm2
	; SSE2-NEXT: movhlps {{.*#+}} xmm0 = xmm1[1],xmm0[1]			; SSE2-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]
	; SSE2-NEXT: addpd %xmm1, %xmm0			; SSE2-NEXT: addpd %xmm1, %xmm2
				; SSE2-NEXT: addsd %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v4f64:			; SSE41-LABEL: test_v4f64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: addpd %xmm2, %xmm1			; SSE41-NEXT: addpd %xmm2, %xmm1
	; SSE41-NEXT: haddpd %xmm1, %xmm1			; SSE41-NEXT: haddpd %xmm1, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm0			; SSE41-NEXT: addsd %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-NEXT: vaddpd %ymm0, %ymm1, %ymm0			; AVX-NEXT: vaddpd %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vhaddpd %ymm0, %ymm0, %ymm0			; AVX-NEXT: vhaddpd %ymm1, %ymm1, %ymm1
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vaddpd %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vaddpd %ymm2, %ymm1, %ymm1
	; AVX512-NEXT: vhaddpd %ymm0, %ymm0, %ymm0			; AVX512-NEXT: vhaddpd %ymm1, %ymm1, %ymm1
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	; SSE2-LABEL: test_v8f64:			; SSE2-LABEL: test_v8f64:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addpd %xmm4, %xmm2			; SSE2-NEXT: addpd %xmm4, %xmm2
	; SSE2-NEXT: addpd %xmm3, %xmm1			; SSE2-NEXT: addpd %xmm3, %xmm1
	; SSE2-NEXT: addpd %xmm2, %xmm1			; SSE2-NEXT: addpd %xmm2, %xmm1
	; SSE2-NEXT: movapd %xmm1, %xmm0			; SSE2-NEXT: movapd %xmm1, %xmm2
	; SSE2-NEXT: movhlps {{.*#+}} xmm0 = xmm1[1],xmm0[1]			; SSE2-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]
	; SSE2-NEXT: addpd %xmm1, %xmm0			; SSE2-NEXT: addpd %xmm1, %xmm2
				; SSE2-NEXT: addsd %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8f64:			; SSE41-LABEL: test_v8f64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: addpd %xmm4, %xmm2			; SSE41-NEXT: addpd %xmm4, %xmm2
	; SSE41-NEXT: addpd %xmm3, %xmm1			; SSE41-NEXT: addpd %xmm3, %xmm1
	; SSE41-NEXT: addpd %xmm2, %xmm1			; SSE41-NEXT: addpd %xmm2, %xmm1
	; SSE41-NEXT: haddpd %xmm1, %xmm1			; SSE41-NEXT: haddpd %xmm1, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm0			; SSE41-NEXT: addsd %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm2, %ymm1, %ymm0			; AVX-NEXT: vaddpd %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vhaddpd %ymm0, %ymm0, %ymm0			; AVX-NEXT: vhaddpd %ymm1, %ymm1, %ymm1
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2
	; AVX512-NEXT: vaddpd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(double %a0, <16 x double> %a1) {			define double @test_v16f64(double %a0, <16 x double> %a1) {
	; SSE2-LABEL: test_v16f64:			; SSE2-LABEL: test_v16f64:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addpd %xmm6, %xmm2			; SSE2-NEXT: addpd %xmm6, %xmm2
	; SSE2-NEXT: addpd %xmm7, %xmm3			; SSE2-NEXT: addpd %xmm7, %xmm3
	; SSE2-NEXT: addpd %xmm5, %xmm1			; SSE2-NEXT: addpd %xmm5, %xmm1
	; SSE2-NEXT: addpd %xmm3, %xmm1			; SSE2-NEXT: addpd %xmm3, %xmm1
	; SSE2-NEXT: addpd {{[0-9]+}}(%rsp), %xmm4			; SSE2-NEXT: addpd {{[0-9]+}}(%rsp), %xmm4
	; SSE2-NEXT: addpd %xmm2, %xmm4			; SSE2-NEXT: addpd %xmm2, %xmm4
	; SSE2-NEXT: addpd %xmm1, %xmm4			; SSE2-NEXT: addpd %xmm1, %xmm4
	; SSE2-NEXT: movapd %xmm4, %xmm0			; SSE2-NEXT: movapd %xmm4, %xmm1
	; SSE2-NEXT: movhlps {{.*#+}} xmm0 = xmm4[1],xmm0[1]			; SSE2-NEXT: movhlps {{.*#+}} xmm1 = xmm4[1],xmm1[1]
	; SSE2-NEXT: addpd %xmm4, %xmm0			; SSE2-NEXT: addpd %xmm4, %xmm1
				; SSE2-NEXT: addsd %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16f64:			; SSE41-LABEL: test_v16f64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: addpd %xmm6, %xmm2			; SSE41-NEXT: addpd %xmm6, %xmm2
	; SSE41-NEXT: addpd %xmm7, %xmm3			; SSE41-NEXT: addpd %xmm7, %xmm3
	; SSE41-NEXT: addpd %xmm5, %xmm1			; SSE41-NEXT: addpd %xmm5, %xmm1
	; SSE41-NEXT: addpd %xmm3, %xmm1			; SSE41-NEXT: addpd %xmm3, %xmm1
	; SSE41-NEXT: addpd {{[0-9]+}}(%rsp), %xmm4			; SSE41-NEXT: addpd {{[0-9]+}}(%rsp), %xmm4
	; SSE41-NEXT: addpd %xmm2, %xmm4			; SSE41-NEXT: addpd %xmm2, %xmm4
	; SSE41-NEXT: addpd %xmm1, %xmm4			; SSE41-NEXT: addpd %xmm1, %xmm4
	; SSE41-NEXT: haddpd %xmm4, %xmm4			; SSE41-NEXT: haddpd %xmm4, %xmm4
	; SSE41-NEXT: movapd %xmm4, %xmm0			; SSE41-NEXT: addsd %xmm4, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64:			; AVX-LABEL: test_v16f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm4, %ymm2, %ymm0			; AVX-NEXT: vaddpd %ymm4, %ymm2, %ymm2
	; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vaddpd %ymm0, %ymm1, %ymm0			; AVX-NEXT: vaddpd %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vhaddpd %ymm0, %ymm0, %ymm0			; AVX-NEXT: vhaddpd %ymm1, %ymm1, %ymm1
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm0			; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (zero)			; vXf64 (zero)
	▲ Show 20 Lines • Show All 169 Lines • ▼ Show 20 Lines
	;			;

	define double @test_v2f64_undef(<2 x double> %a0) {			define double @test_v2f64_undef(<2 x double> %a0) {
	; SSE2-LABEL: test_v2f64_undef:			; SSE2-LABEL: test_v2f64_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]			; SSE2-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
	; SSE2-NEXT: addpd %xmm0, %xmm1			; SSE2-NEXT: addpd %xmm0, %xmm1
				; SSE2-NEXT: addsd %xmm0, %xmm1
	; SSE2-NEXT: movapd %xmm1, %xmm0			; SSE2-NEXT: movapd %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2f64_undef:			; SSE41-LABEL: test_v2f64_undef:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: haddpd %xmm0, %xmm0			; SSE41-NEXT: haddpd %xmm0, %xmm0
				; SSE41-NEXT: addsd %xmm0, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64_undef:			; AVX-LABEL: test_v2f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
				; AVX-NEXT: vaddsd %xmm0, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_undef:			; AVX512-LABEL: test_v2f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
				; AVX512-NEXT: vaddsd %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double undef, <2 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double undef, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_undef(<4 x double> %a0) {			define double @test_v4f64_undef(<4 x double> %a0) {
	; SSE2-LABEL: test_v4f64_undef:			; SSE2-LABEL: test_v4f64_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addpd %xmm1, %xmm0			; SSE2-NEXT: addpd %xmm1, %xmm0
	; SSE2-NEXT: movapd %xmm0, %xmm1			; SSE2-NEXT: movapd %xmm0, %xmm1
	; SSE2-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]			; SSE2-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
	; SSE2-NEXT: addpd %xmm0, %xmm1			; SSE2-NEXT: addpd %xmm0, %xmm1
				; SSE2-NEXT: addsd %xmm0, %xmm1
	; SSE2-NEXT: movapd %xmm1, %xmm0			; SSE2-NEXT: movapd %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v4f64_undef:			; SSE41-LABEL: test_v4f64_undef:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: addpd %xmm1, %xmm0			; SSE41-NEXT: addpd %xmm1, %xmm0
	; SSE41-NEXT: haddpd %xmm0, %xmm0			; SSE41-NEXT: haddpd %xmm0, %xmm0
				; SSE41-NEXT: addsd %xmm0, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64_undef:			; AVX-LABEL: test_v4f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vhaddpd %ymm0, %ymm0, %ymm0			; AVX-NEXT: vhaddpd %ymm0, %ymm0, %ymm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX-NEXT: vaddsd %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_undef:			; AVX512-LABEL: test_v4f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vhaddpd %ymm0, %ymm0, %ymm0			; AVX512-NEXT: vhaddpd %ymm0, %ymm0, %ymm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX512-NEXT: vaddsd %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double undef, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double undef, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE2-LABEL: test_v8f64_undef:			; SSE2-LABEL: test_v8f64_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addpd %xmm3, %xmm1			; SSE2-NEXT: addpd %xmm3, %xmm1
	; SSE2-NEXT: addpd %xmm2, %xmm0			; SSE2-NEXT: addpd %xmm2, %xmm0
	; SSE2-NEXT: addpd %xmm1, %xmm0			; SSE2-NEXT: addpd %xmm1, %xmm0
	; SSE2-NEXT: movapd %xmm0, %xmm1			; SSE2-NEXT: movapd %xmm0, %xmm1
	; SSE2-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]			; SSE2-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
	; SSE2-NEXT: addpd %xmm0, %xmm1			; SSE2-NEXT: addpd %xmm0, %xmm1
				; SSE2-NEXT: addsd %xmm0, %xmm1
	; SSE2-NEXT: movapd %xmm1, %xmm0			; SSE2-NEXT: movapd %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8f64_undef:			; SSE41-LABEL: test_v8f64_undef:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: addpd %xmm3, %xmm1			; SSE41-NEXT: addpd %xmm3, %xmm1
	; SSE41-NEXT: addpd %xmm2, %xmm0			; SSE41-NEXT: addpd %xmm2, %xmm0
	; SSE41-NEXT: addpd %xmm1, %xmm0			; SSE41-NEXT: addpd %xmm1, %xmm0
	; SSE41-NEXT: haddpd %xmm0, %xmm0			; SSE41-NEXT: haddpd %xmm0, %xmm0
				; SSE41-NEXT: addsd %xmm0, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64_undef:			; AVX-LABEL: test_v8f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vhaddpd %ymm0, %ymm0, %ymm0			; AVX-NEXT: vhaddpd %ymm0, %ymm0, %ymm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX-NEXT: vaddsd %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_undef:			; AVX512-LABEL: test_v8f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double undef, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double undef, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	; SSE2-LABEL: test_v16f64_undef:			; SSE2-LABEL: test_v16f64_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addpd %xmm6, %xmm2			; SSE2-NEXT: addpd %xmm6, %xmm2
	; SSE2-NEXT: addpd %xmm4, %xmm0			; SSE2-NEXT: addpd %xmm4, %xmm0
	; SSE2-NEXT: addpd %xmm2, %xmm0			; SSE2-NEXT: addpd %xmm2, %xmm0
	; SSE2-NEXT: addpd %xmm7, %xmm3			; SSE2-NEXT: addpd %xmm7, %xmm3
	; SSE2-NEXT: addpd %xmm5, %xmm1			; SSE2-NEXT: addpd %xmm5, %xmm1
	; SSE2-NEXT: addpd %xmm3, %xmm1			; SSE2-NEXT: addpd %xmm3, %xmm1
	; SSE2-NEXT: addpd %xmm0, %xmm1			; SSE2-NEXT: addpd %xmm0, %xmm1
	; SSE2-NEXT: movapd %xmm1, %xmm0			; SSE2-NEXT: movapd %xmm1, %xmm0
	; SSE2-NEXT: movhlps {{.*#+}} xmm0 = xmm1[1],xmm0[1]			; SSE2-NEXT: movhlps {{.*#+}} xmm0 = xmm1[1],xmm0[1]
	; SSE2-NEXT: addpd %xmm1, %xmm0			; SSE2-NEXT: addpd %xmm1, %xmm0
				; SSE2-NEXT: addsd %xmm0, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16f64_undef:			; SSE41-LABEL: test_v16f64_undef:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: addpd %xmm6, %xmm2			; SSE41-NEXT: addpd %xmm6, %xmm2
	; SSE41-NEXT: addpd %xmm4, %xmm0			; SSE41-NEXT: addpd %xmm4, %xmm0
	; SSE41-NEXT: addpd %xmm2, %xmm0			; SSE41-NEXT: addpd %xmm2, %xmm0
	; SSE41-NEXT: addpd %xmm7, %xmm3			; SSE41-NEXT: addpd %xmm7, %xmm3
	; SSE41-NEXT: addpd %xmm5, %xmm1			; SSE41-NEXT: addpd %xmm5, %xmm1
	; SSE41-NEXT: addpd %xmm3, %xmm1			; SSE41-NEXT: addpd %xmm3, %xmm1
	; SSE41-NEXT: addpd %xmm0, %xmm1			; SSE41-NEXT: addpd %xmm0, %xmm1
	; SSE41-NEXT: haddpd %xmm1, %xmm1			; SSE41-NEXT: haddpd %xmm1, %xmm1
				; SSE41-NEXT: addsd %xmm0, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm0			; SSE41-NEXT: movapd %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64_undef:			; AVX-LABEL: test_v16f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vaddpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vhaddpd %ymm0, %ymm0, %ymm0			; AVX-NEXT: vhaddpd %ymm0, %ymm0, %ymm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX-NEXT: vaddsd %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_undef:			; AVX512-LABEL: test_v16f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double undef, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double undef, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float, <2 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float, <8 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float, <16 x float>)

	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double, <2 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double, <4 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double, <8 x double>)			declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double, <8 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double, <16 x double>)			declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double, <16 x double>)

test/CodeGen/X86/vector-reduce-fmul-fast.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE41			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE41
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512BW			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512BW
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512VL			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512VL

	;			;
	; vXf32 (accum)			; vXf32 (accum)
	;			;

	define float @test_v2f32(float %a0, <2 x float> %a1) {			define float @test_v2f32(float %a0, <2 x float> %a1) {
	; SSE2-LABEL: test_v2f32:			; SSE2-LABEL: test_v2f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm1[2,3]
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulps %xmm1, %xmm2
				; SSE2-NEXT: mulss %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2f32:			; SSE41-LABEL: test_v2f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; SSE41-NEXT: mulps %xmm1, %xmm0			; SSE41-NEXT: mulps %xmm1, %xmm2
				; SSE41-NEXT: mulss %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f32:			; AVX-LABEL: test_v2f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vmulps %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulps %xmm2, %xmm1, %xmm1
				; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32:			; AVX512-LABEL: test_v2f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulps %xmm2, %xmm1, %xmm1
				; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float %a0, <2 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float %a0, <2 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(float %a0, <4 x float> %a1) {			define float @test_v4f32(float %a0, <4 x float> %a1) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]			; SSE2-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]
	; SSE2-NEXT: mulps %xmm1, %xmm2			; SSE2-NEXT: mulps %xmm1, %xmm2
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm2[2,3]
	; SSE2-NEXT: mulps %xmm2, %xmm0			; SSE2-NEXT: mulps %xmm2, %xmm1
				; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v4f32:			; SSE41-LABEL: test_v4f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movaps %xmm1, %xmm2			; SSE41-NEXT: movaps %xmm1, %xmm2
	; SSE41-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]			; SSE41-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]
	; SSE41-NEXT: mulps %xmm1, %xmm2			; SSE41-NEXT: mulps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSE41-NEXT: mulps %xmm2, %xmm0			; SSE41-NEXT: mulps %xmm2, %xmm1
				; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32:			; AVX-LABEL: test_v4f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulps %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm2, %xmm1, %xmm1
				; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm2, %xmm1, %xmm1
				; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float %a0, <4 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float %a0, <4 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32(float %a0, <8 x float> %a1) {			define float @test_v8f32(float %a0, <8 x float> %a1) {
	; SSE2-LABEL: test_v8f32:			; SSE2-LABEL: test_v8f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm2, %xmm1			; SSE2-NEXT: mulps %xmm2, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]			; SSE2-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]
	; SSE2-NEXT: mulps %xmm1, %xmm2			; SSE2-NEXT: mulps %xmm1, %xmm2
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm2[2,3]
	; SSE2-NEXT: mulps %xmm2, %xmm0			; SSE2-NEXT: mulps %xmm2, %xmm1
				; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8f32:			; SSE41-LABEL: test_v8f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: mulps %xmm2, %xmm1			; SSE41-NEXT: mulps %xmm2, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm2			; SSE41-NEXT: movaps %xmm1, %xmm2
	; SSE41-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]			; SSE41-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]
	; SSE41-NEXT: mulps %xmm1, %xmm2			; SSE41-NEXT: mulps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSE41-NEXT: mulps %xmm2, %xmm0			; SSE41-NEXT: mulps %xmm2, %xmm1
				; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-NEXT: vmulps %ymm0, %ymm1, %ymm0			; AVX-NEXT: vmulps %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm2, %ymm1, %ymm1
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vmulps %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vmulps %ymm2, %ymm1, %ymm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulps %ymm2, %ymm1, %ymm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulps %ymm2, %ymm1, %ymm1
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(float %a0, <16 x float> %a1) {			define float @test_v16f32(float %a0, <16 x float> %a1) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm4, %xmm2			; SSE2-NEXT: mulps %xmm4, %xmm2
	; SSE2-NEXT: mulps %xmm3, %xmm1			; SSE2-NEXT: mulps %xmm3, %xmm1
	; SSE2-NEXT: mulps %xmm2, %xmm1			; SSE2-NEXT: mulps %xmm2, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]			; SSE2-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]
	; SSE2-NEXT: mulps %xmm1, %xmm2			; SSE2-NEXT: mulps %xmm1, %xmm2
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm2[2,3]
	; SSE2-NEXT: mulps %xmm2, %xmm0			; SSE2-NEXT: mulps %xmm2, %xmm1
				; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16f32:			; SSE41-LABEL: test_v16f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: mulps %xmm4, %xmm2			; SSE41-NEXT: mulps %xmm4, %xmm2
	; SSE41-NEXT: mulps %xmm3, %xmm1			; SSE41-NEXT: mulps %xmm3, %xmm1
	; SSE41-NEXT: mulps %xmm2, %xmm1			; SSE41-NEXT: mulps %xmm2, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm2			; SSE41-NEXT: movaps %xmm1, %xmm2
	; SSE41-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]			; SSE41-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]
	; SSE41-NEXT: mulps %xmm1, %xmm2			; SSE41-NEXT: mulps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSE41-NEXT: mulps %xmm2, %xmm0			; SSE41-NEXT: mulps %xmm2, %xmm1
				; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32:			; AVX-LABEL: test_v16f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulps %ymm2, %ymm1, %ymm0			; AVX-NEXT: vmulps %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm2, %ymm1, %ymm1
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2
	; AVX512-NEXT: vmulps %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vmulps %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (one)			; vXf32 (one)
	▲ Show 20 Lines • Show All 181 Lines • ▼ Show 20 Lines
	;			;

	define float @test_v2f32_undef(<2 x float> %a0) {			define float @test_v2f32_undef(<2 x float> %a0) {
	; SSE2-LABEL: test_v2f32_undef:			; SSE2-LABEL: test_v2f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
	; SSE2-NEXT: mulps %xmm0, %xmm1			; SSE2-NEXT: mulps %xmm0, %xmm1
				; SSE2-NEXT: mulss %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2f32_undef:			; SSE41-LABEL: test_v2f32_undef:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: mulps %xmm1, %xmm0			; SSE41-NEXT: mulps %xmm1, %xmm0
				; SSE41-NEXT: mulss %xmm0, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f32_undef:			; AVX-LABEL: test_v2f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
				; AVX-NEXT: vmulss %xmm0, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_undef:			; AVX512-LABEL: test_v2f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vmulss %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float undef, <2 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float undef, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_undef(<4 x float> %a0) {			define float @test_v4f32_undef(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_undef:			; SSE2-LABEL: test_v4f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]			; SSE2-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
	; SSE2-NEXT: mulps %xmm0, %xmm1			; SSE2-NEXT: mulps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulps %xmm1, %xmm0
				; SSE2-NEXT: mulss %xmm0, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v4f32_undef:			; SSE41-LABEL: test_v4f32_undef:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]			; SSE41-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulps %xmm0, %xmm1
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulps %xmm0, %xmm1
				; SSE41-NEXT: mulss %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32_undef:			; AVX-LABEL: test_v4f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
				; AVX-NEXT: vmulss %xmm0, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32_undef:			; AVX512-LABEL: test_v4f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vmulss %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float undef, <4 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float undef, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_undef(<8 x float> %a0) {			define float @test_v8f32_undef(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_undef:			; SSE2-LABEL: test_v8f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]			; SSE2-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
	; SSE2-NEXT: mulps %xmm0, %xmm1			; SSE2-NEXT: mulps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulps %xmm1, %xmm0
				; SSE2-NEXT: mulss %xmm0, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8f32_undef:			; SSE41-LABEL: test_v8f32_undef:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: mulps %xmm1, %xmm0			; SSE41-NEXT: mulps %xmm1, %xmm0
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]			; SSE41-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulps %xmm0, %xmm1
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulps %xmm0, %xmm1
				; SSE41-NEXT: mulss %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32_undef:			; AVX-LABEL: test_v8f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX-NEXT: vmulss %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_undef:			; AVX512-LABEL: test_v8f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX512-NEXT: vmulss %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float undef, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float undef, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_undef(<16 x float> %a0) {			define float @test_v16f32_undef(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_undef:			; SSE2-LABEL: test_v16f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm3, %xmm1			; SSE2-NEXT: mulps %xmm3, %xmm1
	; SSE2-NEXT: mulps %xmm2, %xmm0			; SSE2-NEXT: mulps %xmm2, %xmm0
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]			; SSE2-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
	; SSE2-NEXT: mulps %xmm0, %xmm1			; SSE2-NEXT: mulps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulps %xmm1, %xmm0
				; SSE2-NEXT: mulss %xmm0, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16f32_undef:			; SSE41-LABEL: test_v16f32_undef:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: mulps %xmm3, %xmm1			; SSE41-NEXT: mulps %xmm3, %xmm1
	; SSE41-NEXT: mulps %xmm2, %xmm0			; SSE41-NEXT: mulps %xmm2, %xmm0
	; SSE41-NEXT: mulps %xmm1, %xmm0			; SSE41-NEXT: mulps %xmm1, %xmm0
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]			; SSE41-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulps %xmm0, %xmm1
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulps %xmm0, %xmm1
				; SSE41-NEXT: mulss %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32_undef:			; AVX-LABEL: test_v16f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX-NEXT: vmulss %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_undef:			; AVX512-LABEL: test_v16f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512-NEXT: vmulss %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float undef, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float undef, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	;			;

	define double @test_v2f64(double %a0, <2 x double> %a1) {			define double @test_v2f64(double %a0, <2 x double> %a1) {
	; SSE-LABEL: test_v2f64:			; SSE-LABEL: test_v2f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movaps %xmm1, %xmm0			; SSE-NEXT: movaps %xmm1, %xmm2
	; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm1[1],xmm0[1]			; SSE-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm2
				; SSE-NEXT: mulsd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64:			; AVX-LABEL: test_v2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulpd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulpd %xmm2, %xmm1, %xmm1
				; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulpd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulpd %xmm2, %xmm1, %xmm1
				; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double %a0, <2 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double %a0, <2 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(double %a0, <4 x double> %a1) {			define double @test_v4f64(double %a0, <4 x double> %a1) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm2, %xmm1			; SSE-NEXT: mulpd %xmm2, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm2
	; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm1[1],xmm0[1]			; SSE-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm2
				; SSE-NEXT: mulsd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-NEXT: vmulpd %ymm0, %ymm1, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm1
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vmulpd %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vmulpd %ymm2, %ymm1, %ymm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulpd %ymm2, %ymm1, %ymm1
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm4, %xmm2			; SSE-NEXT: mulpd %xmm4, %xmm2
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm2, %xmm1			; SSE-NEXT: mulpd %xmm2, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm2
	; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm1[1],xmm0[1]			; SSE-NEXT: movhlps {{.*#+}} xmm2 = xmm1[1],xmm2[1]
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm2
				; SSE-NEXT: mulsd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm1
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2
	; AVX512-NEXT: vmulpd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(double %a0, <16 x double> %a1) {			define double @test_v16f64(double %a0, <16 x double> %a1) {
	; SSE-LABEL: test_v16f64:			; SSE-LABEL: test_v16f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm6, %xmm2			; SSE-NEXT: mulpd %xmm6, %xmm2
	; SSE-NEXT: mulpd %xmm7, %xmm3			; SSE-NEXT: mulpd %xmm7, %xmm3
	; SSE-NEXT: mulpd %xmm5, %xmm1			; SSE-NEXT: mulpd %xmm5, %xmm1
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd {{[0-9]+}}(%rsp), %xmm4			; SSE-NEXT: mulpd {{[0-9]+}}(%rsp), %xmm4
	; SSE-NEXT: mulpd %xmm2, %xmm4			; SSE-NEXT: mulpd %xmm2, %xmm4
	; SSE-NEXT: mulpd %xmm1, %xmm4			; SSE-NEXT: mulpd %xmm1, %xmm4
	; SSE-NEXT: movapd %xmm4, %xmm0			; SSE-NEXT: movapd %xmm4, %xmm1
	; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm4[1],xmm0[1]			; SSE-NEXT: movhlps {{.*#+}} xmm1 = xmm4[1],xmm1[1]
	; SSE-NEXT: mulpd %xmm4, %xmm0			; SSE-NEXT: mulpd %xmm4, %xmm1
				; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64:			; AVX-LABEL: test_v16f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm4, %ymm2, %ymm0			; AVX-NEXT: vmulpd %ymm4, %ymm2, %ymm2
	; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vmulpd %ymm0, %ymm1, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm1
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm0			; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (one)			; vXf64 (one)
	▲ Show 20 Lines • Show All 143 Lines • ▼ Show 20 Lines
	;			;

	define double @test_v2f64_undef(<2 x double> %a0) {			define double @test_v2f64_undef(<2 x double> %a0) {
	; SSE-LABEL: test_v2f64_undef:			; SSE-LABEL: test_v2f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movaps %xmm0, %xmm1			; SSE-NEXT: movaps %xmm0, %xmm1
	; SSE-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]			; SSE-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
	; SSE-NEXT: mulpd %xmm0, %xmm1			; SSE-NEXT: mulpd %xmm0, %xmm1
				; SSE-NEXT: mulsd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64_undef:			; AVX-LABEL: test_v2f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
				; AVX-NEXT: vmulsd %xmm0, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_undef:			; AVX512-LABEL: test_v2f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vmulsd %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double undef, <2 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double undef, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_undef(<4 x double> %a0) {			define double @test_v4f64_undef(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_undef:			; SSE-LABEL: test_v4f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]			; SSE-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
	; SSE-NEXT: mulpd %xmm0, %xmm1			; SSE-NEXT: mulpd %xmm0, %xmm1
				; SSE-NEXT: mulsd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64_undef:			; AVX-LABEL: test_v4f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX-NEXT: vmulsd %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_undef:			; AVX512-LABEL: test_v4f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX512-NEXT: vmulsd %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double undef, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double undef, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm2, %xmm0			; SSE-NEXT: mulpd %xmm2, %xmm0
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]			; SSE-NEXT: movhlps {{.*#+}} xmm1 = xmm0[1],xmm1[1]
	; SSE-NEXT: mulpd %xmm0, %xmm1			; SSE-NEXT: mulpd %xmm0, %xmm1
				; SSE-NEXT: mulsd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64_undef:			; AVX-LABEL: test_v8f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX-NEXT: vmulsd %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_undef:			; AVX512-LABEL: test_v8f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double undef, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double undef, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_undef:			; SSE-LABEL: test_v16f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm6, %xmm2			; SSE-NEXT: mulpd %xmm6, %xmm2
	; SSE-NEXT: mulpd %xmm4, %xmm0			; SSE-NEXT: mulpd %xmm4, %xmm0
	; SSE-NEXT: mulpd %xmm2, %xmm0			; SSE-NEXT: mulpd %xmm2, %xmm0
	; SSE-NEXT: mulpd %xmm7, %xmm3			; SSE-NEXT: mulpd %xmm7, %xmm3
	; SSE-NEXT: mulpd %xmm5, %xmm1			; SSE-NEXT: mulpd %xmm5, %xmm1
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm0, %xmm1			; SSE-NEXT: mulpd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm1[1],xmm0[1]			; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm1[1],xmm0[1]
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
				; SSE-NEXT: mulsd %xmm0, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64_undef:			; AVX-LABEL: test_v16f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vmulpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX-NEXT: vmulsd %xmm0, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_undef:			; AVX512-LABEL: test_v16f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double undef, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double undef, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float, <2 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float, <8 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float, <16 x float>)

	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double, <2 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double, <4 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double, <8 x double>)			declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double, <8 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double, <16 x double>)			declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double, <16 x double>)