This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/trunk/
-
trunk/
-
docs/
-
LangRef.rst
-
include/llvm/
-
llvm/
-
CodeGen/
-
BasicTTIImpl.h
-
IR/
-
Intrinsics.td
-
lib/
-
CodeGen/
-
ExpandReductions.cpp
-
SelectionDAG/
-
SelectionDAGBuilder.cpp
-
IR/
-
AutoUpgrade.cpp
-
IRBuilder.cpp
-
Transforms/Utils/
-
Utils/
-
LoopUtils.cpp
-
test/
-
Assembler/
-
invalid-vecreduce.ll
-
Bitcode/
-
upgrade-vecreduce-intrinsics.ll
-
upgrade-vecreduce-intrinsics.ll.bc
-
CodeGen/
-
AArch64/
-
vecreduce-fadd-legalization.ll
-
vecreduce-fadd.ll
-
Generic/
-
expand-experimental-reductions.ll
-
X86/
-
haddsub.ll
-
vector-reduce-fadd-fast.ll
-
vector-reduce-fadd.ll
-
vector-reduce-fmul-fast.ll
-
vector-reduce-fmul.ll

Differential D60261

Change semantics of fadd/fmul vector reductions.
ClosedPublic

Authored by sdesmalen on Apr 4 2019, 5:48 AM.

Download Raw Diff

Details

Reviewers

RKSimon
greened
dmgreen
nikic
simoll
aemerson

Commits

rGcbeb563cfb17: Change semantics of fadd/fmul vector reductions.
rL363035: Change semantics of fadd/fmul vector reductions.

Summary

This patch changes how LLVM handles the accumulator/start value
in the reduction, by never ignoring it regardless of the presence of
fast-math flags on callsites. This change introduces the following
new intrinsics to replace the existing ones:

llvm.experimental.vector.reduce.fadd -> llvm.experimental.vector.reduce.v2.fadd
llvm.experimental.vector.reduce.fmul -> llvm.experimental.vector.reduce.v2.fmul

and adds functionality to auto-upgrade existing LLVM IR and bitcode.

Diff Detail

Repository: rL LLVM

Event Timeline

sdesmalen created this revision.Apr 4 2019, 5:48 AM

Herald added a subscriber: javed.absar. · View Herald TranscriptApr 4 2019, 5:48 AM

nikic added a subscriber: nikic.Apr 6 2019, 8:45 AM

simoll added a subscriber: simoll.Apr 7 2019, 9:56 PM

dmgreen added a subscriber: dmgreen.Apr 12 2019, 11:10 AM

steleman added a subscriber: steleman.Apr 16 2019, 5:11 AM

Rereading the ML discussion just now, it looks like the consensus is to go with this option. Move forward?

nikic mentioned this in D59356: [SelectionDAGBuilder] Use accumulator value in VECREDUCE_FADD/FMUL.May 11 2019, 1:50 AM

In D60261#1499008, @nikic wrote:

Rereading the ML discussion just now, it looks like the consensus is to go with this option. Move forward?

Thanks for the prod! I've sent an update to the ML.

sdesmalen retitled this revision from [Option A] Change semantics of fadd/fmul vector reductions. to Change semantics of fadd/fmul vector reductions..Jun 7 2019, 1:14 AM

sdesmalen edited the summary of this revision. (Show Details)

sdesmalen added reviewers: RKSimon, greened, dmgreen, nikic, simoll, aemerson.

sdesmalen mentioned this in D60262: [Option B] Create explicit ordered/unordered reduction intrinsics for fadd/fmul..

spatel added a subscriber: spatel.Jun 7 2019, 5:57 AM

nikic added inline comments.Jun 7 2019, 12:25 PM

test/CodeGen/Generic/expand-experimental-reductions.ll
113 ↗	(On Diff #193692)	The expansion above looks wrong per new semantics -- shouldn't there be a use `%accum` in there? Probably the IR level expansion code needs to be adjusted.

Fixed ExpandReductions pass to use the accumulator value and updated corresponding tests.

sdesmalen marked an inline comment as done.Jun 8 2019, 6:38 AM

sdesmalen added inline comments.

test/CodeGen/Generic/expand-experimental-reductions.ll
113 ↗	(On Diff #193692)	Good spot! I've fixed this now.

LGTM with the FIXME adjusted.

include/llvm/CodeGen/BasicTTIImpl.h
1266 ↗	(On Diff #203685)	Regardless of IsPairwiseForm, this will compute an unordered reduction cost, just for two different reduction strategies. Just passing FMF.allowReassoc() here wouldn't be meaningful. We'd need a separate flag to indicate ordered reductions.

This revision is now accepted and ready to land.Jun 8 2019, 8:25 AM

Closed by commit rL363035: Change semantics of fadd/fmul vector reductions. (authored by s.desmalen). · Explain WhyJun 11 2019, 1:19 AM

This revision was automatically updated to reflect the committed changes.

Herald added a project: Restricted Project. · View Herald TranscriptJun 11 2019, 1:19 AM

Thanks for the review!

include/llvm/CodeGen/BasicTTIImpl.h
1266 ↗	(On Diff #203685)	I've updated the FIXME comment to reflect this before committing the patch.

It looks like the documentation change may have broken the sphinx doc job (though I'm not certain it was this change, but the error comes from one of the lines this file touched): http://lab.llvm.org:8011/builders/llvm-sphinx-docs/builds/32236

In D60261#1538016, @jhenderson wrote:

It looks like the documentation change may have broken the sphinx doc job (though I'm not certain it was this change, but the error comes from one of the lines this file touched): http://lab.llvm.org:8011/builders/llvm-sphinx-docs/builds/32236

Thanks for pointing out, for some reason I did not get an automated email about this failure.

I wonder if the 0.0 fp literal is causing the error, although I can't reproduce this locally (maybe due to different version of sphinx?). Probably the simplest fix to get buildbot passing again is to replace the ..code-block:: llvm with ::.

(Note that the LangRef on llvm.org is correctly updated)

In D60261#1538124, @sdesmalen wrote:

In D60261#1538016, @jhenderson wrote:

It looks like the documentation change may have broken the sphinx doc job (though I'm not certain it was this change, but the error comes from one of the lines this file touched): http://lab.llvm.org:8011/builders/llvm-sphinx-docs/builds/32236

Thanks for pointing out, for some reason I did not get an automated email about this failure.

I wonder if the 0.0 fp literal is causing the error, although I can't reproduce this locally (maybe due to different version of sphinx?). Probably the simplest fix to get buildbot passing again is to replace the ..code-block:: llvm with ::.

(Note that the LangRef on llvm.org is correctly updated)

Sounds good, although I'm not really up to speed with the sphinx system yet, so I can't say for sure that it will work!

sdesmalen mentioned this in D59259: [AArch64] Use faddp to implement fadd reductions..Jun 17 2019, 5:09 AM

Revision Contents

Path

Size

llvm/

trunk/

docs/

LangRef.rst

58 lines

include/

llvm/

CodeGen/

BasicTTIImpl.h

20 lines

IR/

Intrinsics.td

16 lines

lib/

CodeGen/

ExpandReductions.cpp

57 lines

SelectionDAG/

SelectionDAGBuilder.cpp

18 lines

IR/

AutoUpgrade.cpp

43 lines

IRBuilder.cpp

4 lines

Transforms/

Utils/

LoopUtils.cpp

12 lines

test/

Assembler/

invalid-vecreduce.ll

24 lines

Bitcode/

upgrade-vecreduce-intrinsics.ll

64 lines

upgrade-vecreduce-intrinsics.ll.bc

CodeGen/

AArch64/

vecreduce-fadd-legalization.ll

30 lines

vecreduce-fadd.ll

32 lines

Generic/

expand-experimental-reductions.ll

32 lines

X86/

haddsub.ll

71 lines

vector-reduce-fadd-fast.ll

416 lines

vector-reduce-fadd.ll

66 lines

vector-reduce-fmul-fast.ll

282 lines

vector-reduce-fmul.ll

66 lines

Diff 203984

llvm/trunk/docs/LangRef.rst

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 13,727 Lines • ▼ Show 20 Lines
	The '``llvm.experimental.vector.reduce.add.*``' intrinsics do an integer ``ADD``			The '``llvm.experimental.vector.reduce.add.*``' intrinsics do an integer ``ADD``
	reduction of a vector, returning the result as a scalar. The return type matches			reduction of a vector, returning the result as a scalar. The return type matches
	the element-type of the vector input.			the element-type of the vector input.

	Arguments:			Arguments:
	""""""""""			""""""""""
	The argument to this intrinsic must be a vector of integer values.			The argument to this intrinsic must be a vector of integer values.

	'``llvm.experimental.vector.reduce.fadd.*``' Intrinsic			'``llvm.experimental.vector.reduce.v2.fadd.*``' Intrinsic
	^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^			^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

	Syntax:			Syntax:
	"""""""			"""""""

	::			::

	declare float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %acc, <4 x float> %a)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float %start_value, <4 x float> %a)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v2f64(double %acc, <2 x double> %a)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.v2f64(double %start_value, <2 x double> %a)

	Overview:			Overview:
	"""""""""			"""""""""

	The '``llvm.experimental.vector.reduce.fadd.*``' intrinsics do a floating-point			The '``llvm.experimental.vector.reduce.v2.fadd.*``' intrinsics do a floating-point
	``ADD`` reduction of a vector, returning the result as a scalar. The return type			``ADD`` reduction of a vector, returning the result as a scalar. The return type
	matches the element-type of the vector input.			matches the element-type of the vector input.

	If the intrinsic call has fast-math flags, then the reduction will not preserve			If the intrinsic call has the 'reassoc' or 'fast' flags set, then the
	the associativity of an equivalent scalarized counterpart. If it does not have			reduction will not preserve the associativity of an equivalent scalarized
	fast-math flags, then the reduction will be ordered, implying that the			counterpart. Otherwise the reduction will be ordered, thus implying that
	operation respects the associativity of a scalarized reduction.			the operation respects the associativity of a scalarized reduction.


	Arguments:			Arguments:
	""""""""""			""""""""""
	The first argument to this intrinsic is a scalar accumulator value, which is			The first argument to this intrinsic is a scalar start value for the reduction.
	only used when there are no fast-math flags attached. This argument may be undef			The type of the start value matches the element-type of the vector input.
	when fast-math flags are used. The type of the accumulator matches the
	element-type of the vector input.

	The second argument must be a vector of floating-point values.			The second argument must be a vector of floating-point values.

	Examples:			Examples:
	"""""""""			"""""""""

	.. code-block:: llvm			.. code-block:: llvm

	%fast = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %input) ; fast reduction			%unord = call reassoc float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float 0.0, <4 x float> %input) ; unordered reduction
	%ord = call float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %acc, <4 x float> %input) ; ordered reduction			%ord = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float %start_value, <4 x float> %input) ; ordered reduction


	'``llvm.experimental.vector.reduce.mul.*``' Intrinsic			'``llvm.experimental.vector.reduce.mul.*``' Intrinsic
	^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^			^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

	Syntax:			Syntax:
	"""""""			"""""""

	::			::

	declare i32 @llvm.experimental.vector.reduce.mul.i32.v4i32(<4 x i32> %a)			declare i32 @llvm.experimental.vector.reduce.mul.i32.v4i32(<4 x i32> %a)
	declare i64 @llvm.experimental.vector.reduce.mul.i64.v2i64(<2 x i64> %a)			declare i64 @llvm.experimental.vector.reduce.mul.i64.v2i64(<2 x i64> %a)

	Overview:			Overview:
	"""""""""			"""""""""

	The '``llvm.experimental.vector.reduce.mul.*``' intrinsics do an integer ``MUL``			The '``llvm.experimental.vector.reduce.mul.*``' intrinsics do an integer ``MUL``
	reduction of a vector, returning the result as a scalar. The return type matches			reduction of a vector, returning the result as a scalar. The return type matches
	the element-type of the vector input.			the element-type of the vector input.

	Arguments:			Arguments:
	""""""""""			""""""""""
	The argument to this intrinsic must be a vector of integer values.			The argument to this intrinsic must be a vector of integer values.

	'``llvm.experimental.vector.reduce.fmul.*``' Intrinsic			'``llvm.experimental.vector.reduce.v2.fmul.*``' Intrinsic
	^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^			^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

	Syntax:			Syntax:
	"""""""			"""""""

	::			::

	declare float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %acc, <4 x float> %a)			declare float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float %start_value, <4 x float> %a)
	declare double @llvm.experimental.vector.reduce.fmul.f64.v2f64(double %acc, <2 x double> %a)			declare double @llvm.experimental.vector.reduce.v2.fmul.f64.v2f64(double %start_value, <2 x double> %a)

	Overview:			Overview:
	"""""""""			"""""""""

	The '``llvm.experimental.vector.reduce.fmul.*``' intrinsics do a floating-point			The '``llvm.experimental.vector.reduce.v2.fmul.*``' intrinsics do a floating-point
	``MUL`` reduction of a vector, returning the result as a scalar. The return type			``MUL`` reduction of a vector, returning the result as a scalar. The return type
	matches the element-type of the vector input.			matches the element-type of the vector input.

	If the intrinsic call has fast-math flags, then the reduction will not preserve			If the intrinsic call has the 'reassoc' or 'fast' flags set, then the
	the associativity of an equivalent scalarized counterpart. If it does not have			reduction will not preserve the associativity of an equivalent scalarized
	fast-math flags, then the reduction will be ordered, implying that the			counterpart. Otherwise the reduction will be ordered, thus implying that
	operation respects the associativity of a scalarized reduction.			the operation respects the associativity of a scalarized reduction.


	Arguments:			Arguments:
	""""""""""			""""""""""
	The first argument to this intrinsic is a scalar accumulator value, which is			The first argument to this intrinsic is a scalar start value for the reduction.
	only used when there are no fast-math flags attached. This argument may be undef			The type of the start value matches the element-type of the vector input.
	when fast-math flags are used. The type of the accumulator matches the
	element-type of the vector input.

	The second argument must be a vector of floating-point values.			The second argument must be a vector of floating-point values.

	Examples:			Examples:
	"""""""""			"""""""""

	.. code-block:: llvm			.. code-block:: llvm

	%fast = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %input) ; fast reduction			%unord = call reassoc float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float 1.0, <4 x float> %input) ; unordered reduction
	%ord = call float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %acc, <4 x float> %input) ; ordered reduction			%ord = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float %start_value, <4 x float> %input) ; ordered reduction

	'``llvm.experimental.vector.reduce.and.*``' Intrinsic			'``llvm.experimental.vector.reduce.and.*``' Intrinsic
	^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^			^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

	Syntax:			Syntax:
	"""""""			"""""""

	::			::
	▲ Show 20 Lines • Show All 3,373 Lines • Show Last 20 Lines

llvm/trunk/include/llvm/CodeGen/BasicTTIImpl.h

Show First 20 Lines • Show All 1,064 Lines • ▼ Show 20 Lines	case Intrinsic::masked_gather: {
return ConcreteTTI->getGatherScatterOpCost(Instruction::Load, RetTy,		return ConcreteTTI->getGatherScatterOpCost(Instruction::Load, RetTy,
Args[0], VarMask, Alignment);		Args[0], VarMask, Alignment);
}		}
case Intrinsic::experimental_vector_reduce_add:		case Intrinsic::experimental_vector_reduce_add:
case Intrinsic::experimental_vector_reduce_mul:		case Intrinsic::experimental_vector_reduce_mul:
case Intrinsic::experimental_vector_reduce_and:		case Intrinsic::experimental_vector_reduce_and:
case Intrinsic::experimental_vector_reduce_or:		case Intrinsic::experimental_vector_reduce_or:
case Intrinsic::experimental_vector_reduce_xor:		case Intrinsic::experimental_vector_reduce_xor:
case Intrinsic::experimental_vector_reduce_fadd:		case Intrinsic::experimental_vector_reduce_v2_fadd:
case Intrinsic::experimental_vector_reduce_fmul:		case Intrinsic::experimental_vector_reduce_v2_fmul:
case Intrinsic::experimental_vector_reduce_smax:		case Intrinsic::experimental_vector_reduce_smax:
case Intrinsic::experimental_vector_reduce_smin:		case Intrinsic::experimental_vector_reduce_smin:
case Intrinsic::experimental_vector_reduce_fmax:		case Intrinsic::experimental_vector_reduce_fmax:
case Intrinsic::experimental_vector_reduce_fmin:		case Intrinsic::experimental_vector_reduce_fmin:
case Intrinsic::experimental_vector_reduce_umax:		case Intrinsic::experimental_vector_reduce_umax:
case Intrinsic::experimental_vector_reduce_umin:		case Intrinsic::experimental_vector_reduce_umin:
return getIntrinsicInstrCost(IID, RetTy, Args[0]->getType(), FMF);		return getIntrinsicInstrCost(IID, RetTy, Args[0]->getType(), FMF);
case Intrinsic::fshl:		case Intrinsic::fshl:
▲ Show 20 Lines • Show All 173 Lines • ▼ Show 20 Lines	case Intrinsic::experimental_vector_reduce_and:
return ConcreteTTI->getArithmeticReductionCost(Instruction::And, Tys[0],		return ConcreteTTI->getArithmeticReductionCost(Instruction::And, Tys[0],
/IsPairwiseForm=/false);		/IsPairwiseForm=/false);
case Intrinsic::experimental_vector_reduce_or:		case Intrinsic::experimental_vector_reduce_or:
return ConcreteTTI->getArithmeticReductionCost(Instruction::Or, Tys[0],		return ConcreteTTI->getArithmeticReductionCost(Instruction::Or, Tys[0],
/IsPairwiseForm=/false);		/IsPairwiseForm=/false);
case Intrinsic::experimental_vector_reduce_xor:		case Intrinsic::experimental_vector_reduce_xor:
return ConcreteTTI->getArithmeticReductionCost(Instruction::Xor, Tys[0],		return ConcreteTTI->getArithmeticReductionCost(Instruction::Xor, Tys[0],
/IsPairwiseForm=/false);		/IsPairwiseForm=/false);
case Intrinsic::experimental_vector_reduce_fadd:		case Intrinsic::experimental_vector_reduce_v2_fadd:
return ConcreteTTI->getArithmeticReductionCost(Instruction::FAdd, Tys[0],		return ConcreteTTI->getArithmeticReductionCost(
/IsPairwiseForm=/false);		Instruction::FAdd, Tys[0],
case Intrinsic::experimental_vector_reduce_fmul:		/IsPairwiseForm=/false); // FIXME: Add new flag for cost of strict
return ConcreteTTI->getArithmeticReductionCost(Instruction::FMul, Tys[0],		// reductions.
/IsPairwiseForm=/false);		case Intrinsic::experimental_vector_reduce_v2_fmul:
		return ConcreteTTI->getArithmeticReductionCost(
		Instruction::FMul, Tys[0],
		/IsPairwiseForm=/false); // FIXME: Add new flag for cost of strict
		// reductions.
case Intrinsic::experimental_vector_reduce_smax:		case Intrinsic::experimental_vector_reduce_smax:
case Intrinsic::experimental_vector_reduce_smin:		case Intrinsic::experimental_vector_reduce_smin:
case Intrinsic::experimental_vector_reduce_fmax:		case Intrinsic::experimental_vector_reduce_fmax:
case Intrinsic::experimental_vector_reduce_fmin:		case Intrinsic::experimental_vector_reduce_fmin:
return ConcreteTTI->getMinMaxReductionCost(		return ConcreteTTI->getMinMaxReductionCost(
Tys[0], CmpInst::makeCmpResultType(Tys[0]), /IsPairwiseForm=/false,		Tys[0], CmpInst::makeCmpResultType(Tys[0]), /IsPairwiseForm=/false,
/IsSigned=/true);		/IsSigned=/true);
case Intrinsic::experimental_vector_reduce_umax:		case Intrinsic::experimental_vector_reduce_umax:
▲ Show 20 Lines • Show All 424 Lines • Show Last 20 Lines

llvm/trunk/include/llvm/IR/Intrinsics.td

	Show First 20 Lines • Show All 1,134 Lines • ▼ Show 20 Lines

	// @llvm.memset.element.unordered.atomic.*(dest, value, length, elementsize)			// @llvm.memset.element.unordered.atomic.*(dest, value, length, elementsize)
	def int_memset_element_unordered_atomic			def int_memset_element_unordered_atomic
	: Intrinsic<[], [ llvm_anyptr_ty, llvm_i8_ty, llvm_anyint_ty, llvm_i32_ty ],			: Intrinsic<[], [ llvm_anyptr_ty, llvm_i8_ty, llvm_anyint_ty, llvm_i32_ty ],
	[ IntrArgMemOnly, NoCapture<0>, WriteOnly<0>, ImmArg<3> ]>;			[ IntrArgMemOnly, NoCapture<0>, WriteOnly<0>, ImmArg<3> ]>;

	//===------------------------ Reduction Intrinsics ------------------------===//			//===------------------------ Reduction Intrinsics ------------------------===//
	//			//
	def int_experimental_vector_reduce_fadd : Intrinsic<[llvm_anyfloat_ty],			def int_experimental_vector_reduce_v2_fadd : Intrinsic<[llvm_anyfloat_ty],
	[LLVMMatchType<0>,			[LLVMMatchType<0>,
	llvm_anyvector_ty],			llvm_anyvector_ty],
	[IntrNoMem]>;			[IntrNoMem]>;
	def int_experimental_vector_reduce_fmul : Intrinsic<[llvm_anyfloat_ty],			def int_experimental_vector_reduce_v2_fmul : Intrinsic<[llvm_anyfloat_ty],
	[LLVMMatchType<0>,			[LLVMMatchType<0>,
	llvm_anyvector_ty],			llvm_anyvector_ty],
	[IntrNoMem]>;			[IntrNoMem]>;
	def int_experimental_vector_reduce_add : Intrinsic<[llvm_anyint_ty],			def int_experimental_vector_reduce_add : Intrinsic<[llvm_anyint_ty],
	[llvm_anyvector_ty],			[llvm_anyvector_ty],
	[IntrNoMem]>;			[IntrNoMem]>;
	def int_experimental_vector_reduce_mul : Intrinsic<[llvm_anyint_ty],			def int_experimental_vector_reduce_mul : Intrinsic<[llvm_anyint_ty],
	[llvm_anyvector_ty],			[llvm_anyvector_ty],
	[IntrNoMem]>;			[IntrNoMem]>;
	def int_experimental_vector_reduce_and : Intrinsic<[llvm_anyint_ty],			def int_experimental_vector_reduce_and : Intrinsic<[llvm_anyint_ty],
	[llvm_anyvector_ty],			[llvm_anyvector_ty],
	▲ Show 20 Lines • Show All 68 Lines • Show Last 20 Lines

llvm/trunk/lib/CodeGen/ExpandReductions.cpp

	Show All 23 Lines
	#include "llvm/Transforms/Utils/LoopUtils.h"			#include "llvm/Transforms/Utils/LoopUtils.h"

	using namespace llvm;			using namespace llvm;

	namespace {			namespace {

	unsigned getOpcode(Intrinsic::ID ID) {			unsigned getOpcode(Intrinsic::ID ID) {
	switch (ID) {			switch (ID) {
	case Intrinsic::experimental_vector_reduce_fadd:			case Intrinsic::experimental_vector_reduce_v2_fadd:
	return Instruction::FAdd;			return Instruction::FAdd;
	case Intrinsic::experimental_vector_reduce_fmul:			case Intrinsic::experimental_vector_reduce_v2_fmul:
	return Instruction::FMul;			return Instruction::FMul;
	case Intrinsic::experimental_vector_reduce_add:			case Intrinsic::experimental_vector_reduce_add:
	return Instruction::Add;			return Instruction::Add;
	case Intrinsic::experimental_vector_reduce_mul:			case Intrinsic::experimental_vector_reduce_mul:
	return Instruction::Mul;			return Instruction::Mul;
	case Intrinsic::experimental_vector_reduce_and:			case Intrinsic::experimental_vector_reduce_and:
	return Instruction::And;			return Instruction::And;
	case Intrinsic::experimental_vector_reduce_or:			case Intrinsic::experimental_vector_reduce_or:
	Show All 35 Lines
	bool expandReductions(Function &F, const TargetTransformInfo *TTI) {			bool expandReductions(Function &F, const TargetTransformInfo *TTI) {
	bool Changed = false;			bool Changed = false;
	SmallVector<IntrinsicInst *, 4> Worklist;			SmallVector<IntrinsicInst *, 4> Worklist;
	for (inst_iterator I = inst_begin(F), E = inst_end(F); I != E; ++I)			for (inst_iterator I = inst_begin(F), E = inst_end(F); I != E; ++I)
	if (auto II = dyn_cast<IntrinsicInst>(&*I))			if (auto II = dyn_cast<IntrinsicInst>(&*I))
	Worklist.push_back(II);			Worklist.push_back(II);

	for (auto *II : Worklist) {			for (auto *II : Worklist) {
				if (!TTI->shouldExpandReduction(II))
				continue;

				FastMathFlags FMF =
				isa<FPMathOperator>(II) ? II->getFastMathFlags() : FastMathFlags{};
				Intrinsic::ID ID = II->getIntrinsicID();
				RecurrenceDescriptor::MinMaxRecurrenceKind MRK = getMRK(ID);

				Value *Rdx = nullptr;
	IRBuilder<> Builder(II);			IRBuilder<> Builder(II);
	bool IsOrdered = false;			IRBuilder<>::FastMathFlagGuard FMFGuard(Builder);
	Value *Acc = nullptr;			Builder.setFastMathFlags(FMF);
	Value *Vec = nullptr;
	auto ID = II->getIntrinsicID();
	auto MRK = RecurrenceDescriptor::MRK_Invalid;
	switch (ID) {			switch (ID) {
	case Intrinsic::experimental_vector_reduce_fadd:			case Intrinsic::experimental_vector_reduce_v2_fadd:
	case Intrinsic::experimental_vector_reduce_fmul:			case Intrinsic::experimental_vector_reduce_v2_fmul: {
	// FMFs must be attached to the call, otherwise it's an ordered reduction			// FMFs must be attached to the call, otherwise it's an ordered reduction
	// and it can't be handled by generating a shuffle sequence.			// and it can't be handled by generating a shuffle sequence.
	if (!II->getFastMathFlags().isFast())			Value *Acc = II->getArgOperand(0);
	IsOrdered = true;			Value *Vec = II->getArgOperand(1);
	Acc = II->getArgOperand(0);			if (!FMF.allowReassoc())
	Vec = II->getArgOperand(1);			Rdx = getOrderedReduction(Builder, Acc, Vec, getOpcode(ID), MRK);
	break;			else {
				Rdx = getShuffleReduction(Builder, Vec, getOpcode(ID), MRK);
				Rdx = Builder.CreateBinOp((Instruction::BinaryOps)getOpcode(ID),
				Acc, Rdx, "bin.rdx");
				}
				} break;
	case Intrinsic::experimental_vector_reduce_add:			case Intrinsic::experimental_vector_reduce_add:
	case Intrinsic::experimental_vector_reduce_mul:			case Intrinsic::experimental_vector_reduce_mul:
	case Intrinsic::experimental_vector_reduce_and:			case Intrinsic::experimental_vector_reduce_and:
	case Intrinsic::experimental_vector_reduce_or:			case Intrinsic::experimental_vector_reduce_or:
	case Intrinsic::experimental_vector_reduce_xor:			case Intrinsic::experimental_vector_reduce_xor:
	case Intrinsic::experimental_vector_reduce_smax:			case Intrinsic::experimental_vector_reduce_smax:
	case Intrinsic::experimental_vector_reduce_smin:			case Intrinsic::experimental_vector_reduce_smin:
	case Intrinsic::experimental_vector_reduce_umax:			case Intrinsic::experimental_vector_reduce_umax:
	case Intrinsic::experimental_vector_reduce_umin:			case Intrinsic::experimental_vector_reduce_umin:
	case Intrinsic::experimental_vector_reduce_fmax:			case Intrinsic::experimental_vector_reduce_fmax:
	case Intrinsic::experimental_vector_reduce_fmin:			case Intrinsic::experimental_vector_reduce_fmin: {
	Vec = II->getArgOperand(0);			Value *Vec = II->getArgOperand(0);
	MRK = getMRK(ID);			Rdx = getShuffleReduction(Builder, Vec, getOpcode(ID), MRK);
	break;			} break;
	default:			default:
	continue;			continue;
	}			}
	if (!TTI->shouldExpandReduction(II))
	continue;
	// Propagate FMF using the builder.
	FastMathFlags FMF =
	isa<FPMathOperator>(II) ? II->getFastMathFlags() : FastMathFlags{};
	IRBuilder<>::FastMathFlagGuard FMFGuard(Builder);
	Builder.setFastMathFlags(FMF);
	Value *Rdx =
	IsOrdered ? getOrderedReduction(Builder, Acc, Vec, getOpcode(ID), MRK)
	: getShuffleReduction(Builder, Vec, getOpcode(ID), MRK);
	II->replaceAllUsesWith(Rdx);			II->replaceAllUsesWith(Rdx);
	II->eraseFromParent();			II->eraseFromParent();
	Changed = true;			Changed = true;
	}			}
	return Changed;			return Changed;
	}			}

	class ExpandReductions : public FunctionPass {			class ExpandReductions : public FunctionPass {
	Show All 38 Lines

llvm/trunk/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 6,730 Lines • ▼ Show 20 Lines	case Intrinsic::xray_typedevent: {
DAG.setRoot(patchableNode);		DAG.setRoot(patchableNode);
setValue(&I, patchableNode);		setValue(&I, patchableNode);
return;		return;
}		}
case Intrinsic::experimental_deoptimize:		case Intrinsic::experimental_deoptimize:
LowerDeoptimizeCall(&I);		LowerDeoptimizeCall(&I);
return;		return;

case Intrinsic::experimental_vector_reduce_fadd:		case Intrinsic::experimental_vector_reduce_v2_fadd:
case Intrinsic::experimental_vector_reduce_fmul:		case Intrinsic::experimental_vector_reduce_v2_fmul:
case Intrinsic::experimental_vector_reduce_add:		case Intrinsic::experimental_vector_reduce_add:
case Intrinsic::experimental_vector_reduce_mul:		case Intrinsic::experimental_vector_reduce_mul:
case Intrinsic::experimental_vector_reduce_and:		case Intrinsic::experimental_vector_reduce_and:
case Intrinsic::experimental_vector_reduce_or:		case Intrinsic::experimental_vector_reduce_or:
case Intrinsic::experimental_vector_reduce_xor:		case Intrinsic::experimental_vector_reduce_xor:
case Intrinsic::experimental_vector_reduce_smax:		case Intrinsic::experimental_vector_reduce_smax:
case Intrinsic::experimental_vector_reduce_smin:		case Intrinsic::experimental_vector_reduce_smin:
case Intrinsic::experimental_vector_reduce_umax:		case Intrinsic::experimental_vector_reduce_umax:
▲ Show 20 Lines • Show All 2,041 Lines • ▼ Show 20 Lines	void SelectionDAGBuilder::visitVectorReduce(const CallInst &I,
SDLoc dl = getCurSDLoc();		SDLoc dl = getCurSDLoc();
EVT VT = TLI.getValueType(DAG.getDataLayout(), I.getType());		EVT VT = TLI.getValueType(DAG.getDataLayout(), I.getType());
SDValue Res;		SDValue Res;
FastMathFlags FMF;		FastMathFlags FMF;
if (isa<FPMathOperator>(I))		if (isa<FPMathOperator>(I))
FMF = I.getFastMathFlags();		FMF = I.getFastMathFlags();

switch (Intrinsic) {		switch (Intrinsic) {
case Intrinsic::experimental_vector_reduce_fadd:		case Intrinsic::experimental_vector_reduce_v2_fadd:
if (FMF.isFast())		if (FMF.allowReassoc())
Res = DAG.getNode(ISD::VECREDUCE_FADD, dl, VT, Op2);		Res = DAG.getNode(ISD::FADD, dl, VT, Op1,
		DAG.getNode(ISD::VECREDUCE_FADD, dl, VT, Op2));
else		else
Res = DAG.getNode(ISD::VECREDUCE_STRICT_FADD, dl, VT, Op1, Op2);		Res = DAG.getNode(ISD::VECREDUCE_STRICT_FADD, dl, VT, Op1, Op2);
break;		break;
case Intrinsic::experimental_vector_reduce_fmul:		case Intrinsic::experimental_vector_reduce_v2_fmul:
if (FMF.isFast())		if (FMF.allowReassoc())
Res = DAG.getNode(ISD::VECREDUCE_FMUL, dl, VT, Op2);		Res = DAG.getNode(ISD::FMUL, dl, VT, Op1,
		DAG.getNode(ISD::VECREDUCE_FMUL, dl, VT, Op2));
else		else
Res = DAG.getNode(ISD::VECREDUCE_STRICT_FMUL, dl, VT, Op1, Op2);		Res = DAG.getNode(ISD::VECREDUCE_STRICT_FMUL, dl, VT, Op1, Op2);
break;		break;
case Intrinsic::experimental_vector_reduce_add:		case Intrinsic::experimental_vector_reduce_add:
Res = DAG.getNode(ISD::VECREDUCE_ADD, dl, VT, Op1);		Res = DAG.getNode(ISD::VECREDUCE_ADD, dl, VT, Op1);
break;		break;
case Intrinsic::experimental_vector_reduce_mul:		case Intrinsic::experimental_vector_reduce_mul:
Res = DAG.getNode(ISD::VECREDUCE_MUL, dl, VT, Op1);		Res = DAG.getNode(ISD::VECREDUCE_MUL, dl, VT, Op1);
▲ Show 20 Lines • Show All 1,636 Lines • Show Last 20 Lines

llvm/trunk/lib/IR/AutoUpgrade.cpp

Show First 20 Lines • Show All 596 Lines • ▼ Show 20 Lines	static bool UpgradeIntrinsicFunction1(Function F, Function &NewFn) {
case 'd': {		case 'd': {
if (Name == "dbg.value" && F->arg_size() == 4) {		if (Name == "dbg.value" && F->arg_size() == 4) {
rename(F);		rename(F);
NewFn = Intrinsic::getDeclaration(F->getParent(), Intrinsic::dbg_value);		NewFn = Intrinsic::getDeclaration(F->getParent(), Intrinsic::dbg_value);
return true;		return true;
}		}
break;		break;
}		}
		case 'e': {
		SmallVector<StringRef, 2> Groups;
		Regex R("^experimental.vector.reduce.([a-z]+)\\.[fi][0-9]+");
		if (R.match(Name, &Groups)) {
		Intrinsic::ID ID = Intrinsic::not_intrinsic;
		if (Groups[1] == "fadd")
		ID = Intrinsic::experimental_vector_reduce_v2_fadd;
		if (Groups[1] == "fmul")
		ID = Intrinsic::experimental_vector_reduce_v2_fmul;

		if (ID != Intrinsic::not_intrinsic) {
		rename(F);
		auto Args = F->getFunctionType()->params();
		Type *Tys[] = {F->getFunctionType()->getReturnType(), Args[1]};
		NewFn = Intrinsic::getDeclaration(F->getParent(), ID, Tys);
		return true;
		}
		}
		break;
		}
case 'i':		case 'i':
case 'l': {		case 'l': {
bool IsLifetimeStart = Name.startswith("lifetime.start");		bool IsLifetimeStart = Name.startswith("lifetime.start");
if (IsLifetimeStart \|\| Name.startswith("invariant.start")) {		if (IsLifetimeStart \|\| Name.startswith("invariant.start")) {
Intrinsic::ID ID = IsLifetimeStart ?		Intrinsic::ID ID = IsLifetimeStart ?
Intrinsic::lifetime_start : Intrinsic::invariant_start;		Intrinsic::lifetime_start : Intrinsic::invariant_start;
auto Args = F->getFunctionType()->params();		auto Args = F->getFunctionType()->params();
Type* ObjectPtr[1] = {Args[1]};		Type* ObjectPtr[1] = {Args[1]};
▲ Show 20 Lines • Show All 2,849 Lines • ▼ Show 20 Lines	const auto &DefaultCase = [&NewFn, &CI]() -> void {
CI->setCalledFunction(NewFn);		CI->setCalledFunction(NewFn);
};		};
CallInst *NewCall = nullptr;		CallInst *NewCall = nullptr;
switch (NewFn->getIntrinsicID()) {		switch (NewFn->getIntrinsicID()) {
default: {		default: {
DefaultCase();		DefaultCase();
return;		return;
}		}
		case Intrinsic::experimental_vector_reduce_v2_fmul: {
		SmallVector<Value *, 2> Args;
		if (CI->isFast())
		Args.push_back(ConstantFP::get(CI->getOperand(0)->getType(), 1.0));
		else
		Args.push_back(CI->getOperand(0));
		Args.push_back(CI->getOperand(1));
		NewCall = Builder.CreateCall(NewFn, Args);
		cast<Instruction>(NewCall)->copyFastMathFlags(CI);
		break;
		}
		case Intrinsic::experimental_vector_reduce_v2_fadd: {
		SmallVector<Value *, 2> Args;
		if (CI->isFast())
		Args.push_back(Constant::getNullValue(CI->getOperand(0)->getType()));
		else
		Args.push_back(CI->getOperand(0));
		Args.push_back(CI->getOperand(1));
		NewCall = Builder.CreateCall(NewFn, Args);
		cast<Instruction>(NewCall)->copyFastMathFlags(CI);
		break;
		}
case Intrinsic::arm_neon_vld1:		case Intrinsic::arm_neon_vld1:
case Intrinsic::arm_neon_vld2:		case Intrinsic::arm_neon_vld2:
case Intrinsic::arm_neon_vld3:		case Intrinsic::arm_neon_vld3:
case Intrinsic::arm_neon_vld4:		case Intrinsic::arm_neon_vld4:
case Intrinsic::arm_neon_vld2lane:		case Intrinsic::arm_neon_vld2lane:
case Intrinsic::arm_neon_vld3lane:		case Intrinsic::arm_neon_vld3lane:
case Intrinsic::arm_neon_vld4lane:		case Intrinsic::arm_neon_vld4lane:
case Intrinsic::arm_neon_vst1:		case Intrinsic::arm_neon_vst1:
▲ Show 20 Lines • Show All 487 Lines • Show Last 20 Lines

llvm/trunk/lib/IR/IRBuilder.cpp

Show First 20 Lines • Show All 317 Lines • ▼ Show 20 Lines	static CallInst getReductionIntrinsic(IRBuilderBase Builder, Intrinsic::ID ID,
return createCallHelper(Decl, Ops, Builder);		return createCallHelper(Decl, Ops, Builder);
}		}

CallInst IRBuilderBase::CreateFAddReduce(Value Acc, Value *Src) {		CallInst IRBuilderBase::CreateFAddReduce(Value Acc, Value *Src) {
Module *M = GetInsertBlock()->getParent()->getParent();		Module *M = GetInsertBlock()->getParent()->getParent();
Value *Ops[] = {Acc, Src};		Value *Ops[] = {Acc, Src};
Type *Tys[] = {Acc->getType(), Src->getType()};		Type *Tys[] = {Acc->getType(), Src->getType()};
auto Decl = Intrinsic::getDeclaration(		auto Decl = Intrinsic::getDeclaration(
M, Intrinsic::experimental_vector_reduce_fadd, Tys);		M, Intrinsic::experimental_vector_reduce_v2_fadd, Tys);
return createCallHelper(Decl, Ops, this);		return createCallHelper(Decl, Ops, this);
}		}

CallInst IRBuilderBase::CreateFMulReduce(Value Acc, Value *Src) {		CallInst IRBuilderBase::CreateFMulReduce(Value Acc, Value *Src) {
Module *M = GetInsertBlock()->getParent()->getParent();		Module *M = GetInsertBlock()->getParent()->getParent();
Value *Ops[] = {Acc, Src};		Value *Ops[] = {Acc, Src};
Type *Tys[] = {Acc->getType(), Src->getType()};		Type *Tys[] = {Acc->getType(), Src->getType()};
auto Decl = Intrinsic::getDeclaration(		auto Decl = Intrinsic::getDeclaration(
M, Intrinsic::experimental_vector_reduce_fmul, Tys);		M, Intrinsic::experimental_vector_reduce_v2_fmul, Tys);
return createCallHelper(Decl, Ops, this);		return createCallHelper(Decl, Ops, this);
}		}

CallInst IRBuilderBase::CreateAddReduce(Value Src) {		CallInst IRBuilderBase::CreateAddReduce(Value Src) {
return getReductionIntrinsic(this, Intrinsic::experimental_vector_reduce_add,		return getReductionIntrinsic(this, Intrinsic::experimental_vector_reduce_add,
Src);		Src);
}		}

▲ Show 20 Lines • Show All 413 Lines • Show Last 20 Lines

llvm/trunk/lib/Transforms/Utils/LoopUtils.cpp

	Show First 20 Lines • Show All 795 Lines • ▼ Show 20 Lines
	/// Create a simple vector reduction specified by an opcode and some			/// Create a simple vector reduction specified by an opcode and some
	/// flags (if generating min/max reductions).			/// flags (if generating min/max reductions).
	Value *llvm::createSimpleTargetReduction(			Value *llvm::createSimpleTargetReduction(
	IRBuilder<> &Builder, const TargetTransformInfo *TTI, unsigned Opcode,			IRBuilder<> &Builder, const TargetTransformInfo *TTI, unsigned Opcode,
	Value *Src, TargetTransformInfo::ReductionFlags Flags,			Value *Src, TargetTransformInfo::ReductionFlags Flags,
	ArrayRef<Value *> RedOps) {			ArrayRef<Value *> RedOps) {
	assert(isa<VectorType>(Src->getType()) && "Type must be a vector");			assert(isa<VectorType>(Src->getType()) && "Type must be a vector");

	Value *ScalarUdf = UndefValue::get(Src->getType()->getVectorElementType());
	std::function<Value *()> BuildFunc;			std::function<Value *()> BuildFunc;
	using RD = RecurrenceDescriptor;			using RD = RecurrenceDescriptor;
	RD::MinMaxRecurrenceKind MinMaxKind = RD::MRK_Invalid;			RD::MinMaxRecurrenceKind MinMaxKind = RD::MRK_Invalid;
	// TODO: Support creating ordered reductions.
	FastMathFlags FMFFast;
	FMFFast.setFast();

	switch (Opcode) {			switch (Opcode) {
	case Instruction::Add:			case Instruction::Add:
	BuildFunc = [&]() { return Builder.CreateAddReduce(Src); };			BuildFunc = [&]() { return Builder.CreateAddReduce(Src); };
	break;			break;
	case Instruction::Mul:			case Instruction::Mul:
	BuildFunc = [&]() { return Builder.CreateMulReduce(Src); };			BuildFunc = [&]() { return Builder.CreateMulReduce(Src); };
	break;			break;
	case Instruction::And:			case Instruction::And:
	BuildFunc = [&]() { return Builder.CreateAndReduce(Src); };			BuildFunc = [&]() { return Builder.CreateAndReduce(Src); };
	break;			break;
	case Instruction::Or:			case Instruction::Or:
	BuildFunc = [&]() { return Builder.CreateOrReduce(Src); };			BuildFunc = [&]() { return Builder.CreateOrReduce(Src); };
	break;			break;
	case Instruction::Xor:			case Instruction::Xor:
	BuildFunc = [&]() { return Builder.CreateXorReduce(Src); };			BuildFunc = [&]() { return Builder.CreateXorReduce(Src); };
	break;			break;
	case Instruction::FAdd:			case Instruction::FAdd:
	BuildFunc = [&]() {			BuildFunc = [&]() {
	auto Rdx = Builder.CreateFAddReduce(ScalarUdf, Src);			auto Rdx = Builder.CreateFAddReduce(
	cast<CallInst>(Rdx)->setFastMathFlags(FMFFast);			Constant::getNullValue(Src->getType()->getVectorElementType()), Src);
	return Rdx;			return Rdx;
	};			};
	break;			break;
	case Instruction::FMul:			case Instruction::FMul:
	BuildFunc = [&]() {			BuildFunc = [&]() {
	auto Rdx = Builder.CreateFMulReduce(ScalarUdf, Src);			Type *Ty = Src->getType()->getVectorElementType();
	cast<CallInst>(Rdx)->setFastMathFlags(FMFFast);			auto Rdx = Builder.CreateFMulReduce(ConstantFP::get(Ty, 1.0), Src);
	return Rdx;			return Rdx;
	};			};
	break;			break;
	case Instruction::ICmp:			case Instruction::ICmp:
	if (Flags.IsMaxOp) {			if (Flags.IsMaxOp) {
	MinMaxKind = Flags.IsSigned ? RD::MRK_SIntMax : RD::MRK_UIntMax;			MinMaxKind = Flags.IsSigned ? RD::MRK_SIntMax : RD::MRK_UIntMax;
	BuildFunc = [&]() {			BuildFunc = [&]() {
	return Builder.CreateIntMaxReduce(Src, Flags.IsSigned);			return Builder.CreateIntMaxReduce(Src, Flags.IsSigned);
	▲ Show 20 Lines • Show All 126 Lines • Show Last 20 Lines

llvm/trunk/test/Assembler/invalid-vecreduce.ll

	; RUN: not opt -S < %s 2>&1 \| FileCheck %s			; RUN: not opt -S < %s 2>&1 \| FileCheck %s

	; CHECK: Intrinsic has incorrect argument type!			; CHECK: Intrinsic has incorrect argument type!
	; CHECK-NEXT: float (double, <2 x double>)* @llvm.experimental.vector.reduce.fadd.f32.f64.v2f64			; CHECK-NEXT: float (double, <2 x double>)* @llvm.experimental.vector.reduce.v2.fadd.f32.f64.v2f64
	define float @fadd_invalid_scalar_res(double %acc, <2 x double> %in) {			define float @fadd_invalid_scalar_res(double %acc, <2 x double> %in) {
	%res = call float @llvm.experimental.vector.reduce.fadd.f32.f64.v2f64(double %acc, <2 x double> %in)			%res = call float @llvm.experimental.vector.reduce.v2.fadd.f32.f64.v2f64(double %acc, <2 x double> %in)
	ret float %res			ret float %res
	}			}

	; CHECK: Intrinsic has incorrect argument type!			; CHECK: Intrinsic has incorrect argument type!
	; CHECK-NEXT: double (float, <2 x double>)* @llvm.experimental.vector.reduce.fadd.f64.f32.v2f64			; CHECK-NEXT: double (float, <2 x double>)* @llvm.experimental.vector.reduce.v2.fadd.f64.f32.v2f64
	define double @fadd_invalid_scalar_start(float %acc, <2 x double> %in) {			define double @fadd_invalid_scalar_start(float %acc, <2 x double> %in) {
	%res = call double @llvm.experimental.vector.reduce.fadd.f64.f32.v2f64(float %acc, <2 x double> %in)			%res = call double @llvm.experimental.vector.reduce.v2.fadd.f64.f32.v2f64(float %acc, <2 x double> %in)
	ret double %res			ret double %res
	}			}

	; CHECK: Intrinsic has incorrect argument type!			; CHECK: Intrinsic has incorrect argument type!
	; CHECK-NEXT: <2 x double> (double, <2 x double>)* @llvm.experimental.vector.reduce.fadd.v2f64.f64.v2f64			; CHECK-NEXT: <2 x double> (double, <2 x double>)* @llvm.experimental.vector.reduce.v2.fadd.v2f64.f64.v2f64
	define <2 x double> @fadd_invalid_vector_res(double %acc, <2 x double> %in) {			define <2 x double> @fadd_invalid_vector_res(double %acc, <2 x double> %in) {
	%res = call <2 x double> @llvm.experimental.vector.reduce.fadd.v2f64.f64.v2f64(double %acc, <2 x double> %in)			%res = call <2 x double> @llvm.experimental.vector.reduce.v2.fadd.v2f64.f64.v2f64(double %acc, <2 x double> %in)
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	; CHECK: Intrinsic has incorrect argument type!			; CHECK: Intrinsic has incorrect argument type!
	; CHECK-NEXT: double (<2 x double>, <2 x double>)* @llvm.experimental.vector.reduce.fadd.f64.v2f64.v2f64			; CHECK-NEXT: double (<2 x double>, <2 x double>)* @llvm.experimental.vector.reduce.v2.fadd.f64.v2f64.v2f64
	define double @fadd_invalid_vector_start(<2 x double> %in, <2 x double> %acc) {			define double @fadd_invalid_vector_start(<2 x double> %in, <2 x double> %acc) {
	%res = call double @llvm.experimental.vector.reduce.fadd.f64.v2f64.v2f64(<2 x double> %acc, <2 x double> %in)			%res = call double @llvm.experimental.vector.reduce.v2.fadd.f64.v2f64.v2f64(<2 x double> %acc, <2 x double> %in)
	ret double %res			ret double %res
	}			}

	declare float @llvm.experimental.vector.reduce.fadd.f32.f64.v2f64(double %acc, <2 x double> %in)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.f64.v2f64(double %acc, <2 x double> %in)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f32.v2f64(float %acc, <2 x double> %in)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.f32.v2f64(float %acc, <2 x double> %in)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v2f64.v2f64(<2 x double> %acc, <2 x double> %in)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.v2f64.v2f64(<2 x double> %acc, <2 x double> %in)
	declare <2 x double> @llvm.experimental.vector.reduce.fadd.v2f64.f64.v2f64(double %acc, <2 x double> %in)			declare <2 x double> @llvm.experimental.vector.reduce.v2.fadd.v2f64.f64.v2f64(double %acc, <2 x double> %in)

llvm/trunk/test/Bitcode/upgrade-vecreduce-intrinsics.ll

				; RUN: opt -S < %s \| FileCheck %s
				; RUN: llvm-dis < %s.bc \| FileCheck %s

				define float @fadd_acc(<4 x float> %in, float %acc) {
				; CHECK-LABEL: @fadd_acc
				; CHECK: %res = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float %acc, <4 x float> %in)
				%res = call float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %acc, <4 x float> %in)
				ret float %res
				}

				define float @fadd_undef(<4 x float> %in) {
				; CHECK-LABEL: @fadd_undef
				; CHECK: %res = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float undef, <4 x float> %in)
				%res = call float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %in)
				ret float %res
				}

				define float @fadd_fast_acc(<4 x float> %in, float %acc) {
				; CHECK-LABEL: @fadd_fast_acc
				; CHECK: %res = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float 0.000000e+00, <4 x float> %in)
				%res = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %acc, <4 x float> %in)
				ret float %res
				}

				define float @fadd_fast_undef(<4 x float> %in) {
				; CHECK-LABEL: @fadd_fast_undef
				; CHECK: %res = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float 0.000000e+00, <4 x float> %in)
				%res = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %in)
				ret float %res
				}

				define float @fmul_acc(<4 x float> %in, float %acc) {
				; CHECK-LABEL: @fmul_acc
				; CHECK: %res = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float %acc, <4 x float> %in)
				%res = call float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %acc, <4 x float> %in)
				ret float %res
				}

				define float @fmul_undef(<4 x float> %in) {
				; CHECK-LABEL: @fmul_undef
				; CHECK: %res = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float undef, <4 x float> %in)
				%res = call float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %in)
				ret float %res
				}

				define float @fmul_fast_acc(<4 x float> %in, float %acc) {
				; CHECK-LABEL: @fmul_fast_acc
				; CHECK: %res = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float 1.000000e+00, <4 x float> %in)
				%res = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %acc, <4 x float> %in)
				ret float %res
				}

				define float @fmul_fast_undef(<4 x float> %in) {
				; CHECK-LABEL: @fmul_fast_undef
				; CHECK: %res = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float 1.000000e+00, <4 x float> %in)
				%res = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %in)
				ret float %res
				}

				declare float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float, <4 x float>)
				; CHECK: declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float, <4 x float>)

				declare float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float, <4 x float>)
				; CHECK: declare float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float, <4 x float>)

llvm/trunk/test/Bitcode/upgrade-vecreduce-intrinsics.ll.bc

This is a binary file.

llvm/trunk/test/CodeGen/AArch64/vecreduce-fadd-legalization.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=aarch64-none-linux-gnu -mattr=+neon \| FileCheck %s --check-prefix=CHECK			; RUN: llc < %s -mtriple=aarch64-none-linux-gnu -mattr=+neon \| FileCheck %s --check-prefix=CHECK

	declare half @llvm.experimental.vector.reduce.fadd.f16.v1f16(half, <1 x half>)			declare half @llvm.experimental.vector.reduce.v2.fadd.f16.v1f16(half, <1 x half>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v1f32(float, <1 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v1f32(float, <1 x float>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v1f64(double, <1 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.v1f64(double, <1 x double>)
	declare fp128 @llvm.experimental.vector.reduce.fadd.f128.v1f128(fp128, <1 x fp128>)			declare fp128 @llvm.experimental.vector.reduce.v2.fadd.f128.v1f128(fp128, <1 x fp128>)

	declare float @llvm.experimental.vector.reduce.fadd.f32.v3f32(float, <3 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v3f32(float, <3 x float>)
	declare fp128 @llvm.experimental.vector.reduce.fadd.f128.v2f128(fp128, <2 x fp128>)			declare fp128 @llvm.experimental.vector.reduce.v2.fadd.f128.v2f128(fp128, <2 x fp128>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v16f32(float, <16 x float>)

	define half @test_v1f16(<1 x half> %a) nounwind {			define half @test_v1f16(<1 x half> %a) nounwind {
	; CHECK-LABEL: test_v1f16:			; CHECK-LABEL: test_v1f16:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan half @llvm.experimental.vector.reduce.fadd.f16.v1f16(half 0.0, <1 x half> %a)			%b = call fast nnan half @llvm.experimental.vector.reduce.v2.fadd.f16.v1f16(half 0.0, <1 x half> %a)
	ret half %b			ret half %b
	}			}

	define float @test_v1f32(<1 x float> %a) nounwind {			define float @test_v1f32(<1 x float> %a) nounwind {
	; CHECK-LABEL: test_v1f32:			; CHECK-LABEL: test_v1f32:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: // kill: def $d0 killed $d0 def $q0			; CHECK-NEXT: // kill: def $d0 killed $d0 def $q0
	; CHECK-NEXT: // kill: def $s0 killed $s0 killed $q0			; CHECK-NEXT: // kill: def $s0 killed $s0 killed $q0
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan float @llvm.experimental.vector.reduce.fadd.f32.v1f32(float 0.0, <1 x float> %a)			%b = call fast nnan float @llvm.experimental.vector.reduce.v2.fadd.f32.v1f32(float 0.0, <1 x float> %a)
	ret float %b			ret float %b
	}			}

	define double @test_v1f64(<1 x double> %a) nounwind {			define double @test_v1f64(<1 x double> %a) nounwind {
	; CHECK-LABEL: test_v1f64:			; CHECK-LABEL: test_v1f64:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan double @llvm.experimental.vector.reduce.fadd.f64.v1f64(double 0.0, <1 x double> %a)			%b = call fast nnan double @llvm.experimental.vector.reduce.v2.fadd.f64.v1f64(double 0.0, <1 x double> %a)
	ret double %b			ret double %b
	}			}

	define fp128 @test_v1f128(<1 x fp128> %a) nounwind {			define fp128 @test_v1f128(<1 x fp128> %a) nounwind {
	; CHECK-LABEL: test_v1f128:			; CHECK-LABEL: test_v1f128:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan fp128 @llvm.experimental.vector.reduce.fadd.f128.v1f128(fp128 zeroinitializer, <1 x fp128> %a)			%b = call fast nnan fp128 @llvm.experimental.vector.reduce.v2.fadd.f128.v1f128(fp128 zeroinitializer, <1 x fp128> %a)
	ret fp128 %b			ret fp128 %b
	}			}

	define float @test_v3f32(<3 x float> %a) nounwind {			define float @test_v3f32(<3 x float> %a) nounwind {
	; CHECK-LABEL: test_v3f32:			; CHECK-LABEL: test_v3f32:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: fmov s1, wzr			; CHECK-NEXT: fmov s1, wzr
	; CHECK-NEXT: mov v0.s[3], v1.s[0]			; CHECK-NEXT: mov v0.s[3], v1.s[0]
	; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8			; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8
	; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s			; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s
	; CHECK-NEXT: faddp s0, v0.2s			; CHECK-NEXT: faddp s0, v0.2s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan float @llvm.experimental.vector.reduce.fadd.f32.v3f32(float 0.0, <3 x float> %a)			%b = call fast nnan float @llvm.experimental.vector.reduce.v2.fadd.f32.v3f32(float 0.0, <3 x float> %a)
	ret float %b			ret float %b
	}			}

	define fp128 @test_v2f128(<2 x fp128> %a) nounwind {			define fp128 @test_v2f128(<2 x fp128> %a) nounwind {
	; CHECK-LABEL: test_v2f128:			; CHECK-LABEL: test_v2f128:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: str x30, [sp, #-16]! // 8-byte Folded Spill			; CHECK-NEXT: str x30, [sp, #-16]! // 8-byte Folded Spill
	; CHECK-NEXT: bl __addtf3			; CHECK-NEXT: bl __addtf3
	; CHECK-NEXT: ldr x30, [sp], #16 // 8-byte Folded Reload			; CHECK-NEXT: ldr x30, [sp], #16 // 8-byte Folded Reload
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan fp128 @llvm.experimental.vector.reduce.fadd.f128.v2f128(fp128 zeroinitializer, <2 x fp128> %a)			%b = call fast nnan fp128 @llvm.experimental.vector.reduce.v2.fadd.f128.v2f128(fp128 zeroinitializer, <2 x fp128> %a)
	ret fp128 %b			ret fp128 %b
	}			}

	define float @test_v16f32(<16 x float> %a) nounwind {			define float @test_v16f32(<16 x float> %a) nounwind {
	; CHECK-LABEL: test_v16f32:			; CHECK-LABEL: test_v16f32:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: fadd v1.4s, v1.4s, v3.4s			; CHECK-NEXT: fadd v1.4s, v1.4s, v3.4s
	; CHECK-NEXT: fadd v0.4s, v0.4s, v2.4s			; CHECK-NEXT: fadd v0.4s, v0.4s, v2.4s
	; CHECK-NEXT: fadd v0.4s, v0.4s, v1.4s			; CHECK-NEXT: fadd v0.4s, v0.4s, v1.4s
	; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8			; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8
	; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s			; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s
	; CHECK-NEXT: faddp s0, v0.2s			; CHECK-NEXT: faddp s0, v0.2s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan float @llvm.experimental.vector.reduce.fadd.f32.v16f32(float 0.0, <16 x float> %a)			%b = call fast nnan float @llvm.experimental.vector.reduce.v2.fadd.f32.v16f32(float 0.0, <16 x float> %a)
	ret float %b			ret float %b
	}			}

llvm/trunk/test/CodeGen/AArch64/vecreduce-fadd.ll

	; RUN: llc < %s -mtriple=aarch64-eabi -aarch64-neon-syntax=generic -asm-verbose=0 -mattr=+fullfp16 \| FileCheck %s			; RUN: llc < %s -mtriple=aarch64-eabi -aarch64-neon-syntax=generic -asm-verbose=0 -mattr=+fullfp16 \| FileCheck %s
	; RUN: llc < %s -mtriple=aarch64-eabi -aarch64-neon-syntax=generic -asm-verbose=0 \| FileCheck %s --check-prefix=CHECKNOFP16			; RUN: llc < %s -mtriple=aarch64-eabi -aarch64-neon-syntax=generic -asm-verbose=0 \| FileCheck %s --check-prefix=CHECKNOFP16

	define float @add_HalfS(<2 x float> %bin.rdx) {			define float @add_HalfS(<2 x float> %bin.rdx) {
	; CHECK-LABEL: add_HalfS:			; CHECK-LABEL: add_HalfS:
	; CHECK: faddp s0, v0.2s			; CHECK: faddp s0, v0.2s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.v2f32(float undef, <2 x float> %bin.rdx)			%r = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v2f32(float 0.0, <2 x float> %bin.rdx)
	ret float %r			ret float %r
	}			}

	define half @add_HalfH(<4 x half> %bin.rdx) {			define half @add_HalfH(<4 x half> %bin.rdx) {
	; CHECK-LABEL: add_HalfH:			; CHECK-LABEL: add_HalfH:
	; CHECK: mov h3, v0.h[1]			; CHECK: mov h3, v0.h[1]
	; CHECK-NEXT: mov h1, v0.h[3]			; CHECK-NEXT: mov h1, v0.h[3]
	; CHECK-NEXT: mov h2, v0.h[2]			; CHECK-NEXT: mov h2, v0.h[2]
	; CHECK-NEXT: fadd h0, h0, h3			; CHECK-NEXT: fadd h0, h0, h3
	; CHECK-NEXT: fadd h0, h0, h2			; CHECK-NEXT: fadd h0, h0, h2
	; CHECK-NEXT: fadd h0, h0, h1			; CHECK-NEXT: fadd h0, h0, h1
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	; CHECKNOFP16-LABEL: add_HalfH:			; CHECKNOFP16-LABEL: add_HalfH:
	; CHECKNOFP16-NOT: faddp			; CHECKNOFP16-NOT: faddp
	; CHECKNOFP16-NOT: fadd h{{[0-9]+}}			; CHECKNOFP16-NOT: fadd h{{[0-9]+}}
	; CHECKNOFP16-NOT: fadd v{{[0-9]+}}.{{[0-9]}}h			; CHECKNOFP16-NOT: fadd v{{[0-9]+}}.{{[0-9]}}h
	; CHECKNOFP16: ret			; CHECKNOFP16: ret
	%r = call fast half @llvm.experimental.vector.reduce.fadd.f16.v4f16(half undef, <4 x half> %bin.rdx)			%r = call fast half @llvm.experimental.vector.reduce.v2.fadd.f16.v4f16(half 0.0, <4 x half> %bin.rdx)
	ret half %r			ret half %r
	}			}


	define half @add_H(<8 x half> %bin.rdx) {			define half @add_H(<8 x half> %bin.rdx) {
	; CHECK-LABEL: add_H:			; CHECK-LABEL: add_H:
	; CHECK: ext v1.16b, v0.16b, v0.16b, #8			; CHECK: ext v1.16b, v0.16b, v0.16b, #8
	; CHECK-NEXT: fadd v0.4h, v0.4h, v1.4h			; CHECK-NEXT: fadd v0.4h, v0.4h, v1.4h
	; CHECK-NEXT: mov h1, v0.h[1]			; CHECK-NEXT: mov h1, v0.h[1]
	; CHECK-NEXT: mov h2, v0.h[2]			; CHECK-NEXT: mov h2, v0.h[2]
	; CHECK-NEXT: fadd h1, h0, h1			; CHECK-NEXT: fadd h1, h0, h1
	; CHECK-NEXT: fadd h1, h1, h2			; CHECK-NEXT: fadd h1, h1, h2
	; CHECK-NEXT: mov h0, v0.h[3]			; CHECK-NEXT: mov h0, v0.h[3]
	; CHECK-NEXT: fadd h0, h1, h0			; CHECK-NEXT: fadd h0, h1, h0
	; CHECK-NEXT: ret			; CHECK-NEXT: ret

	; CHECKNOFP16-LABEL: add_H:			; CHECKNOFP16-LABEL: add_H:
	; CHECKNOFP16-NOT: faddp			; CHECKNOFP16-NOT: faddp
	; CHECKNOFP16-NOT: fadd h{{[0-9]+}}			; CHECKNOFP16-NOT: fadd h{{[0-9]+}}
	; CHECKNOFP16-NOT: fadd v{{[0-9]+}}.{{[0-9]}}h			; CHECKNOFP16-NOT: fadd v{{[0-9]+}}.{{[0-9]}}h
	; CHECKNOFP16: ret			; CHECKNOFP16: ret
	%r = call fast half @llvm.experimental.vector.reduce.fadd.f16.v8f16(half undef, <8 x half> %bin.rdx)			%r = call fast half @llvm.experimental.vector.reduce.v2.fadd.f16.v8f16(half 0.0, <8 x half> %bin.rdx)
	ret half %r			ret half %r
	}			}

	define float @add_S(<4 x float> %bin.rdx) {			define float @add_S(<4 x float> %bin.rdx) {
	; CHECK-LABEL: add_S:			; CHECK-LABEL: add_S:
	; CHECK: ext v1.16b, v0.16b, v0.16b, #8			; CHECK: ext v1.16b, v0.16b, v0.16b, #8
	; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s			; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s
	; CHECK-NEXT: faddp s0, v0.2s			; CHECK-NEXT: faddp s0, v0.2s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %bin.rdx)			%r = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float 0.0, <4 x float> %bin.rdx)
	ret float %r			ret float %r
	}			}

	define double @add_D(<2 x double> %bin.rdx) {			define double @add_D(<2 x double> %bin.rdx) {
	; CHECK-LABEL: add_D:			; CHECK-LABEL: add_D:
	; CHECK: faddp d0, v0.2d			; CHECK: faddp d0, v0.2d
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call fast double @llvm.experimental.vector.reduce.fadd.f64.v2f64(double undef, <2 x double> %bin.rdx)			%r = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.v2f64(double 0.0, <2 x double> %bin.rdx)
	ret double %r			ret double %r
	}			}

	define half @add_2H(<16 x half> %bin.rdx) {			define half @add_2H(<16 x half> %bin.rdx) {
	; CHECK-LABEL: add_2H:			; CHECK-LABEL: add_2H:
	; CHECK: fadd v0.8h, v0.8h, v1.8h			; CHECK: fadd v0.8h, v0.8h, v1.8h
	; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8			; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8
	; CHECK-NEXT: fadd v0.4h, v0.4h, v1.4h			; CHECK-NEXT: fadd v0.4h, v0.4h, v1.4h
	; CHECK-NEXT: mov h1, v0.h[1]			; CHECK-NEXT: mov h1, v0.h[1]
	; CHECK-NEXT: mov h2, v0.h[2]			; CHECK-NEXT: mov h2, v0.h[2]
	; CHECK-NEXT: fadd h1, h0, h1			; CHECK-NEXT: fadd h1, h0, h1
	; CHECK-NEXT: fadd h1, h1, h2			; CHECK-NEXT: fadd h1, h1, h2
	; CHECK-NEXT: mov h0, v0.h[3]			; CHECK-NEXT: mov h0, v0.h[3]
	; CHECK-NEXT: fadd h0, h1, h0			; CHECK-NEXT: fadd h0, h1, h0
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	; CHECKNOFP16-LABEL: add_2H:			; CHECKNOFP16-LABEL: add_2H:
	; CHECKNOFP16-NOT: faddp			; CHECKNOFP16-NOT: faddp
	; CHECKNOFP16-NOT: fadd h{{[0-9]+}}			; CHECKNOFP16-NOT: fadd h{{[0-9]+}}
	; CHECKNOFP16-NOT: fadd v{{[0-9]+}}.{{[0-9]}}h			; CHECKNOFP16-NOT: fadd v{{[0-9]+}}.{{[0-9]}}h
	; CHECKNOFP16: ret			; CHECKNOFP16: ret
	%r = call fast half @llvm.experimental.vector.reduce.fadd.f16.v16f16(half undef, <16 x half> %bin.rdx)			%r = call fast half @llvm.experimental.vector.reduce.v2.fadd.f16.v16f16(half 0.0, <16 x half> %bin.rdx)
	ret half %r			ret half %r
	}			}

	define float @add_2S(<8 x float> %bin.rdx) {			define float @add_2S(<8 x float> %bin.rdx) {
	; CHECK-LABEL: add_2S:			; CHECK-LABEL: add_2S:
	; CHECK: fadd v0.4s, v0.4s, v1.4s			; CHECK: fadd v0.4s, v0.4s, v1.4s
	; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8			; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8
	; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s			; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s
	; CHECK-NEXT: faddp s0, v0.2s			; CHECK-NEXT: faddp s0, v0.2s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.v8f32(float undef, <8 x float> %bin.rdx)			%r = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v8f32(float 0.0, <8 x float> %bin.rdx)
	ret float %r			ret float %r
	}			}

	define double @add_2D(<4 x double> %bin.rdx) {			define double @add_2D(<4 x double> %bin.rdx) {
	; CHECK-LABEL: add_2D:			; CHECK-LABEL: add_2D:
	; CHECK: fadd v0.2d, v0.2d, v1.2d			; CHECK: fadd v0.2d, v0.2d, v1.2d
	; CHECK-NEXT: faddp d0, v0.2d			; CHECK-NEXT: faddp d0, v0.2d
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call fast double @llvm.experimental.vector.reduce.fadd.f64.v4f64(double undef, <4 x double> %bin.rdx)			%r = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.v4f64(double 0.0, <4 x double> %bin.rdx)
	ret double %r			ret double %r
	}			}

	; Function Attrs: nounwind readnone			; Function Attrs: nounwind readnone
	declare half @llvm.experimental.vector.reduce.fadd.f16.v4f16(half, <4 x half>)			declare half @llvm.experimental.vector.reduce.v2.fadd.f16.v4f16(half, <4 x half>)
	declare half @llvm.experimental.vector.reduce.fadd.f16.v8f16(half, <8 x half>)			declare half @llvm.experimental.vector.reduce.v2.fadd.f16.v8f16(half, <8 x half>)
	declare half @llvm.experimental.vector.reduce.fadd.f16.v16f16(half, <16 x half>)			declare half @llvm.experimental.vector.reduce.v2.fadd.f16.v16f16(half, <16 x half>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v2f32(float, <2 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v8f32(float, <8 x float>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.v2f64(double, <2 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.v4f64(double, <4 x double>)

llvm/trunk/test/CodeGen/Generic/expand-experimental-reductions.ll

	; NOTE: Assertions have been autogenerated by utils/update_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
	; RUN: opt < %s -expand-reductions -S \| FileCheck %s			; RUN: opt < %s -expand-reductions -S \| FileCheck %s
	; Tests without a target which should expand all reductions			; Tests without a target which should expand all reductions
	declare i64 @llvm.experimental.vector.reduce.add.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.add.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.mul.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.mul.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.and.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.and.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.or.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.or.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.xor.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.xor.i64.v2i64(<2 x i64>)

	declare float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float, <4 x float>)

	declare i64 @llvm.experimental.vector.reduce.smax.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.smax.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.smin.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.smin.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.umax.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.umax.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.umin.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.umin.i64.v2i64(<2 x i64>)

	declare double @llvm.experimental.vector.reduce.fmax.f64.v2f64(<2 x double>)			declare double @llvm.experimental.vector.reduce.fmax.f64.v2f64(<2 x double>)
	declare double @llvm.experimental.vector.reduce.fmin.f64.v2f64(<2 x double>)			declare double @llvm.experimental.vector.reduce.fmin.f64.v2f64(<2 x double>)
	▲ Show 20 Lines • Show All 67 Lines • ▼ Show 20 Lines
	define float @fadd_f32(<4 x float> %vec) {			define float @fadd_f32(<4 x float> %vec) {
	; CHECK-LABEL: @fadd_f32(			; CHECK-LABEL: @fadd_f32(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd fast <4 x float> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd fast <4 x float> [[VEC]], [[RDX_SHUF]]
	; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0
	; CHECK-NEXT: ret float [[TMP0]]			; CHECK-NEXT: [[TMP1:%.*]] = fadd fast float 0.000000e+00, [[TMP0]]
				; CHECK-NEXT: ret float [[TMP1]]
	;			;
	entry:			entry:
	%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %vec)			%r = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float 0.0, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fadd_f32_accum(float %accum, <4 x float> %vec) {			define float @fadd_f32_accum(float %accum, <4 x float> %vec) {
	; CHECK-LABEL: @fadd_f32_accum(			; CHECK-LABEL: @fadd_f32_accum(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd fast <4 x float> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd fast <4 x float> [[VEC]], [[RDX_SHUF]]
	; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0
	; CHECK-NEXT: ret float [[TMP0]]			; CHECK-NEXT: [[TMP1:%.*]] = fadd fast float %accum, [[TMP0]]
				; CHECK-NEXT: ret float [[TMP1]]
	;			;
	entry:			entry:
	%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %accum, <4 x float> %vec)			%r = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float %accum, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fadd_f32_strict(<4 x float> %vec) {			define float @fadd_f32_strict(<4 x float> %vec) {
	; CHECK-LABEL: @fadd_f32_strict(			; CHECK-LABEL: @fadd_f32_strict(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0			; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd float undef, [[TMP0]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd float undef, [[TMP0]]
	; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1			; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1
	; CHECK-NEXT: [[BIN_RDX1:%.*]] = fadd float [[BIN_RDX]], [[TMP1]]			; CHECK-NEXT: [[BIN_RDX1:%.*]] = fadd float [[BIN_RDX]], [[TMP1]]
	; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2			; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd float [[BIN_RDX1]], [[TMP2]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd float [[BIN_RDX1]], [[TMP2]]
	; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3			; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3
	; CHECK-NEXT: [[BIN_RDX3:%.*]] = fadd float [[BIN_RDX2]], [[TMP3]]			; CHECK-NEXT: [[BIN_RDX3:%.*]] = fadd float [[BIN_RDX2]], [[TMP3]]
	; CHECK-NEXT: ret float [[BIN_RDX3]]			; CHECK-NEXT: ret float [[BIN_RDX3]]
	;			;
	entry:			entry:
	%r = call float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %vec)			%r = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float undef, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fadd_f32_strict_accum(float %accum, <4 x float> %vec) {			define float @fadd_f32_strict_accum(float %accum, <4 x float> %vec) {
	; CHECK-LABEL: @fadd_f32_strict_accum(			; CHECK-LABEL: @fadd_f32_strict_accum(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0			; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0
	; CHECK-NEXT: [[BIN_RDX:%.]] = fadd float [[ACCUM:%.]], [[TMP0]]			; CHECK-NEXT: [[BIN_RDX:%.]] = fadd float [[ACCUM:%.]], [[TMP0]]
	; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1			; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1
	; CHECK-NEXT: [[BIN_RDX1:%.*]] = fadd float [[BIN_RDX]], [[TMP1]]			; CHECK-NEXT: [[BIN_RDX1:%.*]] = fadd float [[BIN_RDX]], [[TMP1]]
	; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2			; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd float [[BIN_RDX1]], [[TMP2]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd float [[BIN_RDX1]], [[TMP2]]
	; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3			; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3
	; CHECK-NEXT: [[BIN_RDX3:%.*]] = fadd float [[BIN_RDX2]], [[TMP3]]			; CHECK-NEXT: [[BIN_RDX3:%.*]] = fadd float [[BIN_RDX2]], [[TMP3]]
	; CHECK-NEXT: ret float [[BIN_RDX3]]			; CHECK-NEXT: ret float [[BIN_RDX3]]
	;			;
	entry:			entry:
	%r = call float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %accum, <4 x float> %vec)			%r = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float %accum, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fmul_f32(<4 x float> %vec) {			define float @fmul_f32(<4 x float> %vec) {
	; CHECK-LABEL: @fmul_f32(			; CHECK-LABEL: @fmul_f32(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul fast <4 x float> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul fast <4 x float> [[VEC]], [[RDX_SHUF]]
	; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0
	; CHECK-NEXT: ret float [[TMP0]]			; CHECK-NEXT: [[TMP1:%.*]] = fmul fast float 1.000000e+00, [[TMP0]]
				; CHECK-NEXT: ret float [[TMP1]]
	;			;
	entry:			entry:
	%r = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %vec)			%r = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float 1.0, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fmul_f32_accum(float %accum, <4 x float> %vec) {			define float @fmul_f32_accum(float %accum, <4 x float> %vec) {
	; CHECK-LABEL: @fmul_f32_accum(			; CHECK-LABEL: @fmul_f32_accum(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul fast <4 x float> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul fast <4 x float> [[VEC]], [[RDX_SHUF]]
	; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0
	; CHECK-NEXT: ret float [[TMP0]]			; CHECK-NEXT: [[TMP1:%.*]] = fmul fast float %accum, [[TMP0]]
				; CHECK-NEXT: ret float [[TMP1]]
	;			;
	entry:			entry:
	%r = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %accum, <4 x float> %vec)			%r = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float %accum, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fmul_f32_strict(<4 x float> %vec) {			define float @fmul_f32_strict(<4 x float> %vec) {
	; CHECK-LABEL: @fmul_f32_strict(			; CHECK-LABEL: @fmul_f32_strict(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0			; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul float undef, [[TMP0]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul float undef, [[TMP0]]
	; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1			; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1
	; CHECK-NEXT: [[BIN_RDX1:%.*]] = fmul float [[BIN_RDX]], [[TMP1]]			; CHECK-NEXT: [[BIN_RDX1:%.*]] = fmul float [[BIN_RDX]], [[TMP1]]
	; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2			; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul float [[BIN_RDX1]], [[TMP2]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul float [[BIN_RDX1]], [[TMP2]]
	; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3			; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3
	; CHECK-NEXT: [[BIN_RDX3:%.*]] = fmul float [[BIN_RDX2]], [[TMP3]]			; CHECK-NEXT: [[BIN_RDX3:%.*]] = fmul float [[BIN_RDX2]], [[TMP3]]
	; CHECK-NEXT: ret float [[BIN_RDX3]]			; CHECK-NEXT: ret float [[BIN_RDX3]]
	;			;
	entry:			entry:
	%r = call float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %vec)			%r = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float undef, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fmul_f32_strict_accum(float %accum, <4 x float> %vec) {			define float @fmul_f32_strict_accum(float %accum, <4 x float> %vec) {
	; CHECK-LABEL: @fmul_f32_strict_accum(			; CHECK-LABEL: @fmul_f32_strict_accum(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0			; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0
	; CHECK-NEXT: [[BIN_RDX:%.]] = fmul float [[ACCUM:%.]], [[TMP0]]			; CHECK-NEXT: [[BIN_RDX:%.]] = fmul float [[ACCUM:%.]], [[TMP0]]
	; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1			; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1
	; CHECK-NEXT: [[BIN_RDX1:%.*]] = fmul float [[BIN_RDX]], [[TMP1]]			; CHECK-NEXT: [[BIN_RDX1:%.*]] = fmul float [[BIN_RDX]], [[TMP1]]
	; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2			; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul float [[BIN_RDX1]], [[TMP2]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul float [[BIN_RDX1]], [[TMP2]]
	; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3			; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3
	; CHECK-NEXT: [[BIN_RDX3:%.*]] = fmul float [[BIN_RDX2]], [[TMP3]]			; CHECK-NEXT: [[BIN_RDX3:%.*]] = fmul float [[BIN_RDX2]], [[TMP3]]
	; CHECK-NEXT: ret float [[BIN_RDX3]]			; CHECK-NEXT: ret float [[BIN_RDX3]]
	;			;
	entry:			entry:
	%r = call float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %accum, <4 x float> %vec)			%r = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float %accum, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define i64 @smax_i64(<2 x i64> %vec) {			define i64 @smax_i64(<2 x i64> %vec) {
	; CHECK-LABEL: @smax_i64(			; CHECK-LABEL: @smax_i64(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <2 x i64> [[VEC:%.]], <2 x i64> undef, <2 x i32> <i32 1, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <2 x i64> [[VEC:%.]], <2 x i64> undef, <2 x i32> <i32 1, i32 undef>
	; CHECK-NEXT: [[RDX_MINMAX_CMP:%.*]] = icmp sgt <2 x i64> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[RDX_MINMAX_CMP:%.*]] = icmp sgt <2 x i64> [[VEC]], [[RDX_SHUF]]
	▲ Show 20 Lines • Show All 78 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/haddsub.ll

Show First 20 Lines • Show All 1,622 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
store float %x1, float* %p2		store float %x1, float* %p2
%x01 = fadd float %x0, %x1		%x01 = fadd float %x0, %x1
ret float %x01		ret float %x01
}		}

; Repeat tests from general reductions to verify output for hoppy targets:		; Repeat tests from general reductions to verify output for hoppy targets:
; PR38971: https://bugs.llvm.org/show_bug.cgi?id=38971		; PR38971: https://bugs.llvm.org/show_bug.cgi?id=38971

declare float @llvm.experimental.vector.reduce.fadd.f32.v8f32(float, <8 x float>)		declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v8f32(float, <8 x float>)
declare double @llvm.experimental.vector.reduce.fadd.f64.v4f64(double, <4 x double>)		declare double @llvm.experimental.vector.reduce.v2.fadd.f64.v4f64(double, <4 x double>)

define float @fadd_reduce_v8f32(float %a0, <8 x float> %a1) {		define float @fadd_reduce_v8f32(float %a0, <8 x float> %a1) {
; SSE3-SLOW-LABEL: fadd_reduce_v8f32:		; SSE3-SLOW-LABEL: fadd_reduce_v8f32:
; SSE3-SLOW: # %bb.0:		; SSE3-SLOW: # %bb.0:
; SSE3-SLOW-NEXT: addps %xmm2, %xmm1		; SSE3-SLOW-NEXT: addps %xmm2, %xmm1
; SSE3-SLOW-NEXT: movaps %xmm1, %xmm2		; SSE3-SLOW-NEXT: movaps %xmm1, %xmm2
; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]		; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
; SSE3-SLOW-NEXT: addps %xmm1, %xmm2		; SSE3-SLOW-NEXT: addps %xmm1, %xmm2
; SSE3-SLOW-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]		; SSE3-SLOW-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
; SSE3-SLOW-NEXT: addss %xmm2, %xmm0		; SSE3-SLOW-NEXT: addss %xmm2, %xmm1
		; SSE3-SLOW-NEXT: addss %xmm1, %xmm0
; SSE3-SLOW-NEXT: retq		; SSE3-SLOW-NEXT: retq
;		;
; SSE3-FAST-LABEL: fadd_reduce_v8f32:		; SSE3-FAST-LABEL: fadd_reduce_v8f32:
; SSE3-FAST: # %bb.0:		; SSE3-FAST: # %bb.0:
; SSE3-FAST-NEXT: addps %xmm2, %xmm1		; SSE3-FAST-NEXT: addps %xmm2, %xmm1
; SSE3-FAST-NEXT: movaps %xmm1, %xmm0		; SSE3-FAST-NEXT: movaps %xmm1, %xmm2
; SSE3-FAST-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]		; SSE3-FAST-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
; SSE3-FAST-NEXT: addps %xmm1, %xmm0		; SSE3-FAST-NEXT: addps %xmm1, %xmm2
; SSE3-FAST-NEXT: haddps %xmm0, %xmm0		; SSE3-FAST-NEXT: haddps %xmm2, %xmm2
		; SSE3-FAST-NEXT: addss %xmm2, %xmm0
; SSE3-FAST-NEXT: retq		; SSE3-FAST-NEXT: retq
;		;
; AVX-SLOW-LABEL: fadd_reduce_v8f32:		; AVX-SLOW-LABEL: fadd_reduce_v8f32:
; AVX-SLOW: # %bb.0:		; AVX-SLOW: # %bb.0:
; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm0		; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0		; AVX-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0		; AVX-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
		; AVX-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0		; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
; AVX-SLOW-NEXT: vzeroupper		; AVX-SLOW-NEXT: vzeroupper
; AVX-SLOW-NEXT: retq		; AVX-SLOW-NEXT: retq
;		;
; AVX-FAST-LABEL: fadd_reduce_v8f32:		; AVX-FAST-LABEL: fadd_reduce_v8f32:
; AVX-FAST: # %bb.0:		; AVX-FAST: # %bb.0:
; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm0		; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX-FAST-NEXT: vaddps %xmm0, %xmm1, %xmm0		; AVX-FAST-NEXT: vaddps %xmm2, %xmm1, %xmm1
; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
; AVX-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0		; AVX-FAST-NEXT: vaddps %xmm2, %xmm1, %xmm1
; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0		; AVX-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
		; AVX-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0
; AVX-FAST-NEXT: vzeroupper		; AVX-FAST-NEXT: vzeroupper
; AVX-FAST-NEXT: retq		; AVX-FAST-NEXT: retq
%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.v8f32(float %a0, <8 x float> %a1)		%r = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v8f32(float %a0, <8 x float> %a1)
ret float %r		ret float %r
}		}

define double @fadd_reduce_v4f64(double %a0, <4 x double> %a1) {		define double @fadd_reduce_v4f64(double %a0, <4 x double> %a1) {
; SSE3-SLOW-LABEL: fadd_reduce_v4f64:		; SSE3-SLOW-LABEL: fadd_reduce_v4f64:
; SSE3-SLOW: # %bb.0:		; SSE3-SLOW: # %bb.0:
; SSE3-SLOW-NEXT: addpd %xmm2, %xmm1		; SSE3-SLOW-NEXT: addpd %xmm2, %xmm1
; SSE3-SLOW-NEXT: movapd %xmm1, %xmm0		; SSE3-SLOW-NEXT: movapd %xmm1, %xmm2
; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]		; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
; SSE3-SLOW-NEXT: addsd %xmm1, %xmm0		; SSE3-SLOW-NEXT: addsd %xmm1, %xmm2
		; SSE3-SLOW-NEXT: addsd %xmm2, %xmm0
; SSE3-SLOW-NEXT: retq		; SSE3-SLOW-NEXT: retq
;		;
; SSE3-FAST-LABEL: fadd_reduce_v4f64:		; SSE3-FAST-LABEL: fadd_reduce_v4f64:
; SSE3-FAST: # %bb.0:		; SSE3-FAST: # %bb.0:
; SSE3-FAST-NEXT: movapd %xmm1, %xmm0		; SSE3-FAST-NEXT: addpd %xmm2, %xmm1
; SSE3-FAST-NEXT: addpd %xmm2, %xmm0		; SSE3-FAST-NEXT: haddpd %xmm1, %xmm1
; SSE3-FAST-NEXT: haddpd %xmm0, %xmm0		; SSE3-FAST-NEXT: addsd %xmm1, %xmm0
; SSE3-FAST-NEXT: retq		; SSE3-FAST-NEXT: retq
;		;
; AVX-SLOW-LABEL: fadd_reduce_v4f64:		; AVX-SLOW-LABEL: fadd_reduce_v4f64:
; AVX-SLOW: # %bb.0:		; AVX-SLOW: # %bb.0:
; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm0		; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX-SLOW-NEXT: vaddpd %xmm0, %xmm1, %xmm0		; AVX-SLOW-NEXT: vaddpd %xmm2, %xmm1, %xmm1
; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
		; AVX-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1
; AVX-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0		; AVX-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
; AVX-SLOW-NEXT: vzeroupper		; AVX-SLOW-NEXT: vzeroupper
; AVX-SLOW-NEXT: retq		; AVX-SLOW-NEXT: retq
;		;
; AVX-FAST-LABEL: fadd_reduce_v4f64:		; AVX-FAST-LABEL: fadd_reduce_v4f64:
; AVX-FAST: # %bb.0:		; AVX-FAST: # %bb.0:
; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm0		; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX-FAST-NEXT: vaddpd %xmm0, %xmm1, %xmm0		; AVX-FAST-NEXT: vaddpd %xmm2, %xmm1, %xmm1
; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0		; AVX-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1
		; AVX-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
; AVX-FAST-NEXT: vzeroupper		; AVX-FAST-NEXT: vzeroupper
; AVX-FAST-NEXT: retq		; AVX-FAST-NEXT: retq
%r = call fast double @llvm.experimental.vector.reduce.fadd.f64.v4f64(double %a0, <4 x double> %a1)		%r = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.v4f64(double %a0, <4 x double> %a1)
ret double %r		ret double %r
}		}

define float @PR39936_v8f32(<8 x float>) {		define float @PR39936_v8f32(<8 x float>) {
; SSSE3-SLOW-LABEL: PR39936_v8f32:		; SSSE3-SLOW-LABEL: PR39936_v8f32:
; SSSE3-SLOW: # %bb.0:		; SSSE3-SLOW: # %bb.0:
; SSSE3-SLOW-NEXT: haddps %xmm1, %xmm0		; SSSE3-SLOW-NEXT: haddps %xmm1, %xmm0
; SSSE3-SLOW-NEXT: movaps %xmm0, %xmm1		; SSSE3-SLOW-NEXT: movaps %xmm0, %xmm1
▲ Show 20 Lines • Show All 58 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-fadd-fast.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE,SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE,SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefixes=SSE,SSE41			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefixes=SSE,SSE41
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX,AVX1,AVX1-SLOW			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX,AVX1,AVX1-SLOW
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx,+fast-hops \| FileCheck %s --check-prefixes=AVX,AVX1,AVX1-FAST			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx,+fast-hops \| FileCheck %s --check-prefixes=AVX,AVX1,AVX1-FAST
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX,AVX2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX,AVX2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw \| FileCheck %s --check-prefixes=AVX512,AVX512BW			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw \| FileCheck %s --check-prefixes=AVX512,AVX512BW
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefixes=AVX512,AVX512VL			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefixes=AVX512,AVX512VL

	;			;
	; vXf32 (accum)			; vXf32 (accum)
	;			;

	define float @test_v2f32(float %a0, <2 x float> %a1) {			define float @test_v2f32(float %a0, <2 x float> %a1) {
	; SSE2-LABEL: test_v2f32:			; SSE2-LABEL: test_v2f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm1[2,3]
	; SSE2-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm2
				; SSE2-NEXT: addss %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2f32:			; SSE41-LABEL: test_v2f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; SSE41-NEXT: addss %xmm1, %xmm0			; SSE41-NEXT: addss %xmm1, %xmm2
				; SSE41-NEXT: addss %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v2f32:			; AVX1-SLOW-LABEL: test_v2f32:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX1-SLOW-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
				; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v2f32:			; AVX1-FAST-LABEL: test_v2f32:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
				; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v2f32:			; AVX2-LABEL: test_v2f32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX2-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1
				; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32:			; AVX512-LABEL: test_v2f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
				; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.v2f32(float %a0, <2 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v2f32(float %a0, <2 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(float %a0, <4 x float> %a1) {			define float @test_v4f32(float %a0, <4 x float> %a1) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE2-NEXT: addps %xmm1, %xmm2			; SSE2-NEXT: addps %xmm1, %xmm2
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm2[2,3]
	; SSE2-NEXT: addss %xmm2, %xmm0			; SSE2-NEXT: addss %xmm2, %xmm1
				; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v4f32:			; SSE41-LABEL: test_v4f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movaps %xmm1, %xmm2			; SSE41-NEXT: movaps %xmm1, %xmm2
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE41-NEXT: addps %xmm1, %xmm2			; SSE41-NEXT: addps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSE41-NEXT: addss %xmm2, %xmm0			; SSE41-NEXT: addss %xmm2, %xmm1
				; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v4f32:			; AVX1-SLOW-LABEL: test_v4f32:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
				; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v4f32:			; AVX1-FAST-LABEL: test_v4f32:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-FAST-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX1-FAST-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
				; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4f32:			; AVX2-LABEL: test_v4f32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX2-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
				; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
				; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %a0, <4 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float %a0, <4 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32(float %a0, <8 x float> %a1) {			define float @test_v8f32(float %a0, <8 x float> %a1) {
	; SSE2-LABEL: test_v8f32:			; SSE2-LABEL: test_v8f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm2, %xmm1			; SSE2-NEXT: addps %xmm2, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE2-NEXT: addps %xmm1, %xmm2			; SSE2-NEXT: addps %xmm1, %xmm2
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm2[2,3]
	; SSE2-NEXT: addss %xmm2, %xmm0			; SSE2-NEXT: addss %xmm2, %xmm1
				; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8f32:			; SSE41-LABEL: test_v8f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: addps %xmm2, %xmm1			; SSE41-NEXT: addps %xmm2, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm2			; SSE41-NEXT: movaps %xmm1, %xmm2
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE41-NEXT: addps %xmm1, %xmm2			; SSE41-NEXT: addps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSE41-NEXT: addss %xmm2, %xmm0			; SSE41-NEXT: addss %xmm2, %xmm1
				; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v8f32:			; AVX1-SLOW-LABEL: test_v8f32:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
				; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v8f32:			; AVX1-FAST-LABEL: test_v8f32:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-FAST-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX1-FAST-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
				; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8f32:			; AVX2-LABEL: test_v8f32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
				; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
				; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(float %a0, <16 x float> %a1) {			define float @test_v16f32(float %a0, <16 x float> %a1) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm4, %xmm2			; SSE2-NEXT: addps %xmm4, %xmm2
	; SSE2-NEXT: addps %xmm3, %xmm1			; SSE2-NEXT: addps %xmm3, %xmm1
	; SSE2-NEXT: addps %xmm2, %xmm1			; SSE2-NEXT: addps %xmm2, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE2-NEXT: addps %xmm1, %xmm2			; SSE2-NEXT: addps %xmm1, %xmm2
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm2[2,3]
	; SSE2-NEXT: addss %xmm2, %xmm0			; SSE2-NEXT: addss %xmm2, %xmm1
				; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16f32:			; SSE41-LABEL: test_v16f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: addps %xmm4, %xmm2			; SSE41-NEXT: addps %xmm4, %xmm2
	; SSE41-NEXT: addps %xmm3, %xmm1			; SSE41-NEXT: addps %xmm3, %xmm1
	; SSE41-NEXT: addps %xmm2, %xmm1			; SSE41-NEXT: addps %xmm2, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm2			; SSE41-NEXT: movaps %xmm1, %xmm2
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE41-NEXT: addps %xmm1, %xmm2			; SSE41-NEXT: addps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSE41-NEXT: addss %xmm2, %xmm0			; SSE41-NEXT: addss %xmm2, %xmm1
				; SSE41-NEXT: addss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v16f32:			; AVX1-SLOW-LABEL: test_v16f32:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vaddps %ymm2, %ymm1, %ymm0			; AVX1-SLOW-NEXT: vaddps %ymm2, %ymm1, %ymm1
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
				; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v16f32:			; AVX1-FAST-LABEL: test_v16f32:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vaddps %ymm2, %ymm1, %ymm0			; AVX1-FAST-NEXT: vaddps %ymm2, %ymm1, %ymm1
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
				; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16f32:			; AVX2-LABEL: test_v16f32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vaddps %ymm2, %ymm1, %ymm0			; AVX2-NEXT: vaddps %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
				; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2
	; AVX512-NEXT: vaddps %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vaddps %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
				; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (zero)			; vXf32 (zero)
	;			;

	define float @test_v2f32_zero(<2 x float> %a0) {			define float @test_v2f32_zero(<2 x float> %a0) {
	Show All 28 Lines
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_zero:			; AVX512-LABEL: test_v2f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.v2f32(float 0.0, <2 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v2f32(float 0.0, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_zero(<4 x float> %a0) {			define float @test_v4f32_zero(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_zero:			; SSE2-LABEL: test_v4f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	Show All 38 Lines
	;			;
	; AVX512-LABEL: test_v4f32_zero:			; AVX512-LABEL: test_v4f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float 0.0, <4 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float 0.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_zero(<8 x float> %a0) {			define float @test_v8f32_zero(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_zero:			; SSE2-LABEL: test_v8f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.v8f32(float 0.0, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v8f32(float 0.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_zero(<16 x float> %a0) {			define float @test_v16f32_zero(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_zero:			; SSE2-LABEL: test_v16f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm3, %xmm1			; SSE2-NEXT: addps %xmm3, %xmm1
	; SSE2-NEXT: addps %xmm2, %xmm0			; SSE2-NEXT: addps %xmm2, %xmm0
	▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.v16f32(float 0.0, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v16f32(float 0.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (undef)			; vXf32 (undef)
	;			;

	define float @test_v2f32_undef(<2 x float> %a0) {			define float @test_v2f32_undef(<2 x float> %a0) {
	Show All 28 Lines
	; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_undef:			; AVX512-LABEL: test_v2f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.v2f32(float undef, <2 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v2f32(float 0.0, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_undef(<4 x float> %a0) {			define float @test_v4f32_undef(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_undef:			; SSE2-LABEL: test_v4f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	Show All 38 Lines
	;			;
	; AVX512-LABEL: test_v4f32_undef:			; AVX512-LABEL: test_v4f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float 0.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_undef(<8 x float> %a0) {			define float @test_v8f32_undef(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_undef:			; SSE2-LABEL: test_v8f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.v8f32(float undef, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v8f32(float 0.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_undef(<16 x float> %a0) {			define float @test_v16f32_undef(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_undef:			; SSE2-LABEL: test_v16f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm3, %xmm1			; SSE2-NEXT: addps %xmm3, %xmm1
	; SSE2-NEXT: addps %xmm2, %xmm0			; SSE2-NEXT: addps %xmm2, %xmm0
	▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.v16f32(float undef, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v16f32(float 0.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	;			;

	define double @test_v2f64(double %a0, <2 x double> %a1) {			define double @test_v2f64(double %a0, <2 x double> %a1) {
	; SSE-LABEL: test_v2f64:			; SSE-LABEL: test_v2f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm2
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm2
				; SSE-NEXT: addsd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v2f64:			; AVX1-SLOW-LABEL: test_v2f64:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-SLOW-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1
				; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v2f64:			; AVX1-FAST-LABEL: test_v2f64:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1
				; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v2f64:			; AVX2-LABEL: test_v2f64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX2-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vaddsd %xmm2, %xmm1, %xmm1
				; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
				; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.v2f64(double %a0, <2 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.v2f64(double %a0, <2 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(double %a0, <4 x double> %a1) {			define double @test_v4f64(double %a0, <4 x double> %a1) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm2, %xmm1			; SSE-NEXT: addpd %xmm2, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm2
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm2
				; SSE-NEXT: addsd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v4f64:			; AVX1-SLOW-LABEL: test_v4f64:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-SLOW-NEXT: vaddpd %xmm0, %xmm1, %xmm0			; AVX1-SLOW-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
				; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v4f64:			; AVX1-FAST-LABEL: test_v4f64:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-FAST-NEXT: vaddpd %xmm0, %xmm1, %xmm0			; AVX1-FAST-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1
				; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4f64:			; AVX2-LABEL: test_v4f64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vaddpd %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
				; AVX2-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vaddpd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
				; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm4, %xmm2			; SSE-NEXT: addpd %xmm4, %xmm2
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd %xmm2, %xmm1			; SSE-NEXT: addpd %xmm2, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm2
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm2
				; SSE-NEXT: addsd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v8f64:			; AVX1-SLOW-LABEL: test_v8f64:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vaddpd %ymm2, %ymm1, %ymm0			; AVX1-SLOW-NEXT: vaddpd %ymm2, %ymm1, %ymm1
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
				; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v8f64:			; AVX1-FAST-LABEL: test_v8f64:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vaddpd %ymm2, %ymm1, %ymm0			; AVX1-FAST-NEXT: vaddpd %ymm2, %ymm1, %ymm1
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-FAST-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1
				; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8f64:			; AVX2-LABEL: test_v8f64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vaddpd %ymm2, %ymm1, %ymm0			; AVX2-NEXT: vaddpd %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
				; AVX2-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2
	; AVX512-NEXT: vaddpd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
				; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(double %a0, <16 x double> %a1) {			define double @test_v16f64(double %a0, <16 x double> %a1) {
	; SSE-LABEL: test_v16f64:			; SSE-LABEL: test_v16f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm6, %xmm2			; SSE-NEXT: addpd %xmm6, %xmm2
	; SSE-NEXT: addpd %xmm7, %xmm3			; SSE-NEXT: addpd %xmm7, %xmm3
	; SSE-NEXT: addpd %xmm5, %xmm1			; SSE-NEXT: addpd %xmm5, %xmm1
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd {{[0-9]+}}(%rsp), %xmm4			; SSE-NEXT: addpd {{[0-9]+}}(%rsp), %xmm4
	; SSE-NEXT: addpd %xmm2, %xmm4			; SSE-NEXT: addpd %xmm2, %xmm4
	; SSE-NEXT: addpd %xmm1, %xmm4			; SSE-NEXT: addpd %xmm1, %xmm4
	; SSE-NEXT: movapd %xmm4, %xmm0			; SSE-NEXT: movapd %xmm4, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm4[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm4[1]
	; SSE-NEXT: addsd %xmm4, %xmm0			; SSE-NEXT: addsd %xmm4, %xmm1
				; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-SLOW-LABEL: test_v16f64:			; AVX1-SLOW-LABEL: test_v16f64:
	; AVX1-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX1-SLOW-NEXT: vaddpd %ymm4, %ymm2, %ymm0			; AVX1-SLOW-NEXT: vaddpd %ymm4, %ymm2, %ymm2
	; AVX1-SLOW-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX1-SLOW-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX1-SLOW-NEXT: vaddpd %ymm0, %ymm1, %ymm0			; AVX1-SLOW-NEXT: vaddpd %ymm2, %ymm1, %ymm1
	; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
				; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-SLOW-NEXT: vzeroupper			; AVX1-SLOW-NEXT: vzeroupper
	; AVX1-SLOW-NEXT: retq			; AVX1-SLOW-NEXT: retq
	;			;
	; AVX1-FAST-LABEL: test_v16f64:			; AVX1-FAST-LABEL: test_v16f64:
	; AVX1-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX1-FAST-NEXT: vaddpd %ymm4, %ymm2, %ymm0			; AVX1-FAST-NEXT: vaddpd %ymm4, %ymm2, %ymm2
	; AVX1-FAST-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX1-FAST-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX1-FAST-NEXT: vaddpd %ymm0, %ymm1, %ymm0			; AVX1-FAST-NEXT: vaddpd %ymm2, %ymm1, %ymm1
	; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-FAST-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX1-FAST-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1
				; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX1-FAST-NEXT: vzeroupper			; AVX1-FAST-NEXT: vzeroupper
	; AVX1-FAST-NEXT: retq			; AVX1-FAST-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16f64:			; AVX2-LABEL: test_v16f64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vaddpd %ymm4, %ymm2, %ymm0			; AVX2-NEXT: vaddpd %ymm4, %ymm2, %ymm2
	; AVX2-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vaddpd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vaddpd %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
				; AVX2-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm0			; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
				; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (zero)			; vXf64 (zero)
	;			;

	define double @test_v2f64_zero(<2 x double> %a0) {			define double @test_v2f64_zero(<2 x double> %a0) {
	Show All 22 Lines
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_zero:			; AVX512-LABEL: test_v2f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.v2f64(double 0.0, <2 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.v2f64(double 0.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_zero(<4 x double> %a0) {			define double @test_v4f64_zero(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_zero:			; SSE-LABEL: test_v4f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	Show All 31 Lines
	; AVX512-LABEL: test_v4f64_zero:			; AVX512-LABEL: test_v4f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.v4f64(double 0.0, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.v4f64(double 0.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_zero(<8 x double> %a0) {			define double @test_v8f64_zero(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_zero:			; SSE-LABEL: test_v8f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd %xmm2, %xmm0			; SSE-NEXT: addpd %xmm2, %xmm0
	Show All 38 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.v8f64(double 0.0, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.v8f64(double 0.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_zero(<16 x double> %a0) {			define double @test_v16f64_zero(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_zero:			; SSE-LABEL: test_v16f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm6, %xmm2			; SSE-NEXT: addpd %xmm6, %xmm2
	; SSE-NEXT: addpd %xmm4, %xmm0			; SSE-NEXT: addpd %xmm4, %xmm0
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.v16f64(double 0.0, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.v16f64(double 0.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (undef)			; vXf64 (undef)
	;			;

	define double @test_v2f64_undef(<2 x double> %a0) {			define double @test_v2f64_undef(<2 x double> %a0) {
	Show All 22 Lines
	; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_undef:			; AVX512-LABEL: test_v2f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.v2f64(double undef, <2 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.v2f64(double 0.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_undef(<4 x double> %a0) {			define double @test_v4f64_undef(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_undef:			; SSE-LABEL: test_v4f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	Show All 31 Lines
	; AVX512-LABEL: test_v4f64_undef:			; AVX512-LABEL: test_v4f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.v4f64(double undef, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.v4f64(double 0.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd %xmm2, %xmm0			; SSE-NEXT: addpd %xmm2, %xmm0
	Show All 38 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.v8f64(double undef, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.v8f64(double 0.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_undef:			; SSE-LABEL: test_v16f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm6, %xmm2			; SSE-NEXT: addpd %xmm6, %xmm2
	; SSE-NEXT: addpd %xmm4, %xmm0			; SSE-NEXT: addpd %xmm4, %xmm0
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.v16f64(double undef, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.v16f64(double 0.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fadd.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v2f32(float, <2 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v8f32(float, <8 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v16f32(float, <16 x float>)

	declare double @llvm.experimental.vector.reduce.fadd.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.v2f64(double, <2 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.v4f64(double, <4 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v8f64(double, <8 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.v8f64(double, <8 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v16f64(double, <16 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.v16f64(double, <16 x double>)

llvm/trunk/test/CodeGen/X86/vector-reduce-fadd.ll

	Show All 33 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32:			; AVX512-LABEL: test_v2f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.v2f32(float %a0, <2 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v2f32(float %a0, <2 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(float %a0, <4 x float> %a1) {			define float @test_v4f32(float %a0, <4 x float> %a1) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	Show All 34 Lines
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %a0, <4 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float %a0, <4 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32(float %a0, <8 x float> %a1) {			define float @test_v8f32(float %a0, <8 x float> %a1) {
	; SSE2-LABEL: test_v8f32:			; SSE2-LABEL: test_v8f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm1, %xmm3			; SSE2-NEXT: movaps %xmm1, %xmm3
	▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(float %a0, <16 x float> %a1) {			define float @test_v16f32(float %a0, <16 x float> %a1) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm1, %xmm5			; SSE2-NEXT: movaps %xmm1, %xmm5
	▲ Show 20 Lines • Show All 134 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (zero)			; vXf32 (zero)
	;			;

	define float @test_v2f32_zero(<2 x float> %a0) {			define float @test_v2f32_zero(<2 x float> %a0) {
	Show All 23 Lines
	;			;
	; AVX512-LABEL: test_v2f32_zero:			; AVX512-LABEL: test_v2f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vxorps %xmm1, %xmm1, %xmm1			; AVX512-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.v2f32(float 0.0, <2 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v2f32(float 0.0, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_zero(<4 x float> %a0) {			define float @test_v4f32_zero(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_zero:			; SSE2-LABEL: test_v4f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: xorps %xmm1, %xmm1			; SSE2-NEXT: xorps %xmm1, %xmm1
	; SSE2-NEXT: addss %xmm0, %xmm1			; SSE2-NEXT: addss %xmm0, %xmm1
	Show All 38 Lines
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float 0.0, <4 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float 0.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_zero(<8 x float> %a0) {			define float @test_v8f32_zero(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_zero:			; SSE2-LABEL: test_v8f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: xorps %xmm2, %xmm2			; SSE2-NEXT: xorps %xmm2, %xmm2
	; SSE2-NEXT: addss %xmm0, %xmm2			; SSE2-NEXT: addss %xmm0, %xmm2
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.v8f32(float 0.0, <8 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v8f32(float 0.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_zero(<16 x float> %a0) {			define float @test_v16f32_zero(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_zero:			; SSE2-LABEL: test_v16f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: xorps %xmm4, %xmm4			; SSE2-NEXT: xorps %xmm4, %xmm4
	; SSE2-NEXT: addss %xmm0, %xmm4			; SSE2-NEXT: addss %xmm0, %xmm4
	▲ Show 20 Lines • Show All 138 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.v16f32(float 0.0, <16 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v16f32(float 0.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (undef)			; vXf32 (undef)
	;			;

	define float @test_v2f32_undef(<2 x float> %a0) {			define float @test_v2f32_undef(<2 x float> %a0) {
	Show All 15 Lines
	; AVX-NEXT: vaddss {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vaddss {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_undef:			; AVX512-LABEL: test_v2f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vaddss {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.v2f32(float undef, <2 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v2f32(float undef, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_undef(<4 x float> %a0) {			define float @test_v4f32_undef(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_undef:			; SSE2-LABEL: test_v4f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
	Show All 30 Lines
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss {{.*}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vaddss {{.*}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float undef, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_undef(<8 x float> %a0) {			define float @test_v8f32_undef(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_undef:			; SSE2-LABEL: test_v8f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm2			; SSE2-NEXT: movaps %xmm0, %xmm2
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[2,3]
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.v8f32(float undef, <8 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v8f32(float undef, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_undef(<16 x float> %a0) {			define float @test_v16f32_undef(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_undef:			; SSE2-LABEL: test_v16f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm4			; SSE2-NEXT: movaps %xmm0, %xmm4
	; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm0[2,3]
	▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.v16f32(float undef, <16 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v16f32(float undef, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	;			;

	define double @test_v2f64(double %a0, <2 x double> %a1) {			define double @test_v2f64(double %a0, <2 x double> %a1) {
	Show All 12 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.v2f64(double %a0, <2 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.v2f64(double %a0, <2 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(double %a0, <4 x double> %a1) {			define double @test_v4f64(double %a0, <4 x double> %a1) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	Show All 21 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(double %a0, <16 x double> %a1) {			define double @test_v16f64(double %a0, <16 x double> %a1) {
	; SSE-LABEL: test_v16f64:			; SSE-LABEL: test_v16f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd {{[0-9]+}}(%rsp), %xmm8			; SSE-NEXT: movapd {{[0-9]+}}(%rsp), %xmm8
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (zero)			; vXf64 (zero)
	;			;

	define double @test_v2f64_zero(<2 x double> %a0) {			define double @test_v2f64_zero(<2 x double> %a0) {
	Show All 15 Lines
	;			;
	; AVX512-LABEL: test_v2f64_zero:			; AVX512-LABEL: test_v2f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vxorpd %xmm1, %xmm1, %xmm1			; AVX512-NEXT: vxorpd %xmm1, %xmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.v2f64(double 0.0, <2 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.v2f64(double 0.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_zero(<4 x double> %a0) {			define double @test_v4f64_zero(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_zero:			; SSE-LABEL: test_v4f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: xorpd %xmm2, %xmm2			; SSE-NEXT: xorpd %xmm2, %xmm2
	; SSE-NEXT: addsd %xmm0, %xmm2			; SSE-NEXT: addsd %xmm0, %xmm2
	Show All 24 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.v4f64(double 0.0, <4 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.v4f64(double 0.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_zero(<8 x double> %a0) {			define double @test_v8f64_zero(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_zero:			; SSE-LABEL: test_v8f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: xorpd %xmm4, %xmm4			; SSE-NEXT: xorpd %xmm4, %xmm4
	; SSE-NEXT: addsd %xmm0, %xmm4			; SSE-NEXT: addsd %xmm0, %xmm4
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.v8f64(double 0.0, <8 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.v8f64(double 0.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_zero(<16 x double> %a0) {			define double @test_v16f64_zero(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_zero:			; SSE-LABEL: test_v16f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: xorpd %xmm8, %xmm8			; SSE-NEXT: xorpd %xmm8, %xmm8
	; SSE-NEXT: addsd %xmm0, %xmm8			; SSE-NEXT: addsd %xmm0, %xmm8
	▲ Show 20 Lines • Show All 86 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.v16f64(double 0.0, <16 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.v16f64(double 0.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (undef)			; vXf64 (undef)
	;			;

	define double @test_v2f64_undef(<2 x double> %a0) {			define double @test_v2f64_undef(<2 x double> %a0) {
	Show All 9 Lines
	; AVX-NEXT: vaddsd {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vaddsd {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_undef:			; AVX512-LABEL: test_v2f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vaddsd {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.v2f64(double undef, <2 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.v2f64(double undef, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_undef(<4 x double> %a0) {			define double @test_v4f64_undef(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_undef:			; SSE-LABEL: test_v4f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: addsd {{.*}}(%rip), %xmm0			; SSE-NEXT: addsd {{.*}}(%rip), %xmm0
	Show All 18 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd {{.*}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vaddsd {{.*}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.v4f64(double undef, <4 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.v4f64(double undef, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: addsd {{.*}}(%rip), %xmm0			; SSE-NEXT: addsd {{.*}}(%rip), %xmm0
	Show All 39 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.v8f64(double undef, <8 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.v8f64(double undef, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_undef:			; SSE-LABEL: test_v16f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: addsd {{.*}}(%rip), %xmm0			; SSE-NEXT: addsd {{.*}}(%rip), %xmm0
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.v16f64(double undef, <16 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.v16f64(double undef, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fadd.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v2f32(float, <2 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v8f32(float, <8 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v16f32(float, <16 x float>)

	declare double @llvm.experimental.vector.reduce.fadd.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.v2f64(double, <2 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.v4f64(double, <4 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v8f64(double, <8 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.v8f64(double, <8 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v16f64(double, <16 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.v16f64(double, <16 x double>)

llvm/trunk/test/CodeGen/X86/vector-reduce-fmul-fast.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE41			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE41
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512BW			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512BW
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512VL			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512VL

	;			;
	; vXf32 (accum)			; vXf32 (accum)
	;			;

	define float @test_v2f32(float %a0, <2 x float> %a1) {			define float @test_v2f32(float %a0, <2 x float> %a1) {
	; SSE2-LABEL: test_v2f32:			; SSE2-LABEL: test_v2f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm1[2,3]
	; SSE2-NEXT: mulss %xmm1, %xmm0			; SSE2-NEXT: mulss %xmm1, %xmm2
				; SSE2-NEXT: mulss %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2f32:			; SSE41-LABEL: test_v2f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; SSE41-NEXT: mulss %xmm1, %xmm0			; SSE41-NEXT: mulss %xmm1, %xmm2
				; SSE41-NEXT: mulss %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f32:			; AVX-LABEL: test_v2f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1
				; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32:			; AVX512-LABEL: test_v2f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
				; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.v2f32(float %a0, <2 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v2f32(float %a0, <2 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(float %a0, <4 x float> %a1) {			define float @test_v4f32(float %a0, <4 x float> %a1) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE2-NEXT: mulps %xmm1, %xmm2			; SSE2-NEXT: mulps %xmm1, %xmm2
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm2[2,3]
	; SSE2-NEXT: mulss %xmm2, %xmm0			; SSE2-NEXT: mulss %xmm2, %xmm1
				; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v4f32:			; SSE41-LABEL: test_v4f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movaps %xmm1, %xmm2			; SSE41-NEXT: movaps %xmm1, %xmm2
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE41-NEXT: mulps %xmm1, %xmm2			; SSE41-NEXT: mulps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSE41-NEXT: mulss %xmm2, %xmm0			; SSE41-NEXT: mulss %xmm2, %xmm1
				; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32:			; AVX-LABEL: test_v4f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulps %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
				; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
				; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %a0, <4 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float %a0, <4 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32(float %a0, <8 x float> %a1) {			define float @test_v8f32(float %a0, <8 x float> %a1) {
	; SSE2-LABEL: test_v8f32:			; SSE2-LABEL: test_v8f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm2, %xmm1			; SSE2-NEXT: mulps %xmm2, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE2-NEXT: mulps %xmm1, %xmm2			; SSE2-NEXT: mulps %xmm1, %xmm2
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm2[2,3]
	; SSE2-NEXT: mulss %xmm2, %xmm0			; SSE2-NEXT: mulss %xmm2, %xmm1
				; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8f32:			; SSE41-LABEL: test_v8f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: mulps %xmm2, %xmm1			; SSE41-NEXT: mulps %xmm2, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm2			; SSE41-NEXT: movaps %xmm1, %xmm2
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE41-NEXT: mulps %xmm1, %xmm2			; SSE41-NEXT: mulps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSE41-NEXT: mulss %xmm2, %xmm0			; SSE41-NEXT: mulss %xmm2, %xmm1
				; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-NEXT: vmulps %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
				; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
				; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(float %a0, <16 x float> %a1) {			define float @test_v16f32(float %a0, <16 x float> %a1) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm4, %xmm2			; SSE2-NEXT: mulps %xmm4, %xmm2
	; SSE2-NEXT: mulps %xmm3, %xmm1			; SSE2-NEXT: mulps %xmm3, %xmm1
	; SSE2-NEXT: mulps %xmm2, %xmm1			; SSE2-NEXT: mulps %xmm2, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE2-NEXT: mulps %xmm1, %xmm2			; SSE2-NEXT: mulps %xmm1, %xmm2
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm2[2,3]
	; SSE2-NEXT: mulss %xmm2, %xmm0			; SSE2-NEXT: mulss %xmm2, %xmm1
				; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16f32:			; SSE41-LABEL: test_v16f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: mulps %xmm4, %xmm2			; SSE41-NEXT: mulps %xmm4, %xmm2
	; SSE41-NEXT: mulps %xmm3, %xmm1			; SSE41-NEXT: mulps %xmm3, %xmm1
	; SSE41-NEXT: mulps %xmm2, %xmm1			; SSE41-NEXT: mulps %xmm2, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm2			; SSE41-NEXT: movaps %xmm1, %xmm2
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE41-NEXT: mulps %xmm1, %xmm2			; SSE41-NEXT: mulps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSE41-NEXT: mulss %xmm2, %xmm0			; SSE41-NEXT: mulss %xmm2, %xmm1
				; SSE41-NEXT: mulss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32:			; AVX-LABEL: test_v16f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulps %ymm2, %ymm1, %ymm0			; AVX-NEXT: vmulps %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
				; AVX-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2
	; AVX512-NEXT: vmulps %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vmulps %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
				; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (one)			; vXf32 (one)
	;			;

	define float @test_v2f32_zero(<2 x float> %a0) {			define float @test_v2f32_zero(<2 x float> %a0) {
	Show All 17 Lines
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_zero:			; AVX512-LABEL: test_v2f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.v2f32(float 1.0, <2 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v2f32(float 1.0, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_zero(<4 x float> %a0) {			define float @test_v4f32_zero(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_zero:			; SSE2-LABEL: test_v4f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	Show All 23 Lines
	;			;
	; AVX512-LABEL: test_v4f32_zero:			; AVX512-LABEL: test_v4f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float 1.0, <4 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float 1.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_zero(<8 x float> %a0) {			define float @test_v8f32_zero(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_zero:			; SSE2-LABEL: test_v8f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	Show All 31 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.v8f32(float 1.0, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v8f32(float 1.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_zero(<16 x float> %a0) {			define float @test_v16f32_zero(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_zero:			; SSE2-LABEL: test_v16f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm3, %xmm1			; SSE2-NEXT: mulps %xmm3, %xmm1
	; SSE2-NEXT: mulps %xmm2, %xmm0			; SSE2-NEXT: mulps %xmm2, %xmm0
	Show All 38 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.v16f32(float 1.0, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v16f32(float 1.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (undef)			; vXf32 (undef)
	;			;

	define float @test_v2f32_undef(<2 x float> %a0) {			define float @test_v2f32_undef(<2 x float> %a0) {
	Show All 17 Lines
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_undef:			; AVX512-LABEL: test_v2f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.v2f32(float undef, <2 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v2f32(float 1.0, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_undef(<4 x float> %a0) {			define float @test_v4f32_undef(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_undef:			; SSE2-LABEL: test_v4f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	Show All 23 Lines
	;			;
	; AVX512-LABEL: test_v4f32_undef:			; AVX512-LABEL: test_v4f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float 1.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_undef(<8 x float> %a0) {			define float @test_v8f32_undef(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_undef:			; SSE2-LABEL: test_v8f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	Show All 31 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.v8f32(float undef, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v8f32(float 1.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_undef(<16 x float> %a0) {			define float @test_v16f32_undef(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_undef:			; SSE2-LABEL: test_v16f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm3, %xmm1			; SSE2-NEXT: mulps %xmm3, %xmm1
	; SSE2-NEXT: mulps %xmm2, %xmm0			; SSE2-NEXT: mulps %xmm2, %xmm0
	Show All 38 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.v16f32(float undef, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v16f32(float 1.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	;			;

	define double @test_v2f64(double %a0, <2 x double> %a1) {			define double @test_v2f64(double %a0, <2 x double> %a1) {
	; SSE-LABEL: test_v2f64:			; SSE-LABEL: test_v2f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm2
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm2
				; SSE-NEXT: mulsd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64:			; AVX-LABEL: test_v2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulsd %xmm2, %xmm1, %xmm1
				; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
				; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.v2f64(double %a0, <2 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.v2f64(double %a0, <2 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(double %a0, <4 x double> %a1) {			define double @test_v4f64(double %a0, <4 x double> %a1) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm2, %xmm1			; SSE-NEXT: mulpd %xmm2, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm2
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm2
				; SSE-NEXT: mulsd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-NEXT: vmulpd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulpd %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
				; AVX-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vmulpd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulpd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
				; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm4, %xmm2			; SSE-NEXT: mulpd %xmm4, %xmm2
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm2, %xmm1			; SSE-NEXT: mulpd %xmm2, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm2
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm2
				; SSE-NEXT: mulsd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
				; AVX-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2
	; AVX512-NEXT: vmulpd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
				; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(double %a0, <16 x double> %a1) {			define double @test_v16f64(double %a0, <16 x double> %a1) {
	; SSE-LABEL: test_v16f64:			; SSE-LABEL: test_v16f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm6, %xmm2			; SSE-NEXT: mulpd %xmm6, %xmm2
	; SSE-NEXT: mulpd %xmm7, %xmm3			; SSE-NEXT: mulpd %xmm7, %xmm3
	; SSE-NEXT: mulpd %xmm5, %xmm1			; SSE-NEXT: mulpd %xmm5, %xmm1
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd {{[0-9]+}}(%rsp), %xmm4			; SSE-NEXT: mulpd {{[0-9]+}}(%rsp), %xmm4
	; SSE-NEXT: mulpd %xmm2, %xmm4			; SSE-NEXT: mulpd %xmm2, %xmm4
	; SSE-NEXT: mulpd %xmm1, %xmm4			; SSE-NEXT: mulpd %xmm1, %xmm4
	; SSE-NEXT: movapd %xmm4, %xmm0			; SSE-NEXT: movapd %xmm4, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm4[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm4[1]
	; SSE-NEXT: mulsd %xmm4, %xmm0			; SSE-NEXT: mulsd %xmm4, %xmm1
				; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64:			; AVX-LABEL: test_v16f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm4, %ymm2, %ymm0			; AVX-NEXT: vmulpd %ymm4, %ymm2, %ymm2
	; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vmulpd %ymm0, %ymm1, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm1
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
				; AVX-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm0			; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm2
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
				; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (one)			; vXf64 (one)
	;			;

	define double @test_v2f64_zero(<2 x double> %a0) {			define double @test_v2f64_zero(<2 x double> %a0) {
	Show All 11 Lines
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_zero:			; AVX512-LABEL: test_v2f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.v2f64(double 1.0, <2 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.v2f64(double 1.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_zero(<4 x double> %a0) {			define double @test_v4f64_zero(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_zero:			; SSE-LABEL: test_v4f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	Show All 14 Lines
	; AVX512-LABEL: test_v4f64_zero:			; AVX512-LABEL: test_v4f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.v4f64(double 1.0, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.v4f64(double 1.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_zero(<8 x double> %a0) {			define double @test_v8f64_zero(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_zero:			; SSE-LABEL: test_v8f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm2, %xmm0			; SSE-NEXT: mulpd %xmm2, %xmm0
	Show All 19 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.v8f64(double 1.0, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.v8f64(double 1.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_zero(<16 x double> %a0) {			define double @test_v16f64_zero(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_zero:			; SSE-LABEL: test_v16f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm6, %xmm2			; SSE-NEXT: mulpd %xmm6, %xmm2
	; SSE-NEXT: mulpd %xmm4, %xmm0			; SSE-NEXT: mulpd %xmm4, %xmm0
	Show All 25 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.v16f64(double 1.0, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.v16f64(double 1.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (undef)			; vXf64 (undef)
	;			;

	define double @test_v2f64_undef(<2 x double> %a0) {			define double @test_v2f64_undef(<2 x double> %a0) {
	Show All 11 Lines
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_undef:			; AVX512-LABEL: test_v2f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.v2f64(double undef, <2 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.v2f64(double 1.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_undef(<4 x double> %a0) {			define double @test_v4f64_undef(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_undef:			; SSE-LABEL: test_v4f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	Show All 14 Lines
	; AVX512-LABEL: test_v4f64_undef:			; AVX512-LABEL: test_v4f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.v4f64(double undef, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.v4f64(double 1.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm2, %xmm0			; SSE-NEXT: mulpd %xmm2, %xmm0
	Show All 19 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.v8f64(double undef, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.v8f64(double 1.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_undef:			; SSE-LABEL: test_v16f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm6, %xmm2			; SSE-NEXT: mulpd %xmm6, %xmm2
	; SSE-NEXT: mulpd %xmm4, %xmm0			; SSE-NEXT: mulpd %xmm4, %xmm0
	Show All 25 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.v16f64(double undef, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.v16f64(double 1.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fmul.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.v2.fmul.f32.v2f32(float, <2 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.v2.fmul.f32.v8f32(float, <8 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.v2.fmul.f32.v16f32(float, <16 x float>)

	declare double @llvm.experimental.vector.reduce.fmul.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.v2.fmul.f64.v2f64(double, <2 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.v2.fmul.f64.v4f64(double, <4 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.v8f64(double, <8 x double>)			declare double @llvm.experimental.vector.reduce.v2.fmul.f64.v8f64(double, <8 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.v16f64(double, <16 x double>)			declare double @llvm.experimental.vector.reduce.v2.fmul.f64.v16f64(double, <16 x double>)

llvm/trunk/test/CodeGen/X86/vector-reduce-fmul.ll

	Show All 32 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32:			; AVX512-LABEL: test_v2f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.v2f32(float %a0, <2 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v2f32(float %a0, <2 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(float %a0, <4 x float> %a1) {			define float @test_v4f32(float %a0, <4 x float> %a1) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulss %xmm1, %xmm0			; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	Show All 34 Lines
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %a0, <4 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float %a0, <4 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32(float %a0, <8 x float> %a1) {			define float @test_v8f32(float %a0, <8 x float> %a1) {
	; SSE2-LABEL: test_v8f32:			; SSE2-LABEL: test_v8f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulss %xmm1, %xmm0			; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm1, %xmm3			; SSE2-NEXT: movaps %xmm1, %xmm3
	▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(float %a0, <16 x float> %a1) {			define float @test_v16f32(float %a0, <16 x float> %a1) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulss %xmm1, %xmm0			; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm1, %xmm5			; SSE2-NEXT: movaps %xmm1, %xmm5
	▲ Show 20 Lines • Show All 134 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (one)			; vXf32 (one)
	;			;

	define float @test_v2f32_one(<2 x float> %a0) {			define float @test_v2f32_one(<2 x float> %a0) {
	Show All 17 Lines
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_one:			; AVX512-LABEL: test_v2f32_one:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.v2f32(float 1.0, <2 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v2f32(float 1.0, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_one(<4 x float> %a0) {			define float @test_v4f32_one(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_one:			; SSE2-LABEL: test_v4f32_one:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
	Show All 30 Lines
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float 1.0, <4 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float 1.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_one(<8 x float> %a0) {			define float @test_v8f32_one(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_one:			; SSE2-LABEL: test_v8f32_one:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm2			; SSE2-NEXT: movaps %xmm0, %xmm2
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[2,3]
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.v8f32(float 1.0, <8 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v8f32(float 1.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_one(<16 x float> %a0) {			define float @test_v16f32_one(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_one:			; SSE2-LABEL: test_v16f32_one:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm4			; SSE2-NEXT: movaps %xmm0, %xmm4
	; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm0[2,3]
	▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.v16f32(float 1.0, <16 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v16f32(float 1.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (undef)			; vXf32 (undef)
	;			;

	define float @test_v2f32_undef(<2 x float> %a0) {			define float @test_v2f32_undef(<2 x float> %a0) {
	Show All 15 Lines
	; AVX-NEXT: vmulss {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vmulss {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_undef:			; AVX512-LABEL: test_v2f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vmulss {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.v2f32(float undef, <2 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v2f32(float undef, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_undef(<4 x float> %a0) {			define float @test_v4f32_undef(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_undef:			; SSE2-LABEL: test_v4f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
	Show All 30 Lines
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss {{.*}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vmulss {{.*}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float undef, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_undef(<8 x float> %a0) {			define float @test_v8f32_undef(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_undef:			; SSE2-LABEL: test_v8f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm2			; SSE2-NEXT: movaps %xmm0, %xmm2
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[2,3]
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.v8f32(float undef, <8 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v8f32(float undef, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_undef(<16 x float> %a0) {			define float @test_v16f32_undef(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_undef:			; SSE2-LABEL: test_v16f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm4			; SSE2-NEXT: movaps %xmm0, %xmm4
	; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm0[2,3]
	▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.v16f32(float undef, <16 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v16f32(float undef, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	;			;

	define double @test_v2f64(double %a0, <2 x double> %a1) {			define double @test_v2f64(double %a0, <2 x double> %a1) {
	Show All 12 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.v2f64(double %a0, <2 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.v2f64(double %a0, <2 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(double %a0, <4 x double> %a1) {			define double @test_v4f64(double %a0, <4 x double> %a1) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	Show All 21 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(double %a0, <16 x double> %a1) {			define double @test_v16f64(double %a0, <16 x double> %a1) {
	; SSE-LABEL: test_v16f64:			; SSE-LABEL: test_v16f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd {{[0-9]+}}(%rsp), %xmm8			; SSE-NEXT: movapd {{[0-9]+}}(%rsp), %xmm8
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (one)			; vXf64 (one)
	;			;

	define double @test_v2f64_one(<2 x double> %a0) {			define double @test_v2f64_one(<2 x double> %a0) {
	Show All 11 Lines
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_one:			; AVX512-LABEL: test_v2f64_one:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.v2f64(double 1.0, <2 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.v2f64(double 1.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_one(<4 x double> %a0) {			define double @test_v4f64_one(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_one:			; SSE-LABEL: test_v4f64_one:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm2			; SSE-NEXT: movapd %xmm0, %xmm2
	; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
	Show All 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.v4f64(double 1.0, <4 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.v4f64(double 1.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_one(<8 x double> %a0) {			define double @test_v8f64_one(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_one:			; SSE-LABEL: test_v8f64_one:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm4			; SSE-NEXT: movapd %xmm0, %xmm4
	; SSE-NEXT: unpckhpd {{.*#+}} xmm4 = xmm4[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm4 = xmm4[1],xmm0[1]
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.v8f64(double 1.0, <8 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.v8f64(double 1.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_one(<16 x double> %a0) {			define double @test_v16f64_one(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_one:			; SSE-LABEL: test_v16f64_one:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm8			; SSE-NEXT: movapd %xmm0, %xmm8
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	▲ Show 20 Lines • Show All 81 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.v16f64(double 1.0, <16 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.v16f64(double 1.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (undef)			; vXf64 (undef)
	;			;

	define double @test_v2f64_undef(<2 x double> %a0) {			define double @test_v2f64_undef(<2 x double> %a0) {
	Show All 9 Lines
	; AVX-NEXT: vmulsd {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vmulsd {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_undef:			; AVX512-LABEL: test_v2f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vmulsd {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.v2f64(double undef, <2 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.v2f64(double undef, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_undef(<4 x double> %a0) {			define double @test_v4f64_undef(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_undef:			; SSE-LABEL: test_v4f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: mulsd {{.*}}(%rip), %xmm0			; SSE-NEXT: mulsd {{.*}}(%rip), %xmm0
	Show All 18 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd {{.*}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vmulsd {{.*}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.v4f64(double undef, <4 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.v4f64(double undef, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: mulsd {{.*}}(%rip), %xmm0			; SSE-NEXT: mulsd {{.*}}(%rip), %xmm0
	Show All 39 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.v8f64(double undef, <8 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.v8f64(double undef, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_undef:			; SSE-LABEL: test_v16f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: mulsd {{.*}}(%rip), %xmm0			; SSE-NEXT: mulsd {{.*}}(%rip), %xmm0
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.v16f64(double undef, <16 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.v16f64(double undef, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fmul.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.v2.fmul.f32.v2f32(float, <2 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.v2.fmul.f32.v8f32(float, <8 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.v2.fmul.f32.v16f32(float, <16 x float>)

	declare double @llvm.experimental.vector.reduce.fmul.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.v2.fmul.f64.v2f64(double, <2 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.v2.fmul.f64.v4f64(double, <4 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.v8f64(double, <8 x double>)			declare double @llvm.experimental.vector.reduce.v2.fmul.f64.v8f64(double, <8 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.v16f64(double, <16 x double>)			declare double @llvm.experimental.vector.reduce.v2.fmul.f64.v16f64(double, <16 x double>)

This is an archive of the discontinued LLVM Phabricator instance.

Change semantics of fadd/fmul vector reductions.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 203984

llvm/trunk/docs/LangRef.rst

llvm/trunk/include/llvm/CodeGen/BasicTTIImpl.h

llvm/trunk/include/llvm/IR/Intrinsics.td

llvm/trunk/lib/CodeGen/ExpandReductions.cpp

llvm/trunk/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp

llvm/trunk/lib/IR/AutoUpgrade.cpp

llvm/trunk/lib/IR/IRBuilder.cpp

llvm/trunk/lib/Transforms/Utils/LoopUtils.cpp

llvm/trunk/test/Assembler/invalid-vecreduce.ll

llvm/trunk/test/Bitcode/upgrade-vecreduce-intrinsics.ll

llvm/trunk/test/Bitcode/upgrade-vecreduce-intrinsics.ll.bc

llvm/trunk/test/CodeGen/AArch64/vecreduce-fadd-legalization.ll

llvm/trunk/test/CodeGen/AArch64/vecreduce-fadd.ll

llvm/trunk/test/CodeGen/Generic/expand-experimental-reductions.ll

llvm/trunk/test/CodeGen/X86/haddsub.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-fadd-fast.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-fadd.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-fmul-fast.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-fmul.ll

Change semantics of fadd/fmul vector reductions.
ClosedPublic