This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
docs/
-
LangRef.rst
-
include/llvm/
-
llvm/
-
CodeGen/
2/2
BasicTTIImpl.h
-
IR/
-
Intrinsics.td
-
lib/
-
CodeGen/
-
ExpandReductions.cpp
-
SelectionDAG/
-
SelectionDAGBuilder.cpp
-
IR/
-
AutoUpgrade.cpp
-
IRBuilder.cpp
-
Transforms/Utils/
-
Utils/
-
LoopUtils.cpp
-
test/
-
Assembler/
-
invalid-vecreduce.ll
-
Bitcode/
-
upgrade-vecreduce-intrinsics.ll
-
upgrade-vecreduce-intrinsics.ll.bc
-
CodeGen/
-
AArch64/
-
vecreduce-fadd-legalization.ll
-
vecreduce-fadd.ll
-
Generic/
2/2
expand-experimental-reductions.ll
-
X86/
-
haddsub.ll
-
vector-reduce-fadd-fast.ll
-
vector-reduce-fadd.ll
-
vector-reduce-fmul-fast.ll
-
vector-reduce-fmul.ll

Differential D60261

Change semantics of fadd/fmul vector reductions.
ClosedPublic

Authored by sdesmalen on Apr 4 2019, 5:48 AM.

Download Raw Diff

Details

Reviewers

RKSimon
greened
dmgreen
nikic
simoll
aemerson

Commits

rGcbeb563cfb17: Change semantics of fadd/fmul vector reductions.
rL363035: Change semantics of fadd/fmul vector reductions.

Summary

This patch changes how LLVM handles the accumulator/start value
in the reduction, by never ignoring it regardless of the presence of
fast-math flags on callsites. This change introduces the following
new intrinsics to replace the existing ones:

llvm.experimental.vector.reduce.fadd -> llvm.experimental.vector.reduce.v2.fadd
llvm.experimental.vector.reduce.fmul -> llvm.experimental.vector.reduce.v2.fmul

and adds functionality to auto-upgrade existing LLVM IR and bitcode.

Diff Detail

Event Timeline

sdesmalen created this revision.Apr 4 2019, 5:48 AM

Herald added a subscriber: javed.absar. · View Herald TranscriptApr 4 2019, 5:48 AM

nikic added a subscriber: nikic.Apr 6 2019, 8:45 AM

simoll added a subscriber: simoll.Apr 7 2019, 9:56 PM

dmgreen added a subscriber: dmgreen.Apr 12 2019, 11:10 AM

steleman added a subscriber: steleman.Apr 16 2019, 5:11 AM

Rereading the ML discussion just now, it looks like the consensus is to go with this option. Move forward?

nikic mentioned this in D59356: [SelectionDAGBuilder] Use accumulator value in VECREDUCE_FADD/FMUL.May 11 2019, 1:50 AM

In D60261#1499008, @nikic wrote:

Rereading the ML discussion just now, it looks like the consensus is to go with this option. Move forward?

Thanks for the prod! I've sent an update to the ML.

sdesmalen retitled this revision from [Option A] Change semantics of fadd/fmul vector reductions. to Change semantics of fadd/fmul vector reductions..Jun 7 2019, 1:14 AM

sdesmalen edited the summary of this revision. (Show Details)

sdesmalen added reviewers: RKSimon, greened, dmgreen, nikic, simoll, aemerson.

sdesmalen mentioned this in D60262: [Option B] Create explicit ordered/unordered reduction intrinsics for fadd/fmul..

spatel added a subscriber: spatel.Jun 7 2019, 5:57 AM

nikic added inline comments.Jun 7 2019, 12:25 PM

test/CodeGen/Generic/expand-experimental-reductions.ll
113	The expansion above looks wrong per new semantics -- shouldn't there be a use `%accum` in there? Probably the IR level expansion code needs to be adjusted.

Fixed ExpandReductions pass to use the accumulator value and updated corresponding tests.

sdesmalen marked an inline comment as done.Jun 8 2019, 6:38 AM

sdesmalen added inline comments.

test/CodeGen/Generic/expand-experimental-reductions.ll
113	Good spot! I've fixed this now.

LGTM with the FIXME adjusted.

include/llvm/CodeGen/BasicTTIImpl.h
1260	Regardless of IsPairwiseForm, this will compute an unordered reduction cost, just for two different reduction strategies. Just passing FMF.allowReassoc() here wouldn't be meaningful. We'd need a separate flag to indicate ordered reductions.

This revision is now accepted and ready to land.Jun 8 2019, 8:25 AM

Closed by commit rL363035: Change semantics of fadd/fmul vector reductions. (authored by s.desmalen). · Explain WhyJun 11 2019, 1:19 AM

This revision was automatically updated to reflect the committed changes.

Herald added a project: Restricted Project. · View Herald TranscriptJun 11 2019, 1:19 AM

Thanks for the review!

include/llvm/CodeGen/BasicTTIImpl.h
1260	I've updated the FIXME comment to reflect this before committing the patch.

It looks like the documentation change may have broken the sphinx doc job (though I'm not certain it was this change, but the error comes from one of the lines this file touched): http://lab.llvm.org:8011/builders/llvm-sphinx-docs/builds/32236

In D60261#1538016, @jhenderson wrote:

It looks like the documentation change may have broken the sphinx doc job (though I'm not certain it was this change, but the error comes from one of the lines this file touched): http://lab.llvm.org:8011/builders/llvm-sphinx-docs/builds/32236

Thanks for pointing out, for some reason I did not get an automated email about this failure.

I wonder if the 0.0 fp literal is causing the error, although I can't reproduce this locally (maybe due to different version of sphinx?). Probably the simplest fix to get buildbot passing again is to replace the ..code-block:: llvm with ::.

(Note that the LangRef on llvm.org is correctly updated)

In D60261#1538124, @sdesmalen wrote:

In D60261#1538016, @jhenderson wrote:

It looks like the documentation change may have broken the sphinx doc job (though I'm not certain it was this change, but the error comes from one of the lines this file touched): http://lab.llvm.org:8011/builders/llvm-sphinx-docs/builds/32236

Thanks for pointing out, for some reason I did not get an automated email about this failure.

I wonder if the 0.0 fp literal is causing the error, although I can't reproduce this locally (maybe due to different version of sphinx?). Probably the simplest fix to get buildbot passing again is to replace the ..code-block:: llvm with ::.

(Note that the LangRef on llvm.org is correctly updated)

Sounds good, although I'm not really up to speed with the sphinx system yet, so I can't say for sure that it will work!

sdesmalen mentioned this in D59259: [AArch64] Use faddp to implement fadd reductions..Jun 17 2019, 5:09 AM

Revision Contents

Path

Size

docs/

LangRef.rst

58 lines

include/

llvm/

CodeGen/

BasicTTIImpl.h

20 lines

IR/

Intrinsics.td

16 lines

lib/

CodeGen/

ExpandReductions.cpp

11 lines

SelectionDAG/

SelectionDAGBuilder.cpp

18 lines

IR/

AutoUpgrade.cpp

43 lines

IRBuilder.cpp

4 lines

Transforms/

Utils/

LoopUtils.cpp

14 lines

test/

Assembler/

invalid-vecreduce.ll

24 lines

Bitcode/

upgrade-vecreduce-intrinsics.ll

64 lines

upgrade-vecreduce-intrinsics.ll.bc

CodeGen/

AArch64/

vecreduce-fadd-legalization.ll

28 lines

vecreduce-fadd.ll

32 lines

Generic/

expand-experimental-reductions.ll

20 lines

X86/

haddsub.ll

8 lines

vector-reduce-fadd-fast.ll

64 lines

vector-reduce-fadd.ll

64 lines

vector-reduce-fmul-fast.ll

64 lines

vector-reduce-fmul.ll

64 lines

Diff 193692

docs/LangRef.rst

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 13,449 Lines • ▼ Show 20 Lines
	The '``llvm.experimental.vector.reduce.add.*``' intrinsics do an integer ``ADD``			The '``llvm.experimental.vector.reduce.add.*``' intrinsics do an integer ``ADD``
	reduction of a vector, returning the result as a scalar. The return type matches			reduction of a vector, returning the result as a scalar. The return type matches
	the element-type of the vector input.			the element-type of the vector input.

	Arguments:			Arguments:
	""""""""""			""""""""""
	The argument to this intrinsic must be a vector of integer values.			The argument to this intrinsic must be a vector of integer values.

	'``llvm.experimental.vector.reduce.fadd.*``' Intrinsic			'``llvm.experimental.vector.reduce.v2.fadd.*``' Intrinsic
	^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^			^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

	Syntax:			Syntax:
	"""""""			"""""""

	::			::

	declare float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %acc, <4 x float> %a)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float %start_value, <4 x float> %a)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v2f64(double %acc, <2 x double> %a)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.v2f64(double %start_value, <2 x double> %a)

	Overview:			Overview:
	"""""""""			"""""""""

	The '``llvm.experimental.vector.reduce.fadd.*``' intrinsics do a floating-point			The '``llvm.experimental.vector.reduce.v2.fadd.*``' intrinsics do a floating-point
	``ADD`` reduction of a vector, returning the result as a scalar. The return type			``ADD`` reduction of a vector, returning the result as a scalar. The return type
	matches the element-type of the vector input.			matches the element-type of the vector input.

	If the intrinsic call has fast-math flags, then the reduction will not preserve			If the intrinsic call has the 'reassoc' or 'fast' flags set, then the
	the associativity of an equivalent scalarized counterpart. If it does not have			reduction will not preserve the associativity of an equivalent scalarized
	fast-math flags, then the reduction will be ordered, implying that the			counterpart. Otherwise the reduction will be ordered, thus implying that
	operation respects the associativity of a scalarized reduction.			the operation respects the associativity of a scalarized reduction.


	Arguments:			Arguments:
	""""""""""			""""""""""
	The first argument to this intrinsic is a scalar accumulator value, which is			The first argument to this intrinsic is a scalar start value for the reduction.
	only used when there are no fast-math flags attached. This argument may be undef			The type of the start value matches the element-type of the vector input.
	when fast-math flags are used. The type of the accumulator matches the
	element-type of the vector input.

	The second argument must be a vector of floating-point values.			The second argument must be a vector of floating-point values.

	Examples:			Examples:
	"""""""""			"""""""""

	.. code-block:: llvm			.. code-block:: llvm

	%fast = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %input) ; fast reduction			%unord = call reassoc float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float 0.0, <4 x float> %input) ; unordered reduction
	%ord = call float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %acc, <4 x float> %input) ; ordered reduction			%ord = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float %start_value, <4 x float> %input) ; ordered reduction


	'``llvm.experimental.vector.reduce.mul.*``' Intrinsic			'``llvm.experimental.vector.reduce.mul.*``' Intrinsic
	^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^			^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

	Syntax:			Syntax:
	"""""""			"""""""

	::			::

	declare i32 @llvm.experimental.vector.reduce.mul.i32.v4i32(<4 x i32> %a)			declare i32 @llvm.experimental.vector.reduce.mul.i32.v4i32(<4 x i32> %a)
	declare i64 @llvm.experimental.vector.reduce.mul.i64.v2i64(<2 x i64> %a)			declare i64 @llvm.experimental.vector.reduce.mul.i64.v2i64(<2 x i64> %a)

	Overview:			Overview:
	"""""""""			"""""""""

	The '``llvm.experimental.vector.reduce.mul.*``' intrinsics do an integer ``MUL``			The '``llvm.experimental.vector.reduce.mul.*``' intrinsics do an integer ``MUL``
	reduction of a vector, returning the result as a scalar. The return type matches			reduction of a vector, returning the result as a scalar. The return type matches
	the element-type of the vector input.			the element-type of the vector input.

	Arguments:			Arguments:
	""""""""""			""""""""""
	The argument to this intrinsic must be a vector of integer values.			The argument to this intrinsic must be a vector of integer values.

	'``llvm.experimental.vector.reduce.fmul.*``' Intrinsic			'``llvm.experimental.vector.reduce.v2.fmul.*``' Intrinsic
	^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^			^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

	Syntax:			Syntax:
	"""""""			"""""""

	::			::

	declare float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %acc, <4 x float> %a)			declare float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float %start_value, <4 x float> %a)
	declare double @llvm.experimental.vector.reduce.fmul.f64.v2f64(double %acc, <2 x double> %a)			declare double @llvm.experimental.vector.reduce.v2.fmul.f64.v2f64(double %start_value, <2 x double> %a)

	Overview:			Overview:
	"""""""""			"""""""""

	The '``llvm.experimental.vector.reduce.fmul.*``' intrinsics do a floating-point			The '``llvm.experimental.vector.reduce.v2.fmul.*``' intrinsics do a floating-point
	``MUL`` reduction of a vector, returning the result as a scalar. The return type			``MUL`` reduction of a vector, returning the result as a scalar. The return type
	matches the element-type of the vector input.			matches the element-type of the vector input.

	If the intrinsic call has fast-math flags, then the reduction will not preserve			If the intrinsic call has the 'reassoc' or 'fast' flags set, then the
	the associativity of an equivalent scalarized counterpart. If it does not have			reduction will not preserve the associativity of an equivalent scalarized
	fast-math flags, then the reduction will be ordered, implying that the			counterpart. Otherwise the reduction will be ordered, thus implying that
	operation respects the associativity of a scalarized reduction.			the operation respects the associativity of a scalarized reduction.


	Arguments:			Arguments:
	""""""""""			""""""""""
	The first argument to this intrinsic is a scalar accumulator value, which is			The first argument to this intrinsic is a scalar start value for the reduction.
	only used when there are no fast-math flags attached. This argument may be undef			The type of the start value matches the element-type of the vector input.
	when fast-math flags are used. The type of the accumulator matches the
	element-type of the vector input.

	The second argument must be a vector of floating-point values.			The second argument must be a vector of floating-point values.

	Examples:			Examples:
	"""""""""			"""""""""

	.. code-block:: llvm			.. code-block:: llvm

	%fast = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %input) ; fast reduction			%unord = call reassoc float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float 1.0, <4 x float> %input) ; unordered reduction
	%ord = call float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %acc, <4 x float> %input) ; ordered reduction			%ord = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float %start_value, <4 x float> %input) ; ordered reduction

	'``llvm.experimental.vector.reduce.and.*``' Intrinsic			'``llvm.experimental.vector.reduce.and.*``' Intrinsic
	^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^			^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

	Syntax:			Syntax:
	"""""""			"""""""

	::			::
	▲ Show 20 Lines • Show All 3,302 Lines • Show Last 20 Lines

include/llvm/CodeGen/BasicTTIImpl.h

Show First 20 Lines • Show All 1,051 Lines • ▼ Show 20 Lines	case Intrinsic::masked_gather: {
return ConcreteTTI->getGatherScatterOpCost(Instruction::Load, RetTy,		return ConcreteTTI->getGatherScatterOpCost(Instruction::Load, RetTy,
Args[0], VarMask, Alignment);		Args[0], VarMask, Alignment);
}		}
case Intrinsic::experimental_vector_reduce_add:		case Intrinsic::experimental_vector_reduce_add:
case Intrinsic::experimental_vector_reduce_mul:		case Intrinsic::experimental_vector_reduce_mul:
case Intrinsic::experimental_vector_reduce_and:		case Intrinsic::experimental_vector_reduce_and:
case Intrinsic::experimental_vector_reduce_or:		case Intrinsic::experimental_vector_reduce_or:
case Intrinsic::experimental_vector_reduce_xor:		case Intrinsic::experimental_vector_reduce_xor:
case Intrinsic::experimental_vector_reduce_fadd:		case Intrinsic::experimental_vector_reduce_v2_fadd:
case Intrinsic::experimental_vector_reduce_fmul:		case Intrinsic::experimental_vector_reduce_v2_fmul:
case Intrinsic::experimental_vector_reduce_smax:		case Intrinsic::experimental_vector_reduce_smax:
case Intrinsic::experimental_vector_reduce_smin:		case Intrinsic::experimental_vector_reduce_smin:
case Intrinsic::experimental_vector_reduce_fmax:		case Intrinsic::experimental_vector_reduce_fmax:
case Intrinsic::experimental_vector_reduce_fmin:		case Intrinsic::experimental_vector_reduce_fmin:
case Intrinsic::experimental_vector_reduce_umax:		case Intrinsic::experimental_vector_reduce_umax:
case Intrinsic::experimental_vector_reduce_umin:		case Intrinsic::experimental_vector_reduce_umin:
return getIntrinsicInstrCost(IID, RetTy, Args[0]->getType(), FMF);		return getIntrinsicInstrCost(IID, RetTy, Args[0]->getType(), FMF);
case Intrinsic::fshl:		case Intrinsic::fshl:
▲ Show 20 Lines • Show All 173 Lines • ▼ Show 20 Lines	case Intrinsic::experimental_vector_reduce_and:
return ConcreteTTI->getArithmeticReductionCost(Instruction::And, Tys[0],		return ConcreteTTI->getArithmeticReductionCost(Instruction::And, Tys[0],
/IsPairwiseForm=/false);		/IsPairwiseForm=/false);
case Intrinsic::experimental_vector_reduce_or:		case Intrinsic::experimental_vector_reduce_or:
return ConcreteTTI->getArithmeticReductionCost(Instruction::Or, Tys[0],		return ConcreteTTI->getArithmeticReductionCost(Instruction::Or, Tys[0],
/IsPairwiseForm=/false);		/IsPairwiseForm=/false);
case Intrinsic::experimental_vector_reduce_xor:		case Intrinsic::experimental_vector_reduce_xor:
return ConcreteTTI->getArithmeticReductionCost(Instruction::Xor, Tys[0],		return ConcreteTTI->getArithmeticReductionCost(Instruction::Xor, Tys[0],
/IsPairwiseForm=/false);		/IsPairwiseForm=/false);
case Intrinsic::experimental_vector_reduce_fadd:		case Intrinsic::experimental_vector_reduce_v2_fadd:
return ConcreteTTI->getArithmeticReductionCost(Instruction::FAdd, Tys[0],		return ConcreteTTI->getArithmeticReductionCost(
/IsPairwiseForm=/false);		Instruction::FAdd, Tys[0],
case Intrinsic::experimental_vector_reduce_fmul:		/IsPairwiseForm=/false); // FIXME: This should be set to
return ConcreteTTI->getArithmeticReductionCost(Instruction::FMul, Tys[0],		// 'FMF.allowReassoc()'
/IsPairwiseForm=/false);		case Intrinsic::experimental_vector_reduce_v2_fmul:
		return ConcreteTTI->getArithmeticReductionCost(
		Instruction::FMul, Tys[0],
		/IsPairwiseForm=/false); // FIXME: This should be set to
		// 'FMF.allowReassoc()'
		nikicUnsubmitted Done Reply Inline Actions Regardless of IsPairwiseForm, this will compute an unordered reduction cost, just for two different reduction strategies. Just passing FMF.allowReassoc() here wouldn't be meaningful. We'd need a separate flag to indicate ordered reductions. nikic: Regardless of IsPairwiseForm, this will compute an unordered reduction cost, just for two…
		sdesmalenAuthorUnsubmitted Done Reply Inline Actions I've updated the FIXME comment to reflect this before committing the patch. sdesmalen: I've updated the FIXME comment to reflect this before committing the patch.
case Intrinsic::experimental_vector_reduce_smax:		case Intrinsic::experimental_vector_reduce_smax:
case Intrinsic::experimental_vector_reduce_smin:		case Intrinsic::experimental_vector_reduce_smin:
case Intrinsic::experimental_vector_reduce_fmax:		case Intrinsic::experimental_vector_reduce_fmax:
case Intrinsic::experimental_vector_reduce_fmin:		case Intrinsic::experimental_vector_reduce_fmin:
return ConcreteTTI->getMinMaxReductionCost(		return ConcreteTTI->getMinMaxReductionCost(
Tys[0], CmpInst::makeCmpResultType(Tys[0]), /IsPairwiseForm=/false,		Tys[0], CmpInst::makeCmpResultType(Tys[0]), /IsPairwiseForm=/false,
/IsSigned=/true);		/IsSigned=/true);
case Intrinsic::experimental_vector_reduce_umax:		case Intrinsic::experimental_vector_reduce_umax:
▲ Show 20 Lines • Show All 424 Lines • Show Last 20 Lines

include/llvm/IR/Intrinsics.td

	Show First 20 Lines • Show All 1,116 Lines • ▼ Show 20 Lines

	// @llvm.memset.element.unordered.atomic.*(dest, value, length, elementsize)			// @llvm.memset.element.unordered.atomic.*(dest, value, length, elementsize)
	def int_memset_element_unordered_atomic			def int_memset_element_unordered_atomic
	: Intrinsic<[], [ llvm_anyptr_ty, llvm_i8_ty, llvm_anyint_ty, llvm_i32_ty ],			: Intrinsic<[], [ llvm_anyptr_ty, llvm_i8_ty, llvm_anyint_ty, llvm_i32_ty ],
	[ IntrArgMemOnly, NoCapture<0>, WriteOnly<0>, ImmArg<3> ]>;			[ IntrArgMemOnly, NoCapture<0>, WriteOnly<0>, ImmArg<3> ]>;

	//===------------------------ Reduction Intrinsics ------------------------===//			//===------------------------ Reduction Intrinsics ------------------------===//
	//			//
	def int_experimental_vector_reduce_fadd : Intrinsic<[llvm_anyfloat_ty],			def int_experimental_vector_reduce_v2_fadd : Intrinsic<[llvm_anyfloat_ty],
	[LLVMMatchType<0>,			[LLVMMatchType<0>,
	llvm_anyvector_ty],			llvm_anyvector_ty],
	[IntrNoMem]>;			[IntrNoMem]>;
	def int_experimental_vector_reduce_fmul : Intrinsic<[llvm_anyfloat_ty],			def int_experimental_vector_reduce_v2_fmul : Intrinsic<[llvm_anyfloat_ty],
	[LLVMMatchType<0>,			[LLVMMatchType<0>,
	llvm_anyvector_ty],			llvm_anyvector_ty],
	[IntrNoMem]>;			[IntrNoMem]>;
	def int_experimental_vector_reduce_add : Intrinsic<[llvm_anyint_ty],			def int_experimental_vector_reduce_add : Intrinsic<[llvm_anyint_ty],
	[llvm_anyvector_ty],			[llvm_anyvector_ty],
	[IntrNoMem]>;			[IntrNoMem]>;
	def int_experimental_vector_reduce_mul : Intrinsic<[llvm_anyint_ty],			def int_experimental_vector_reduce_mul : Intrinsic<[llvm_anyint_ty],
	[llvm_anyvector_ty],			[llvm_anyvector_ty],
	[IntrNoMem]>;			[IntrNoMem]>;
	def int_experimental_vector_reduce_and : Intrinsic<[llvm_anyint_ty],			def int_experimental_vector_reduce_and : Intrinsic<[llvm_anyint_ty],
	[llvm_anyvector_ty],			[llvm_anyvector_ty],
	▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

lib/CodeGen/ExpandReductions.cpp

Show All 23 Lines
#include "llvm/Transforms/Utils/LoopUtils.h"		#include "llvm/Transforms/Utils/LoopUtils.h"

using namespace llvm;		using namespace llvm;

namespace {		namespace {

unsigned getOpcode(Intrinsic::ID ID) {		unsigned getOpcode(Intrinsic::ID ID) {
switch (ID) {		switch (ID) {
case Intrinsic::experimental_vector_reduce_fadd:		case Intrinsic::experimental_vector_reduce_v2_fadd:
return Instruction::FAdd;		return Instruction::FAdd;
case Intrinsic::experimental_vector_reduce_fmul:		case Intrinsic::experimental_vector_reduce_v2_fmul:
return Instruction::FMul;		return Instruction::FMul;
case Intrinsic::experimental_vector_reduce_add:		case Intrinsic::experimental_vector_reduce_add:
return Instruction::Add;		return Instruction::Add;
case Intrinsic::experimental_vector_reduce_mul:		case Intrinsic::experimental_vector_reduce_mul:
return Instruction::Mul;		return Instruction::Mul;
case Intrinsic::experimental_vector_reduce_and:		case Intrinsic::experimental_vector_reduce_and:
return Instruction::And;		return Instruction::And;
case Intrinsic::experimental_vector_reduce_or:		case Intrinsic::experimental_vector_reduce_or:
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines	bool expandReductions(Function &F, const TargetTransformInfo *TTI) {
for (auto *II : Worklist) {		for (auto *II : Worklist) {
IRBuilder<> Builder(II);		IRBuilder<> Builder(II);
bool IsOrdered = false;		bool IsOrdered = false;
Value *Acc = nullptr;		Value *Acc = nullptr;
Value *Vec = nullptr;		Value *Vec = nullptr;
auto ID = II->getIntrinsicID();		auto ID = II->getIntrinsicID();
auto MRK = RecurrenceDescriptor::MRK_Invalid;		auto MRK = RecurrenceDescriptor::MRK_Invalid;
switch (ID) {		switch (ID) {
case Intrinsic::experimental_vector_reduce_fadd:		case Intrinsic::experimental_vector_reduce_v2_fadd:
case Intrinsic::experimental_vector_reduce_fmul:		case Intrinsic::experimental_vector_reduce_v2_fmul:
// FMFs must be attached to the call, otherwise it's an ordered reduction		// FMFs must be attached to the call, otherwise it's an ordered reduction
// and it can't be handled by generating a shuffle sequence.		// and it can't be handled by generating a shuffle sequence.
if (!II->getFastMathFlags().isFast())		IsOrdered = !II->getFastMathFlags().allowReassoc();
IsOrdered = true;
Acc = II->getArgOperand(0);		Acc = II->getArgOperand(0);
Vec = II->getArgOperand(1);		Vec = II->getArgOperand(1);
break;		break;
case Intrinsic::experimental_vector_reduce_add:		case Intrinsic::experimental_vector_reduce_add:
case Intrinsic::experimental_vector_reduce_mul:		case Intrinsic::experimental_vector_reduce_mul:
case Intrinsic::experimental_vector_reduce_and:		case Intrinsic::experimental_vector_reduce_and:
case Intrinsic::experimental_vector_reduce_or:		case Intrinsic::experimental_vector_reduce_or:
case Intrinsic::experimental_vector_reduce_xor:		case Intrinsic::experimental_vector_reduce_xor:
▲ Show 20 Lines • Show All 65 Lines • Show Last 20 Lines

lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 6,640 Lines • ▼ Show 20 Lines	case Intrinsic::xray_typedevent: {
DAG.setRoot(patchableNode);		DAG.setRoot(patchableNode);
setValue(&I, patchableNode);		setValue(&I, patchableNode);
return nullptr;		return nullptr;
}		}
case Intrinsic::experimental_deoptimize:		case Intrinsic::experimental_deoptimize:
LowerDeoptimizeCall(&I);		LowerDeoptimizeCall(&I);
return nullptr;		return nullptr;

case Intrinsic::experimental_vector_reduce_fadd:		case Intrinsic::experimental_vector_reduce_v2_fadd:
case Intrinsic::experimental_vector_reduce_fmul:		case Intrinsic::experimental_vector_reduce_v2_fmul:
case Intrinsic::experimental_vector_reduce_add:		case Intrinsic::experimental_vector_reduce_add:
case Intrinsic::experimental_vector_reduce_mul:		case Intrinsic::experimental_vector_reduce_mul:
case Intrinsic::experimental_vector_reduce_and:		case Intrinsic::experimental_vector_reduce_and:
case Intrinsic::experimental_vector_reduce_or:		case Intrinsic::experimental_vector_reduce_or:
case Intrinsic::experimental_vector_reduce_xor:		case Intrinsic::experimental_vector_reduce_xor:
case Intrinsic::experimental_vector_reduce_smax:		case Intrinsic::experimental_vector_reduce_smax:
case Intrinsic::experimental_vector_reduce_smin:		case Intrinsic::experimental_vector_reduce_smin:
case Intrinsic::experimental_vector_reduce_umax:		case Intrinsic::experimental_vector_reduce_umax:
▲ Show 20 Lines • Show All 2,024 Lines • ▼ Show 20 Lines	void SelectionDAGBuilder::visitVectorReduce(const CallInst &I,
SDLoc dl = getCurSDLoc();		SDLoc dl = getCurSDLoc();
EVT VT = TLI.getValueType(DAG.getDataLayout(), I.getType());		EVT VT = TLI.getValueType(DAG.getDataLayout(), I.getType());
SDValue Res;		SDValue Res;
FastMathFlags FMF;		FastMathFlags FMF;
if (isa<FPMathOperator>(I))		if (isa<FPMathOperator>(I))
FMF = I.getFastMathFlags();		FMF = I.getFastMathFlags();

switch (Intrinsic) {		switch (Intrinsic) {
case Intrinsic::experimental_vector_reduce_fadd:		case Intrinsic::experimental_vector_reduce_v2_fadd:
if (FMF.isFast())		if (FMF.allowReassoc())
Res = DAG.getNode(ISD::VECREDUCE_FADD, dl, VT, Op2);		Res = DAG.getNode(ISD::FADD, dl, VT, Op1,
		DAG.getNode(ISD::VECREDUCE_FADD, dl, VT, Op2));
else		else
Res = DAG.getNode(ISD::VECREDUCE_STRICT_FADD, dl, VT, Op1, Op2);		Res = DAG.getNode(ISD::VECREDUCE_STRICT_FADD, dl, VT, Op1, Op2);
break;		break;
case Intrinsic::experimental_vector_reduce_fmul:		case Intrinsic::experimental_vector_reduce_v2_fmul:
if (FMF.isFast())		if (FMF.allowReassoc())
Res = DAG.getNode(ISD::VECREDUCE_FMUL, dl, VT, Op2);		Res = DAG.getNode(ISD::FMUL, dl, VT, Op1,
		DAG.getNode(ISD::VECREDUCE_FMUL, dl, VT, Op2));
else		else
Res = DAG.getNode(ISD::VECREDUCE_STRICT_FMUL, dl, VT, Op1, Op2);		Res = DAG.getNode(ISD::VECREDUCE_STRICT_FMUL, dl, VT, Op1, Op2);
break;		break;
case Intrinsic::experimental_vector_reduce_add:		case Intrinsic::experimental_vector_reduce_add:
Res = DAG.getNode(ISD::VECREDUCE_ADD, dl, VT, Op1);		Res = DAG.getNode(ISD::VECREDUCE_ADD, dl, VT, Op1);
break;		break;
case Intrinsic::experimental_vector_reduce_mul:		case Intrinsic::experimental_vector_reduce_mul:
Res = DAG.getNode(ISD::VECREDUCE_MUL, dl, VT, Op1);		Res = DAG.getNode(ISD::VECREDUCE_MUL, dl, VT, Op1);
▲ Show 20 Lines • Show All 2,044 Lines • Show Last 20 Lines

lib/IR/AutoUpgrade.cpp

Show First 20 Lines • Show All 599 Lines • ▼ Show 20 Lines	static bool UpgradeIntrinsicFunction1(Function F, Function &NewFn) {
case 'd': {		case 'd': {
if (Name == "dbg.value" && F->arg_size() == 4) {		if (Name == "dbg.value" && F->arg_size() == 4) {
rename(F);		rename(F);
NewFn = Intrinsic::getDeclaration(F->getParent(), Intrinsic::dbg_value);		NewFn = Intrinsic::getDeclaration(F->getParent(), Intrinsic::dbg_value);
return true;		return true;
}		}
break;		break;
}		}
		case 'e': {
		SmallVector<StringRef, 2> Groups;
		Regex R("^experimental.vector.reduce.([a-z]+)\\.[fi][0-9]+");
		if (R.match(Name, &Groups)) {
		Intrinsic::ID ID = Intrinsic::not_intrinsic;
		if (Groups[1] == "fadd")
		ID = Intrinsic::experimental_vector_reduce_v2_fadd;
		if (Groups[1] == "fmul")
		ID = Intrinsic::experimental_vector_reduce_v2_fmul;

		if (ID != Intrinsic::not_intrinsic) {
		rename(F);
		auto Args = F->getFunctionType()->params();
		Type *Tys[] = {F->getFunctionType()->getReturnType(), Args[1]};
		NewFn = Intrinsic::getDeclaration(F->getParent(), ID, Tys);
		return true;
		}
		}
		break;
		}
case 'i':		case 'i':
case 'l': {		case 'l': {
bool IsLifetimeStart = Name.startswith("lifetime.start");		bool IsLifetimeStart = Name.startswith("lifetime.start");
if (IsLifetimeStart \|\| Name.startswith("invariant.start")) {		if (IsLifetimeStart \|\| Name.startswith("invariant.start")) {
Intrinsic::ID ID = IsLifetimeStart ?		Intrinsic::ID ID = IsLifetimeStart ?
Intrinsic::lifetime_start : Intrinsic::invariant_start;		Intrinsic::lifetime_start : Intrinsic::invariant_start;
auto Args = F->getFunctionType()->params();		auto Args = F->getFunctionType()->params();
Type* ObjectPtr[1] = {Args[1]};		Type* ObjectPtr[1] = {Args[1]};
▲ Show 20 Lines • Show All 2,827 Lines • ▼ Show 20 Lines	const auto &DefaultCase = [&NewFn, &CI]() -> void {
CI->setCalledFunction(NewFn);		CI->setCalledFunction(NewFn);
};		};
CallInst *NewCall = nullptr;		CallInst *NewCall = nullptr;
switch (NewFn->getIntrinsicID()) {		switch (NewFn->getIntrinsicID()) {
default: {		default: {
DefaultCase();		DefaultCase();
return;		return;
}		}
		case Intrinsic::experimental_vector_reduce_v2_fmul: {
		SmallVector<Value *, 2> Args;
		if (CI->isFast())
		Args.push_back(ConstantFP::get(CI->getOperand(0)->getType(), 1.0));
		else
		Args.push_back(CI->getOperand(0));
		Args.push_back(CI->getOperand(1));
		NewCall = Builder.CreateCall(NewFn, Args);
		cast<Instruction>(NewCall)->copyFastMathFlags(CI);
		break;
		}
		case Intrinsic::experimental_vector_reduce_v2_fadd: {
		SmallVector<Value *, 2> Args;
		if (CI->isFast())
		Args.push_back(Constant::getNullValue(CI->getOperand(0)->getType()));
		else
		Args.push_back(CI->getOperand(0));
		Args.push_back(CI->getOperand(1));
		NewCall = Builder.CreateCall(NewFn, Args);
		cast<Instruction>(NewCall)->copyFastMathFlags(CI);
		break;
		}
case Intrinsic::arm_neon_vld1:		case Intrinsic::arm_neon_vld1:
case Intrinsic::arm_neon_vld2:		case Intrinsic::arm_neon_vld2:
case Intrinsic::arm_neon_vld3:		case Intrinsic::arm_neon_vld3:
case Intrinsic::arm_neon_vld4:		case Intrinsic::arm_neon_vld4:
case Intrinsic::arm_neon_vld2lane:		case Intrinsic::arm_neon_vld2lane:
case Intrinsic::arm_neon_vld3lane:		case Intrinsic::arm_neon_vld3lane:
case Intrinsic::arm_neon_vld4lane:		case Intrinsic::arm_neon_vld4lane:
case Intrinsic::arm_neon_vst1:		case Intrinsic::arm_neon_vst1:
▲ Show 20 Lines • Show All 487 Lines • Show Last 20 Lines

lib/IR/IRBuilder.cpp

Show First 20 Lines • Show All 317 Lines • ▼ Show 20 Lines	static CallInst getReductionIntrinsic(IRBuilderBase Builder, Intrinsic::ID ID,
return createCallHelper(Decl, Ops, Builder);		return createCallHelper(Decl, Ops, Builder);
}		}

CallInst IRBuilderBase::CreateFAddReduce(Value Acc, Value *Src) {		CallInst IRBuilderBase::CreateFAddReduce(Value Acc, Value *Src) {
Module *M = GetInsertBlock()->getParent()->getParent();		Module *M = GetInsertBlock()->getParent()->getParent();
Value *Ops[] = {Acc, Src};		Value *Ops[] = {Acc, Src};
Type *Tys[] = {Acc->getType(), Src->getType()};		Type *Tys[] = {Acc->getType(), Src->getType()};
auto Decl = Intrinsic::getDeclaration(		auto Decl = Intrinsic::getDeclaration(
M, Intrinsic::experimental_vector_reduce_fadd, Tys);		M, Intrinsic::experimental_vector_reduce_v2_fadd, Tys);
return createCallHelper(Decl, Ops, this);		return createCallHelper(Decl, Ops, this);
}		}

CallInst IRBuilderBase::CreateFMulReduce(Value Acc, Value *Src) {		CallInst IRBuilderBase::CreateFMulReduce(Value Acc, Value *Src) {
Module *M = GetInsertBlock()->getParent()->getParent();		Module *M = GetInsertBlock()->getParent()->getParent();
Value *Ops[] = {Acc, Src};		Value *Ops[] = {Acc, Src};
Type *Tys[] = {Acc->getType(), Src->getType()};		Type *Tys[] = {Acc->getType(), Src->getType()};
auto Decl = Intrinsic::getDeclaration(		auto Decl = Intrinsic::getDeclaration(
M, Intrinsic::experimental_vector_reduce_fmul, Tys);		M, Intrinsic::experimental_vector_reduce_v2_fmul, Tys);
return createCallHelper(Decl, Ops, this);		return createCallHelper(Decl, Ops, this);
}		}

CallInst IRBuilderBase::CreateAddReduce(Value Src) {		CallInst IRBuilderBase::CreateAddReduce(Value Src) {
return getReductionIntrinsic(this, Intrinsic::experimental_vector_reduce_add,		return getReductionIntrinsic(this, Intrinsic::experimental_vector_reduce_add,
Src);		Src);
}		}

▲ Show 20 Lines • Show All 413 Lines • Show Last 20 Lines

lib/Transforms/Utils/LoopUtils.cpp

	Show First 20 Lines • Show All 798 Lines • ▼ Show 20 Lines
	/// Create a simple vector reduction specified by an opcode and some			/// Create a simple vector reduction specified by an opcode and some
	/// flags (if generating min/max reductions).			/// flags (if generating min/max reductions).
	Value *llvm::createSimpleTargetReduction(			Value *llvm::createSimpleTargetReduction(
	IRBuilder<> &Builder, const TargetTransformInfo *TTI, unsigned Opcode,			IRBuilder<> &Builder, const TargetTransformInfo *TTI, unsigned Opcode,
	Value *Src, TargetTransformInfo::ReductionFlags Flags, FastMathFlags FMF,			Value *Src, TargetTransformInfo::ReductionFlags Flags, FastMathFlags FMF,
	ArrayRef<Value *> RedOps) {			ArrayRef<Value *> RedOps) {
	assert(isa<VectorType>(Src->getType()) && "Type must be a vector");			assert(isa<VectorType>(Src->getType()) && "Type must be a vector");

	Value *ScalarUdf = UndefValue::get(Src->getType()->getVectorElementType());
	std::function<Value *()> BuildFunc;			std::function<Value *()> BuildFunc;
	using RD = RecurrenceDescriptor;			using RD = RecurrenceDescriptor;
	RD::MinMaxRecurrenceKind MinMaxKind = RD::MRK_Invalid;			RD::MinMaxRecurrenceKind MinMaxKind = RD::MRK_Invalid;
	// TODO: Support creating ordered reductions.
	FastMathFlags FMFFast;
	FMFFast.setFast();

	switch (Opcode) {			switch (Opcode) {
	case Instruction::Add:			case Instruction::Add:
	BuildFunc = [&]() { return Builder.CreateAddReduce(Src); };			BuildFunc = [&]() { return Builder.CreateAddReduce(Src); };
	break;			break;
	case Instruction::Mul:			case Instruction::Mul:
	BuildFunc = [&]() { return Builder.CreateMulReduce(Src); };			BuildFunc = [&]() { return Builder.CreateMulReduce(Src); };
	break;			break;
	case Instruction::And:			case Instruction::And:
	BuildFunc = [&]() { return Builder.CreateAndReduce(Src); };			BuildFunc = [&]() { return Builder.CreateAndReduce(Src); };
	break;			break;
	case Instruction::Or:			case Instruction::Or:
	BuildFunc = [&]() { return Builder.CreateOrReduce(Src); };			BuildFunc = [&]() { return Builder.CreateOrReduce(Src); };
	break;			break;
	case Instruction::Xor:			case Instruction::Xor:
	BuildFunc = [&]() { return Builder.CreateXorReduce(Src); };			BuildFunc = [&]() { return Builder.CreateXorReduce(Src); };
	break;			break;
	case Instruction::FAdd:			case Instruction::FAdd:
	BuildFunc = [&]() {			BuildFunc = [&]() {
	auto Rdx = Builder.CreateFAddReduce(ScalarUdf, Src);			auto Rdx = Builder.CreateFAddReduce(
	cast<CallInst>(Rdx)->setFastMathFlags(FMFFast);			Constant::getNullValue(Src->getType()->getVectorElementType()), Src);
				cast<CallInst>(Rdx)->setFastMathFlags(FMF);
	return Rdx;			return Rdx;
	};			};
	break;			break;
	case Instruction::FMul:			case Instruction::FMul:
	BuildFunc = [&]() {			BuildFunc = [&]() {
	auto Rdx = Builder.CreateFMulReduce(ScalarUdf, Src);			Type *Ty = Src->getType()->getVectorElementType();
	cast<CallInst>(Rdx)->setFastMathFlags(FMFFast);			auto Rdx = Builder.CreateFMulReduce(ConstantFP::get(Ty, 1.0), Src);
				cast<CallInst>(Rdx)->setFastMathFlags(FMF);
	return Rdx;			return Rdx;
	};			};
	break;			break;
	case Instruction::ICmp:			case Instruction::ICmp:
	if (Flags.IsMaxOp) {			if (Flags.IsMaxOp) {
	MinMaxKind = Flags.IsSigned ? RD::MRK_SIntMax : RD::MRK_UIntMax;			MinMaxKind = Flags.IsSigned ? RD::MRK_SIntMax : RD::MRK_UIntMax;
	BuildFunc = [&]() {			BuildFunc = [&]() {
	return Builder.CreateIntMaxReduce(Src, Flags.IsSigned);			return Builder.CreateIntMaxReduce(Src, Flags.IsSigned);
	▲ Show 20 Lines • Show All 129 Lines • Show Last 20 Lines

test/Assembler/invalid-vecreduce.ll

	; RUN: not opt -S < %s 2>&1 \| FileCheck %s			; RUN: not opt -S < %s 2>&1 \| FileCheck %s

	; CHECK: Intrinsic has incorrect argument type!			; CHECK: Intrinsic has incorrect argument type!
	; CHECK-NEXT: float (double, <2 x double>)* @llvm.experimental.vector.reduce.fadd.f32.f64.v2f64			; CHECK-NEXT: float (double, <2 x double>)* @llvm.experimental.vector.reduce.v2.fadd.f32.f64.v2f64
	define float @fadd_invalid_scalar_res(double %acc, <2 x double> %in) {			define float @fadd_invalid_scalar_res(double %acc, <2 x double> %in) {
	%res = call float @llvm.experimental.vector.reduce.fadd.f32.f64.v2f64(double %acc, <2 x double> %in)			%res = call float @llvm.experimental.vector.reduce.v2.fadd.f32.f64.v2f64(double %acc, <2 x double> %in)
	ret float %res			ret float %res
	}			}

	; CHECK: Intrinsic has incorrect argument type!			; CHECK: Intrinsic has incorrect argument type!
	; CHECK-NEXT: double (float, <2 x double>)* @llvm.experimental.vector.reduce.fadd.f64.f32.v2f64			; CHECK-NEXT: double (float, <2 x double>)* @llvm.experimental.vector.reduce.v2.fadd.f64.f32.v2f64
	define double @fadd_invalid_scalar_start(float %acc, <2 x double> %in) {			define double @fadd_invalid_scalar_start(float %acc, <2 x double> %in) {
	%res = call double @llvm.experimental.vector.reduce.fadd.f64.f32.v2f64(float %acc, <2 x double> %in)			%res = call double @llvm.experimental.vector.reduce.v2.fadd.f64.f32.v2f64(float %acc, <2 x double> %in)
	ret double %res			ret double %res
	}			}

	; CHECK: Intrinsic has incorrect argument type!			; CHECK: Intrinsic has incorrect argument type!
	; CHECK-NEXT: <2 x double> (double, <2 x double>)* @llvm.experimental.vector.reduce.fadd.v2f64.f64.v2f64			; CHECK-NEXT: <2 x double> (double, <2 x double>)* @llvm.experimental.vector.reduce.v2.fadd.v2f64.f64.v2f64
	define <2 x double> @fadd_invalid_vector_res(double %acc, <2 x double> %in) {			define <2 x double> @fadd_invalid_vector_res(double %acc, <2 x double> %in) {
	%res = call <2 x double> @llvm.experimental.vector.reduce.fadd.v2f64.f64.v2f64(double %acc, <2 x double> %in)			%res = call <2 x double> @llvm.experimental.vector.reduce.v2.fadd.v2f64.f64.v2f64(double %acc, <2 x double> %in)
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	; CHECK: Intrinsic has incorrect argument type!			; CHECK: Intrinsic has incorrect argument type!
	; CHECK-NEXT: double (<2 x double>, <2 x double>)* @llvm.experimental.vector.reduce.fadd.f64.v2f64.v2f64			; CHECK-NEXT: double (<2 x double>, <2 x double>)* @llvm.experimental.vector.reduce.v2.fadd.f64.v2f64.v2f64
	define double @fadd_invalid_vector_start(<2 x double> %in, <2 x double> %acc) {			define double @fadd_invalid_vector_start(<2 x double> %in, <2 x double> %acc) {
	%res = call double @llvm.experimental.vector.reduce.fadd.f64.v2f64.v2f64(<2 x double> %acc, <2 x double> %in)			%res = call double @llvm.experimental.vector.reduce.v2.fadd.f64.v2f64.v2f64(<2 x double> %acc, <2 x double> %in)
	ret double %res			ret double %res
	}			}

	declare float @llvm.experimental.vector.reduce.fadd.f32.f64.v2f64(double %acc, <2 x double> %in)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.f64.v2f64(double %acc, <2 x double> %in)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f32.v2f64(float %acc, <2 x double> %in)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.f32.v2f64(float %acc, <2 x double> %in)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v2f64.v2f64(<2 x double> %acc, <2 x double> %in)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.v2f64.v2f64(<2 x double> %acc, <2 x double> %in)
	declare <2 x double> @llvm.experimental.vector.reduce.fadd.v2f64.f64.v2f64(double %acc, <2 x double> %in)			declare <2 x double> @llvm.experimental.vector.reduce.v2.fadd.v2f64.f64.v2f64(double %acc, <2 x double> %in)

test/Bitcode/upgrade-vecreduce-intrinsics.ll

This file was added.

				; RUN: opt -S < %s \| FileCheck %s
				; RUN: llvm-dis < %s.bc \| FileCheck %s

				define float @fadd_acc(<4 x float> %in, float %acc) {
				; CHECK-LABEL: @fadd_acc
				; CHECK: %res = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float %acc, <4 x float> %in)
				%res = call float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %acc, <4 x float> %in)
				ret float %res
				}

				define float @fadd_undef(<4 x float> %in) {
				; CHECK-LABEL: @fadd_undef
				; CHECK: %res = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float undef, <4 x float> %in)
				%res = call float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %in)
				ret float %res
				}

				define float @fadd_fast_acc(<4 x float> %in, float %acc) {
				; CHECK-LABEL: @fadd_fast_acc
				; CHECK: %res = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float 0.000000e+00, <4 x float> %in)
				%res = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %acc, <4 x float> %in)
				ret float %res
				}

				define float @fadd_fast_undef(<4 x float> %in) {
				; CHECK-LABEL: @fadd_fast_undef
				; CHECK: %res = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float 0.000000e+00, <4 x float> %in)
				%res = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %in)
				ret float %res
				}

				define float @fmul_acc(<4 x float> %in, float %acc) {
				; CHECK-LABEL: @fmul_acc
				; CHECK: %res = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float %acc, <4 x float> %in)
				%res = call float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %acc, <4 x float> %in)
				ret float %res
				}

				define float @fmul_undef(<4 x float> %in) {
				; CHECK-LABEL: @fmul_undef
				; CHECK: %res = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float undef, <4 x float> %in)
				%res = call float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %in)
				ret float %res
				}

				define float @fmul_fast_acc(<4 x float> %in, float %acc) {
				; CHECK-LABEL: @fmul_fast_acc
				; CHECK: %res = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float 1.000000e+00, <4 x float> %in)
				%res = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %acc, <4 x float> %in)
				ret float %res
				}

				define float @fmul_fast_undef(<4 x float> %in) {
				; CHECK-LABEL: @fmul_fast_undef
				; CHECK: %res = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float 1.000000e+00, <4 x float> %in)
				%res = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %in)
				ret float %res
				}

				declare float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float, <4 x float>)
				; CHECK: declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float, <4 x float>)

				declare float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float, <4 x float>)
				; CHECK: declare float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float, <4 x float>)

test/Bitcode/upgrade-vecreduce-intrinsics.ll.bc

This binary file was added.

test/CodeGen/AArch64/vecreduce-fadd-legalization.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=aarch64-none-linux-gnu -mattr=+neon \| FileCheck %s --check-prefix=CHECK			; RUN: llc < %s -mtriple=aarch64-none-linux-gnu -mattr=+neon \| FileCheck %s --check-prefix=CHECK

	declare half @llvm.experimental.vector.reduce.fadd.f16.v1f16(half, <1 x half>)			declare half @llvm.experimental.vector.reduce.v2.fadd.f16.v1f16(half, <1 x half>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v1f32(float, <1 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v1f32(float, <1 x float>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v1f64(double, <1 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.v1f64(double, <1 x double>)
	declare fp128 @llvm.experimental.vector.reduce.fadd.f128.v1f128(fp128, <1 x fp128>)			declare fp128 @llvm.experimental.vector.reduce.v2.fadd.f128.v1f128(fp128, <1 x fp128>)

	declare float @llvm.experimental.vector.reduce.fadd.f32.v3f32(float, <3 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v3f32(float, <3 x float>)
	declare fp128 @llvm.experimental.vector.reduce.fadd.f128.v2f128(fp128, <2 x fp128>)			declare fp128 @llvm.experimental.vector.reduce.v2.fadd.f128.v2f128(fp128, <2 x fp128>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v16f32(float, <16 x float>)

	define half @test_v1f16(<1 x half> %a) nounwind {			define half @test_v1f16(<1 x half> %a) nounwind {
	; CHECK-LABEL: test_v1f16:			; CHECK-LABEL: test_v1f16:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan half @llvm.experimental.vector.reduce.fadd.f16.v1f16(half 0.0, <1 x half> %a)			%b = call fast nnan half @llvm.experimental.vector.reduce.v2.fadd.f16.v1f16(half 0.0, <1 x half> %a)
	ret half %b			ret half %b
	}			}

	define float @test_v1f32(<1 x float> %a) nounwind {			define float @test_v1f32(<1 x float> %a) nounwind {
	; CHECK-LABEL: test_v1f32:			; CHECK-LABEL: test_v1f32:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: // kill: def $d0 killed $d0 def $q0			; CHECK-NEXT: // kill: def $d0 killed $d0 def $q0
	; CHECK-NEXT: // kill: def $s0 killed $s0 killed $q0			; CHECK-NEXT: // kill: def $s0 killed $s0 killed $q0
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan float @llvm.experimental.vector.reduce.fadd.f32.v1f32(float 0.0, <1 x float> %a)			%b = call fast nnan float @llvm.experimental.vector.reduce.v2.fadd.f32.v1f32(float 0.0, <1 x float> %a)
	ret float %b			ret float %b
	}			}

	define double @test_v1f64(<1 x double> %a) nounwind {			define double @test_v1f64(<1 x double> %a) nounwind {
	; CHECK-LABEL: test_v1f64:			; CHECK-LABEL: test_v1f64:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan double @llvm.experimental.vector.reduce.fadd.f64.v1f64(double 0.0, <1 x double> %a)			%b = call fast nnan double @llvm.experimental.vector.reduce.v2.fadd.f64.v1f64(double 0.0, <1 x double> %a)
	ret double %b			ret double %b
	}			}

	define fp128 @test_v1f128(<1 x fp128> %a) nounwind {			define fp128 @test_v1f128(<1 x fp128> %a) nounwind {
	; CHECK-LABEL: test_v1f128:			; CHECK-LABEL: test_v1f128:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan fp128 @llvm.experimental.vector.reduce.fadd.f128.v1f128(fp128 zeroinitializer, <1 x fp128> %a)			%b = call fast nnan fp128 @llvm.experimental.vector.reduce.v2.fadd.f128.v1f128(fp128 zeroinitializer, <1 x fp128> %a)
	ret fp128 %b			ret fp128 %b
	}			}

	define float @test_v3f32(<3 x float> %a) nounwind {			define float @test_v3f32(<3 x float> %a) nounwind {
	; CHECK-LABEL: test_v3f32:			; CHECK-LABEL: test_v3f32:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: fmov s1, wzr			; CHECK-NEXT: fmov s1, wzr
	; CHECK-NEXT: mov v0.s[3], v1.s[0]			; CHECK-NEXT: mov v0.s[3], v1.s[0]
	; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8			; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8
	; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s			; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s
	; CHECK-NEXT: faddp s0, v0.2s			; CHECK-NEXT: faddp s0, v0.2s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan float @llvm.experimental.vector.reduce.fadd.f32.v3f32(float 0.0, <3 x float> %a)			%b = call fast nnan float @llvm.experimental.vector.reduce.v2.fadd.f32.v3f32(float 0.0, <3 x float> %a)
	ret float %b			ret float %b
	}			}

	define fp128 @test_v2f128(<2 x fp128> %a) nounwind {			define fp128 @test_v2f128(<2 x fp128> %a) nounwind {
	; CHECK-LABEL: test_v2f128:			; CHECK-LABEL: test_v2f128:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: str x30, [sp, #-16]! // 8-byte Folded Spill			; CHECK-NEXT: str x30, [sp, #-16]! // 8-byte Folded Spill
	; CHECK-NEXT: bl __addtf3			; CHECK-NEXT: bl __addtf3
	; CHECK-NEXT: ldr x30, [sp], #16 // 8-byte Folded Reload			; CHECK-NEXT: ldr x30, [sp], #16 // 8-byte Folded Reload
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan fp128 @llvm.experimental.vector.reduce.fadd.f128.v2f128(fp128 zeroinitializer, <2 x fp128> %a)			%b = call fast nnan fp128 @llvm.experimental.vector.reduce.v2.fadd.f128.v2f128(fp128 zeroinitializer, <2 x fp128> %a)
	ret fp128 %b			ret fp128 %b
	}			}

	define float @test_v16f32(<16 x float> %a) nounwind {			define float @test_v16f32(<16 x float> %a) nounwind {
	; CHECK-LABEL: test_v16f32:			; CHECK-LABEL: test_v16f32:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: fadd v1.4s, v1.4s, v3.4s			; CHECK-NEXT: fadd v1.4s, v1.4s, v3.4s
	; CHECK-NEXT: fadd v0.4s, v0.4s, v2.4s			; CHECK-NEXT: fadd v0.4s, v0.4s, v2.4s
	; CHECK-NEXT: fadd v0.4s, v0.4s, v1.4s			; CHECK-NEXT: fadd v0.4s, v0.4s, v1.4s
	; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8			; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8
	; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s			; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s
	; CHECK-NEXT: faddp s0, v0.2s			; CHECK-NEXT: faddp s0, v0.2s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan float @llvm.experimental.vector.reduce.fadd.f32.v16f32(float 0.0, <16 x float> %a)			%b = call fast nnan float @llvm.experimental.vector.reduce.v2.fadd.f32.v16f32(float 0.0, <16 x float> %a)
	ret float %b			ret float %b
	}			}

test/CodeGen/AArch64/vecreduce-fadd.ll

	; RUN: llc < %s -mtriple=aarch64-eabi -aarch64-neon-syntax=generic -asm-verbose=0 -mattr=+fullfp16 \| FileCheck %s			; RUN: llc < %s -mtriple=aarch64-eabi -aarch64-neon-syntax=generic -asm-verbose=0 -mattr=+fullfp16 \| FileCheck %s
	; RUN: llc < %s -mtriple=aarch64-eabi -aarch64-neon-syntax=generic -asm-verbose=0 \| FileCheck %s --check-prefix=CHECKNOFP16			; RUN: llc < %s -mtriple=aarch64-eabi -aarch64-neon-syntax=generic -asm-verbose=0 \| FileCheck %s --check-prefix=CHECKNOFP16

	define float @add_HalfS(<2 x float> %bin.rdx) {			define float @add_HalfS(<2 x float> %bin.rdx) {
	; CHECK-LABEL: add_HalfS:			; CHECK-LABEL: add_HalfS:
	; CHECK: faddp s0, v0.2s			; CHECK: faddp s0, v0.2s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.v2f32(float undef, <2 x float> %bin.rdx)			%r = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v2f32(float 0.0, <2 x float> %bin.rdx)
	ret float %r			ret float %r
	}			}

	define half @add_HalfH(<4 x half> %bin.rdx) {			define half @add_HalfH(<4 x half> %bin.rdx) {
	; CHECK-LABEL: add_HalfH:			; CHECK-LABEL: add_HalfH:
	; CHECK: mov h3, v0.h[1]			; CHECK: mov h3, v0.h[1]
	; CHECK-NEXT: mov h1, v0.h[3]			; CHECK-NEXT: mov h1, v0.h[3]
	; CHECK-NEXT: mov h2, v0.h[2]			; CHECK-NEXT: mov h2, v0.h[2]
	; CHECK-NEXT: fadd h0, h0, h3			; CHECK-NEXT: fadd h0, h0, h3
	; CHECK-NEXT: fadd h0, h0, h2			; CHECK-NEXT: fadd h0, h0, h2
	; CHECK-NEXT: fadd h0, h0, h1			; CHECK-NEXT: fadd h0, h0, h1
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	; CHECKNOFP16-LABEL: add_HalfH:			; CHECKNOFP16-LABEL: add_HalfH:
	; CHECKNOFP16-NOT: faddp			; CHECKNOFP16-NOT: faddp
	; CHECKNOFP16-NOT: fadd h{{[0-9]+}}			; CHECKNOFP16-NOT: fadd h{{[0-9]+}}
	; CHECKNOFP16-NOT: fadd v{{[0-9]+}}.{{[0-9]}}h			; CHECKNOFP16-NOT: fadd v{{[0-9]+}}.{{[0-9]}}h
	; CHECKNOFP16: ret			; CHECKNOFP16: ret
	%r = call fast half @llvm.experimental.vector.reduce.fadd.f16.v4f16(half undef, <4 x half> %bin.rdx)			%r = call fast half @llvm.experimental.vector.reduce.v2.fadd.f16.v4f16(half 0.0, <4 x half> %bin.rdx)
	ret half %r			ret half %r
	}			}


	define half @add_H(<8 x half> %bin.rdx) {			define half @add_H(<8 x half> %bin.rdx) {
	; CHECK-LABEL: add_H:			; CHECK-LABEL: add_H:
	; CHECK: ext v1.16b, v0.16b, v0.16b, #8			; CHECK: ext v1.16b, v0.16b, v0.16b, #8
	; CHECK-NEXT: fadd v0.4h, v0.4h, v1.4h			; CHECK-NEXT: fadd v0.4h, v0.4h, v1.4h
	; CHECK-NEXT: mov h1, v0.h[1]			; CHECK-NEXT: mov h1, v0.h[1]
	; CHECK-NEXT: mov h2, v0.h[2]			; CHECK-NEXT: mov h2, v0.h[2]
	; CHECK-NEXT: fadd h1, h0, h1			; CHECK-NEXT: fadd h1, h0, h1
	; CHECK-NEXT: fadd h1, h1, h2			; CHECK-NEXT: fadd h1, h1, h2
	; CHECK-NEXT: mov h0, v0.h[3]			; CHECK-NEXT: mov h0, v0.h[3]
	; CHECK-NEXT: fadd h0, h1, h0			; CHECK-NEXT: fadd h0, h1, h0
	; CHECK-NEXT: ret			; CHECK-NEXT: ret

	; CHECKNOFP16-LABEL: add_H:			; CHECKNOFP16-LABEL: add_H:
	; CHECKNOFP16-NOT: faddp			; CHECKNOFP16-NOT: faddp
	; CHECKNOFP16-NOT: fadd h{{[0-9]+}}			; CHECKNOFP16-NOT: fadd h{{[0-9]+}}
	; CHECKNOFP16-NOT: fadd v{{[0-9]+}}.{{[0-9]}}h			; CHECKNOFP16-NOT: fadd v{{[0-9]+}}.{{[0-9]}}h
	; CHECKNOFP16: ret			; CHECKNOFP16: ret
	%r = call fast half @llvm.experimental.vector.reduce.fadd.f16.v8f16(half undef, <8 x half> %bin.rdx)			%r = call fast half @llvm.experimental.vector.reduce.v2.fadd.f16.v8f16(half 0.0, <8 x half> %bin.rdx)
	ret half %r			ret half %r
	}			}

	define float @add_S(<4 x float> %bin.rdx) {			define float @add_S(<4 x float> %bin.rdx) {
	; CHECK-LABEL: add_S:			; CHECK-LABEL: add_S:
	; CHECK: ext v1.16b, v0.16b, v0.16b, #8			; CHECK: ext v1.16b, v0.16b, v0.16b, #8
	; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s			; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s
	; CHECK-NEXT: faddp s0, v0.2s			; CHECK-NEXT: faddp s0, v0.2s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %bin.rdx)			%r = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float 0.0, <4 x float> %bin.rdx)
	ret float %r			ret float %r
	}			}

	define double @add_D(<2 x double> %bin.rdx) {			define double @add_D(<2 x double> %bin.rdx) {
	; CHECK-LABEL: add_D:			; CHECK-LABEL: add_D:
	; CHECK: faddp d0, v0.2d			; CHECK: faddp d0, v0.2d
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call fast double @llvm.experimental.vector.reduce.fadd.f64.v2f64(double undef, <2 x double> %bin.rdx)			%r = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.v2f64(double 0.0, <2 x double> %bin.rdx)
	ret double %r			ret double %r
	}			}

	define half @add_2H(<16 x half> %bin.rdx) {			define half @add_2H(<16 x half> %bin.rdx) {
	; CHECK-LABEL: add_2H:			; CHECK-LABEL: add_2H:
	; CHECK: fadd v0.8h, v0.8h, v1.8h			; CHECK: fadd v0.8h, v0.8h, v1.8h
	; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8			; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8
	; CHECK-NEXT: fadd v0.4h, v0.4h, v1.4h			; CHECK-NEXT: fadd v0.4h, v0.4h, v1.4h
	; CHECK-NEXT: mov h1, v0.h[1]			; CHECK-NEXT: mov h1, v0.h[1]
	; CHECK-NEXT: mov h2, v0.h[2]			; CHECK-NEXT: mov h2, v0.h[2]
	; CHECK-NEXT: fadd h1, h0, h1			; CHECK-NEXT: fadd h1, h0, h1
	; CHECK-NEXT: fadd h1, h1, h2			; CHECK-NEXT: fadd h1, h1, h2
	; CHECK-NEXT: mov h0, v0.h[3]			; CHECK-NEXT: mov h0, v0.h[3]
	; CHECK-NEXT: fadd h0, h1, h0			; CHECK-NEXT: fadd h0, h1, h0
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	; CHECKNOFP16-LABEL: add_2H:			; CHECKNOFP16-LABEL: add_2H:
	; CHECKNOFP16-NOT: faddp			; CHECKNOFP16-NOT: faddp
	; CHECKNOFP16-NOT: fadd h{{[0-9]+}}			; CHECKNOFP16-NOT: fadd h{{[0-9]+}}
	; CHECKNOFP16-NOT: fadd v{{[0-9]+}}.{{[0-9]}}h			; CHECKNOFP16-NOT: fadd v{{[0-9]+}}.{{[0-9]}}h
	; CHECKNOFP16: ret			; CHECKNOFP16: ret
	%r = call fast half @llvm.experimental.vector.reduce.fadd.f16.v16f16(half undef, <16 x half> %bin.rdx)			%r = call fast half @llvm.experimental.vector.reduce.v2.fadd.f16.v16f16(half 0.0, <16 x half> %bin.rdx)
	ret half %r			ret half %r
	}			}

	define float @add_2S(<8 x float> %bin.rdx) {			define float @add_2S(<8 x float> %bin.rdx) {
	; CHECK-LABEL: add_2S:			; CHECK-LABEL: add_2S:
	; CHECK: fadd v0.4s, v0.4s, v1.4s			; CHECK: fadd v0.4s, v0.4s, v1.4s
	; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8			; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8
	; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s			; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s
	; CHECK-NEXT: faddp s0, v0.2s			; CHECK-NEXT: faddp s0, v0.2s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.v8f32(float undef, <8 x float> %bin.rdx)			%r = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v8f32(float 0.0, <8 x float> %bin.rdx)
	ret float %r			ret float %r
	}			}

	define double @add_2D(<4 x double> %bin.rdx) {			define double @add_2D(<4 x double> %bin.rdx) {
	; CHECK-LABEL: add_2D:			; CHECK-LABEL: add_2D:
	; CHECK: fadd v0.2d, v0.2d, v1.2d			; CHECK: fadd v0.2d, v0.2d, v1.2d
	; CHECK-NEXT: faddp d0, v0.2d			; CHECK-NEXT: faddp d0, v0.2d
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call fast double @llvm.experimental.vector.reduce.fadd.f64.v4f64(double undef, <4 x double> %bin.rdx)			%r = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.v4f64(double 0.0, <4 x double> %bin.rdx)
	ret double %r			ret double %r
	}			}

	; Function Attrs: nounwind readnone			; Function Attrs: nounwind readnone
	declare half @llvm.experimental.vector.reduce.fadd.f16.v4f16(half, <4 x half>)			declare half @llvm.experimental.vector.reduce.v2.fadd.f16.v4f16(half, <4 x half>)
	declare half @llvm.experimental.vector.reduce.fadd.f16.v8f16(half, <8 x half>)			declare half @llvm.experimental.vector.reduce.v2.fadd.f16.v8f16(half, <8 x half>)
	declare half @llvm.experimental.vector.reduce.fadd.f16.v16f16(half, <16 x half>)			declare half @llvm.experimental.vector.reduce.v2.fadd.f16.v16f16(half, <16 x half>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v2f32(float, <2 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v8f32(float, <8 x float>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.v2f64(double, <2 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.v4f64(double, <4 x double>)

test/CodeGen/Generic/expand-experimental-reductions.ll

	; NOTE: Assertions have been autogenerated by utils/update_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
	; RUN: opt < %s -expand-reductions -S \| FileCheck %s			; RUN: opt < %s -expand-reductions -S \| FileCheck %s
	; Tests without a target which should expand all reductions			; Tests without a target which should expand all reductions
	declare i64 @llvm.experimental.vector.reduce.add.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.add.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.mul.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.mul.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.and.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.and.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.or.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.or.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.xor.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.xor.i64.v2i64(<2 x i64>)

	declare float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float, <4 x float>)

	declare i64 @llvm.experimental.vector.reduce.smax.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.smax.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.smin.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.smin.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.umax.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.umax.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.umin.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.umin.i64.v2i64(<2 x i64>)

	declare double @llvm.experimental.vector.reduce.fmax.f64.v2f64(<2 x double>)			declare double @llvm.experimental.vector.reduce.fmax.f64.v2f64(<2 x double>)
	declare double @llvm.experimental.vector.reduce.fmin.f64.v2f64(<2 x double>)			declare double @llvm.experimental.vector.reduce.fmin.f64.v2f64(<2 x double>)
	▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd fast <4 x float> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd fast <4 x float> [[VEC]], [[RDX_SHUF]]
	; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0
	; CHECK-NEXT: ret float [[TMP0]]			; CHECK-NEXT: ret float [[TMP0]]
	;			;
	entry:			entry:
	%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %vec)			%r = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float 0.0, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fadd_f32_accum(float %accum, <4 x float> %vec) {			define float @fadd_f32_accum(float %accum, <4 x float> %vec) {
	; CHECK-LABEL: @fadd_f32_accum(			; CHECK-LABEL: @fadd_f32_accum(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd fast <4 x float> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd fast <4 x float> [[VEC]], [[RDX_SHUF]]
	; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0
	; CHECK-NEXT: ret float [[TMP0]]			; CHECK-NEXT: ret float [[TMP0]]
	;			;
	entry:			entry:
	%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %accum, <4 x float> %vec)			%r = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float %accum, <4 x float> %vec)
				nikicUnsubmitted Done Reply Inline Actions The expansion above looks wrong per new semantics -- shouldn't there be a use `%accum` in there? Probably the IR level expansion code needs to be adjusted. nikic: The expansion above looks wrong per new semantics -- shouldn't there be a use `%accum` in there?
				sdesmalenAuthorUnsubmitted Done Reply Inline Actions Good spot! I've fixed this now. sdesmalen: Good spot! I've fixed this now.
	ret float %r			ret float %r
	}			}

	define float @fadd_f32_strict(<4 x float> %vec) {			define float @fadd_f32_strict(<4 x float> %vec) {
	; CHECK-LABEL: @fadd_f32_strict(			; CHECK-LABEL: @fadd_f32_strict(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0			; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd float undef, [[TMP0]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd float undef, [[TMP0]]
	; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1			; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1
	; CHECK-NEXT: [[BIN_RDX1:%.*]] = fadd float [[BIN_RDX]], [[TMP1]]			; CHECK-NEXT: [[BIN_RDX1:%.*]] = fadd float [[BIN_RDX]], [[TMP1]]
	; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2			; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd float [[BIN_RDX1]], [[TMP2]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd float [[BIN_RDX1]], [[TMP2]]
	; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3			; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3
	; CHECK-NEXT: [[BIN_RDX3:%.*]] = fadd float [[BIN_RDX2]], [[TMP3]]			; CHECK-NEXT: [[BIN_RDX3:%.*]] = fadd float [[BIN_RDX2]], [[TMP3]]
	; CHECK-NEXT: ret float [[BIN_RDX3]]			; CHECK-NEXT: ret float [[BIN_RDX3]]
	;			;
	entry:			entry:
	%r = call float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %vec)			%r = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float undef, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fadd_f32_strict_accum(float %accum, <4 x float> %vec) {			define float @fadd_f32_strict_accum(float %accum, <4 x float> %vec) {
	; CHECK-LABEL: @fadd_f32_strict_accum(			; CHECK-LABEL: @fadd_f32_strict_accum(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0			; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0
	; CHECK-NEXT: [[BIN_RDX:%.]] = fadd float [[ACCUM:%.]], [[TMP0]]			; CHECK-NEXT: [[BIN_RDX:%.]] = fadd float [[ACCUM:%.]], [[TMP0]]
	; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1			; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1
	; CHECK-NEXT: [[BIN_RDX1:%.*]] = fadd float [[BIN_RDX]], [[TMP1]]			; CHECK-NEXT: [[BIN_RDX1:%.*]] = fadd float [[BIN_RDX]], [[TMP1]]
	; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2			; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd float [[BIN_RDX1]], [[TMP2]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd float [[BIN_RDX1]], [[TMP2]]
	; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3			; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3
	; CHECK-NEXT: [[BIN_RDX3:%.*]] = fadd float [[BIN_RDX2]], [[TMP3]]			; CHECK-NEXT: [[BIN_RDX3:%.*]] = fadd float [[BIN_RDX2]], [[TMP3]]
	; CHECK-NEXT: ret float [[BIN_RDX3]]			; CHECK-NEXT: ret float [[BIN_RDX3]]
	;			;
	entry:			entry:
	%r = call float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %accum, <4 x float> %vec)			%r = call float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float %accum, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fmul_f32(<4 x float> %vec) {			define float @fmul_f32(<4 x float> %vec) {
	; CHECK-LABEL: @fmul_f32(			; CHECK-LABEL: @fmul_f32(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul fast <4 x float> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul fast <4 x float> [[VEC]], [[RDX_SHUF]]
	; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0
	; CHECK-NEXT: ret float [[TMP0]]			; CHECK-NEXT: ret float [[TMP0]]
	;			;
	entry:			entry:
	%r = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %vec)			%r = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float 1.0, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fmul_f32_accum(float %accum, <4 x float> %vec) {			define float @fmul_f32_accum(float %accum, <4 x float> %vec) {
	; CHECK-LABEL: @fmul_f32_accum(			; CHECK-LABEL: @fmul_f32_accum(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul fast <4 x float> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul fast <4 x float> [[VEC]], [[RDX_SHUF]]
	; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0
	; CHECK-NEXT: ret float [[TMP0]]			; CHECK-NEXT: ret float [[TMP0]]
	;			;
	entry:			entry:
	%r = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %accum, <4 x float> %vec)			%r = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float %accum, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fmul_f32_strict(<4 x float> %vec) {			define float @fmul_f32_strict(<4 x float> %vec) {
	; CHECK-LABEL: @fmul_f32_strict(			; CHECK-LABEL: @fmul_f32_strict(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0			; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul float undef, [[TMP0]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul float undef, [[TMP0]]
	; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1			; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1
	; CHECK-NEXT: [[BIN_RDX1:%.*]] = fmul float [[BIN_RDX]], [[TMP1]]			; CHECK-NEXT: [[BIN_RDX1:%.*]] = fmul float [[BIN_RDX]], [[TMP1]]
	; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2			; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul float [[BIN_RDX1]], [[TMP2]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul float [[BIN_RDX1]], [[TMP2]]
	; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3			; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3
	; CHECK-NEXT: [[BIN_RDX3:%.*]] = fmul float [[BIN_RDX2]], [[TMP3]]			; CHECK-NEXT: [[BIN_RDX3:%.*]] = fmul float [[BIN_RDX2]], [[TMP3]]
	; CHECK-NEXT: ret float [[BIN_RDX3]]			; CHECK-NEXT: ret float [[BIN_RDX3]]
	;			;
	entry:			entry:
	%r = call float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %vec)			%r = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float undef, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fmul_f32_strict_accum(float %accum, <4 x float> %vec) {			define float @fmul_f32_strict_accum(float %accum, <4 x float> %vec) {
	; CHECK-LABEL: @fmul_f32_strict_accum(			; CHECK-LABEL: @fmul_f32_strict_accum(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0			; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0
	; CHECK-NEXT: [[BIN_RDX:%.]] = fmul float [[ACCUM:%.]], [[TMP0]]			; CHECK-NEXT: [[BIN_RDX:%.]] = fmul float [[ACCUM:%.]], [[TMP0]]
	; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1			; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1
	; CHECK-NEXT: [[BIN_RDX1:%.*]] = fmul float [[BIN_RDX]], [[TMP1]]			; CHECK-NEXT: [[BIN_RDX1:%.*]] = fmul float [[BIN_RDX]], [[TMP1]]
	; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2			; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul float [[BIN_RDX1]], [[TMP2]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul float [[BIN_RDX1]], [[TMP2]]
	; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3			; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3
	; CHECK-NEXT: [[BIN_RDX3:%.*]] = fmul float [[BIN_RDX2]], [[TMP3]]			; CHECK-NEXT: [[BIN_RDX3:%.*]] = fmul float [[BIN_RDX2]], [[TMP3]]
	; CHECK-NEXT: ret float [[BIN_RDX3]]			; CHECK-NEXT: ret float [[BIN_RDX3]]
	;			;
	entry:			entry:
	%r = call float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %accum, <4 x float> %vec)			%r = call float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float %accum, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define i64 @smax_i64(<2 x i64> %vec) {			define i64 @smax_i64(<2 x i64> %vec) {
	; CHECK-LABEL: @smax_i64(			; CHECK-LABEL: @smax_i64(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <2 x i64> [[VEC:%.]], <2 x i64> undef, <2 x i32> <i32 1, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <2 x i64> [[VEC:%.]], <2 x i64> undef, <2 x i32> <i32 1, i32 undef>
	; CHECK-NEXT: [[RDX_MINMAX_CMP:%.*]] = icmp sgt <2 x i64> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[RDX_MINMAX_CMP:%.*]] = icmp sgt <2 x i64> [[VEC]], [[RDX_SHUF]]
	▲ Show 20 Lines • Show All 78 Lines • Show Last 20 Lines

test/CodeGen/X86/haddsub.ll

Show First 20 Lines • Show All 1,349 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
store float %x1, float* %p2		store float %x1, float* %p2
%x01 = fadd float %x0, %x1		%x01 = fadd float %x0, %x1
ret float %x01		ret float %x01
}		}

; Repeat tests from general reductions to verify output for hoppy targets:		; Repeat tests from general reductions to verify output for hoppy targets:
; PR38971: https://bugs.llvm.org/show_bug.cgi?id=38971		; PR38971: https://bugs.llvm.org/show_bug.cgi?id=38971

declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float, <8 x float>)		declare float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v8f32(float, <8 x float>)
declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double, <4 x double>)		declare double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v4f64(double, <4 x double>)

define float @fadd_reduce_v8f32(float %a0, <8 x float> %a1) {		define float @fadd_reduce_v8f32(float %a0, <8 x float> %a1) {
; SSE3-SLOW-LABEL: fadd_reduce_v8f32:		; SSE3-SLOW-LABEL: fadd_reduce_v8f32:
; SSE3-SLOW: # %bb.0:		; SSE3-SLOW: # %bb.0:
; SSE3-SLOW-NEXT: addps %xmm2, %xmm1		; SSE3-SLOW-NEXT: addps %xmm2, %xmm1
; SSE3-SLOW-NEXT: movaps %xmm1, %xmm2		; SSE3-SLOW-NEXT: movaps %xmm1, %xmm2
; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]		; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
; SSE3-SLOW-NEXT: addps %xmm1, %xmm2		; SSE3-SLOW-NEXT: addps %xmm1, %xmm2
Show All 25 Lines
; AVX-FAST: # %bb.0:		; AVX-FAST: # %bb.0:
; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm0		; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm0
; AVX-FAST-NEXT: vaddps %xmm0, %xmm1, %xmm0		; AVX-FAST-NEXT: vaddps %xmm0, %xmm1, %xmm0
; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0		; AVX-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0		; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
; AVX-FAST-NEXT: vzeroupper		; AVX-FAST-NEXT: vzeroupper
; AVX-FAST-NEXT: retq		; AVX-FAST-NEXT: retq
%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)		%r = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)
ret float %r		ret float %r
}		}

define double @fadd_reduce_v4f64(double %a0, <4 x double> %a1) {		define double @fadd_reduce_v4f64(double %a0, <4 x double> %a1) {
; SSE3-SLOW-LABEL: fadd_reduce_v4f64:		; SSE3-SLOW-LABEL: fadd_reduce_v4f64:
; SSE3-SLOW: # %bb.0:		; SSE3-SLOW: # %bb.0:
; SSE3-SLOW-NEXT: addpd %xmm2, %xmm1		; SSE3-SLOW-NEXT: addpd %xmm2, %xmm1
; SSE3-SLOW-NEXT: movapd %xmm1, %xmm0		; SSE3-SLOW-NEXT: movapd %xmm1, %xmm0
Show All 19 Lines
;		;
; AVX-FAST-LABEL: fadd_reduce_v4f64:		; AVX-FAST-LABEL: fadd_reduce_v4f64:
; AVX-FAST: # %bb.0:		; AVX-FAST: # %bb.0:
; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm0		; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm0
; AVX-FAST-NEXT: vaddpd %xmm0, %xmm1, %xmm0		; AVX-FAST-NEXT: vaddpd %xmm0, %xmm1, %xmm0
; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0		; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
; AVX-FAST-NEXT: vzeroupper		; AVX-FAST-NEXT: vzeroupper
; AVX-FAST-NEXT: retq		; AVX-FAST-NEXT: retq
%r = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)		%r = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)
ret double %r		ret double %r
}		}

test/CodeGen/X86/vector-reduce-fadd-fast.ll

	Show All 29 Lines
	; AVX-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32:			; AVX512-LABEL: test_v2f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float %a0, <2 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v2f32(float %a0, <2 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(float %a0, <4 x float> %a1) {			define float @test_v4f32(float %a0, <4 x float> %a1) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	Show All 22 Lines
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX512-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddps %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float %a0, <4 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v4f32(float %a0, <4 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32(float %a0, <8 x float> %a1) {			define float @test_v8f32(float %a0, <8 x float> %a1) {
	; SSE2-LABEL: test_v8f32:			; SSE2-LABEL: test_v8f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm2, %xmm1			; SSE2-NEXT: addps %xmm2, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	Show All 30 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX512-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddps %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(float %a0, <16 x float> %a1) {			define float @test_v16f32(float %a0, <16 x float> %a1) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm4, %xmm2			; SSE2-NEXT: addps %xmm4, %xmm2
	; SSE2-NEXT: addps %xmm3, %xmm1			; SSE2-NEXT: addps %xmm3, %xmm1
	Show All 37 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (zero)			; vXf32 (zero)
	;			;

	define float @test_v2f32_zero(<2 x float> %a0) {			define float @test_v2f32_zero(<2 x float> %a0) {
	Show All 17 Lines
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_zero:			; AVX512-LABEL: test_v2f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float 0.0, <2 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v2f32(float 0.0, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_zero(<4 x float> %a0) {			define float @test_v4f32_zero(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_zero:			; SSE2-LABEL: test_v4f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	Show All 23 Lines
	;			;
	; AVX512-LABEL: test_v4f32_zero:			; AVX512-LABEL: test_v4f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float 0.0, <4 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v4f32(float 0.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_zero(<8 x float> %a0) {			define float @test_v8f32_zero(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_zero:			; SSE2-LABEL: test_v8f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	Show All 31 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float 0.0, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v8f32(float 0.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_zero(<16 x float> %a0) {			define float @test_v16f32_zero(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_zero:			; SSE2-LABEL: test_v16f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm3, %xmm1			; SSE2-NEXT: addps %xmm3, %xmm1
	; SSE2-NEXT: addps %xmm2, %xmm0			; SSE2-NEXT: addps %xmm2, %xmm0
	Show All 38 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float 0.0, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v16f32(float 0.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (undef)			; vXf32 (undef)
	;			;

	define float @test_v2f32_undef(<2 x float> %a0) {			define float @test_v2f32_undef(<2 x float> %a0) {
	Show All 17 Lines
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_undef:			; AVX512-LABEL: test_v2f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float undef, <2 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v2f32(float 0.0, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_undef(<4 x float> %a0) {			define float @test_v4f32_undef(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_undef:			; SSE2-LABEL: test_v4f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	Show All 23 Lines
	;			;
	; AVX512-LABEL: test_v4f32_undef:			; AVX512-LABEL: test_v4f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float undef, <4 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v4f32(float 0.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_undef(<8 x float> %a0) {			define float @test_v8f32_undef(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_undef:			; SSE2-LABEL: test_v8f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	Show All 31 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float undef, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v8f32(float 0.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_undef(<16 x float> %a0) {			define float @test_v16f32_undef(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_undef:			; SSE2-LABEL: test_v16f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm3, %xmm1			; SSE2-NEXT: addps %xmm3, %xmm1
	; SSE2-NEXT: addps %xmm2, %xmm0			; SSE2-NEXT: addps %xmm2, %xmm0
	Show All 38 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float undef, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v16f32(float 0.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	;			;

	define double @test_v2f64(double %a0, <2 x double> %a1) {			define double @test_v2f64(double %a0, <2 x double> %a1) {
	Show All 10 Lines
	; AVX-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double %a0, <2 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v2f64(double %a0, <2 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(double %a0, <4 x double> %a1) {			define double @test_v4f64(double %a0, <4 x double> %a1) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm2, %xmm1			; SSE-NEXT: addpd %xmm2, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	Show All 13 Lines
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX512-NEXT: vaddpd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddpd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm4, %xmm2			; SSE-NEXT: addpd %xmm4, %xmm2
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	Show All 18 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	; AVX512-NEXT: vaddpd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vaddpd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(double %a0, <16 x double> %a1) {			define double @test_v16f64(double %a0, <16 x double> %a1) {
	; SSE-LABEL: test_v16f64:			; SSE-LABEL: test_v16f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm6, %xmm2			; SSE-NEXT: addpd %xmm6, %xmm2
	; SSE-NEXT: addpd %xmm7, %xmm3			; SSE-NEXT: addpd %xmm7, %xmm3
	Show All 25 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (zero)			; vXf64 (zero)
	;			;

	define double @test_v2f64_zero(<2 x double> %a0) {			define double @test_v2f64_zero(<2 x double> %a0) {
	Show All 11 Lines
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_zero:			; AVX512-LABEL: test_v2f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double 0.0, <2 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v2f64(double 0.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_zero(<4 x double> %a0) {			define double @test_v4f64_zero(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_zero:			; SSE-LABEL: test_v4f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	Show All 14 Lines
	; AVX512-LABEL: test_v4f64_zero:			; AVX512-LABEL: test_v4f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double 0.0, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v4f64(double 0.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_zero(<8 x double> %a0) {			define double @test_v8f64_zero(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_zero:			; SSE-LABEL: test_v8f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd %xmm2, %xmm0			; SSE-NEXT: addpd %xmm2, %xmm0
	Show All 19 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double 0.0, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v8f64(double 0.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_zero(<16 x double> %a0) {			define double @test_v16f64_zero(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_zero:			; SSE-LABEL: test_v16f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm6, %xmm2			; SSE-NEXT: addpd %xmm6, %xmm2
	; SSE-NEXT: addpd %xmm4, %xmm0			; SSE-NEXT: addpd %xmm4, %xmm0
	Show All 25 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double 0.0, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v16f64(double 0.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (undef)			; vXf64 (undef)
	;			;

	define double @test_v2f64_undef(<2 x double> %a0) {			define double @test_v2f64_undef(<2 x double> %a0) {
	Show All 11 Lines
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_undef:			; AVX512-LABEL: test_v2f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double undef, <2 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v2f64(double 0.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_undef(<4 x double> %a0) {			define double @test_v4f64_undef(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_undef:			; SSE-LABEL: test_v4f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	Show All 14 Lines
	; AVX512-LABEL: test_v4f64_undef:			; AVX512-LABEL: test_v4f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double undef, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v4f64(double 0.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd %xmm2, %xmm0			; SSE-NEXT: addpd %xmm2, %xmm0
	Show All 19 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double undef, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v8f64(double 0.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_undef:			; SSE-LABEL: test_v16f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm6, %xmm2			; SSE-NEXT: addpd %xmm6, %xmm2
	; SSE-NEXT: addpd %xmm4, %xmm0			; SSE-NEXT: addpd %xmm4, %xmm0
	Show All 25 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double undef, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v16f64(double 0.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v2f32(float, <2 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v8f32(float, <8 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v16f32(float, <16 x float>)

	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v2f64(double, <2 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v4f64(double, <4 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double, <8 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v8f64(double, <8 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double, <16 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v16f64(double, <16 x double>)

test/CodeGen/X86/vector-reduce-fadd.ll

	Show All 32 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32:			; AVX512-LABEL: test_v2f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float %a0, <2 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v2f32(float %a0, <2 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(float %a0, <4 x float> %a1) {			define float @test_v4f32(float %a0, <4 x float> %a1) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	Show All 34 Lines
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float %a0, <4 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v4f32(float %a0, <4 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32(float %a0, <8 x float> %a1) {			define float @test_v8f32(float %a0, <8 x float> %a1) {
	; SSE2-LABEL: test_v8f32:			; SSE2-LABEL: test_v8f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm1, %xmm3			; SSE2-NEXT: movaps %xmm1, %xmm3
	▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(float %a0, <16 x float> %a1) {			define float @test_v16f32(float %a0, <16 x float> %a1) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm1, %xmm5			; SSE2-NEXT: movaps %xmm1, %xmm5
	▲ Show 20 Lines • Show All 134 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (zero)			; vXf32 (zero)
	;			;

	define float @test_v2f32_zero(<2 x float> %a0) {			define float @test_v2f32_zero(<2 x float> %a0) {
	Show All 23 Lines
	;			;
	; AVX512-LABEL: test_v2f32_zero:			; AVX512-LABEL: test_v2f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vxorps %xmm1, %xmm1, %xmm1			; AVX512-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float 0.0, <2 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v2f32(float 0.0, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_zero(<4 x float> %a0) {			define float @test_v4f32_zero(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_zero:			; SSE2-LABEL: test_v4f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: xorps %xmm1, %xmm1			; SSE2-NEXT: xorps %xmm1, %xmm1
	; SSE2-NEXT: addss %xmm0, %xmm1			; SSE2-NEXT: addss %xmm0, %xmm1
	Show All 38 Lines
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float 0.0, <4 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v4f32(float 0.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_zero(<8 x float> %a0) {			define float @test_v8f32_zero(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_zero:			; SSE2-LABEL: test_v8f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: xorps %xmm2, %xmm2			; SSE2-NEXT: xorps %xmm2, %xmm2
	; SSE2-NEXT: addss %xmm0, %xmm2			; SSE2-NEXT: addss %xmm0, %xmm2
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float 0.0, <8 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v8f32(float 0.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_zero(<16 x float> %a0) {			define float @test_v16f32_zero(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_zero:			; SSE2-LABEL: test_v16f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: xorps %xmm4, %xmm4			; SSE2-NEXT: xorps %xmm4, %xmm4
	; SSE2-NEXT: addss %xmm0, %xmm4			; SSE2-NEXT: addss %xmm0, %xmm4
	▲ Show 20 Lines • Show All 138 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float 0.0, <16 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v16f32(float 0.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (undef)			; vXf32 (undef)
	;			;

	define float @test_v2f32_undef(<2 x float> %a0) {			define float @test_v2f32_undef(<2 x float> %a0) {
	Show All 15 Lines
	; AVX-NEXT: vaddss {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vaddss {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_undef:			; AVX512-LABEL: test_v2f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vaddss {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float undef, <2 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v2f32(float undef, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_undef(<4 x float> %a0) {			define float @test_v4f32_undef(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_undef:			; SSE2-LABEL: test_v4f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
	Show All 30 Lines
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss {{.*}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vaddss {{.*}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float undef, <4 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v4f32(float undef, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_undef(<8 x float> %a0) {			define float @test_v8f32_undef(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_undef:			; SSE2-LABEL: test_v8f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm2			; SSE2-NEXT: movaps %xmm0, %xmm2
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[2,3]
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float undef, <8 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v8f32(float undef, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_undef(<16 x float> %a0) {			define float @test_v16f32_undef(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_undef:			; SSE2-LABEL: test_v16f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm4			; SSE2-NEXT: movaps %xmm0, %xmm4
	; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm0[2,3]
	▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float undef, <16 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v16f32(float undef, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	;			;

	define double @test_v2f64(double %a0, <2 x double> %a1) {			define double @test_v2f64(double %a0, <2 x double> %a1) {
	Show All 12 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double %a0, <2 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v2f64(double %a0, <2 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(double %a0, <4 x double> %a1) {			define double @test_v4f64(double %a0, <4 x double> %a1) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	Show All 21 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(double %a0, <16 x double> %a1) {			define double @test_v16f64(double %a0, <16 x double> %a1) {
	; SSE-LABEL: test_v16f64:			; SSE-LABEL: test_v16f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd {{[0-9]+}}(%rsp), %xmm8			; SSE-NEXT: movapd {{[0-9]+}}(%rsp), %xmm8
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (zero)			; vXf64 (zero)
	;			;

	define double @test_v2f64_zero(<2 x double> %a0) {			define double @test_v2f64_zero(<2 x double> %a0) {
	Show All 15 Lines
	;			;
	; AVX512-LABEL: test_v2f64_zero:			; AVX512-LABEL: test_v2f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vxorpd %xmm1, %xmm1, %xmm1			; AVX512-NEXT: vxorpd %xmm1, %xmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double 0.0, <2 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v2f64(double 0.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_zero(<4 x double> %a0) {			define double @test_v4f64_zero(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_zero:			; SSE-LABEL: test_v4f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: xorpd %xmm2, %xmm2			; SSE-NEXT: xorpd %xmm2, %xmm2
	; SSE-NEXT: addsd %xmm0, %xmm2			; SSE-NEXT: addsd %xmm0, %xmm2
	Show All 24 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double 0.0, <4 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v4f64(double 0.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_zero(<8 x double> %a0) {			define double @test_v8f64_zero(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_zero:			; SSE-LABEL: test_v8f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: xorpd %xmm4, %xmm4			; SSE-NEXT: xorpd %xmm4, %xmm4
	; SSE-NEXT: addsd %xmm0, %xmm4			; SSE-NEXT: addsd %xmm0, %xmm4
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double 0.0, <8 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v8f64(double 0.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_zero(<16 x double> %a0) {			define double @test_v16f64_zero(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_zero:			; SSE-LABEL: test_v16f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: xorpd %xmm8, %xmm8			; SSE-NEXT: xorpd %xmm8, %xmm8
	; SSE-NEXT: addsd %xmm0, %xmm8			; SSE-NEXT: addsd %xmm0, %xmm8
	▲ Show 20 Lines • Show All 86 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double 0.0, <16 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v16f64(double 0.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (undef)			; vXf64 (undef)
	;			;

	define double @test_v2f64_undef(<2 x double> %a0) {			define double @test_v2f64_undef(<2 x double> %a0) {
	Show All 9 Lines
	; AVX-NEXT: vaddsd {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vaddsd {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_undef:			; AVX512-LABEL: test_v2f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vaddsd {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double undef, <2 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v2f64(double undef, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_undef(<4 x double> %a0) {			define double @test_v4f64_undef(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_undef:			; SSE-LABEL: test_v4f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: addsd {{.*}}(%rip), %xmm0			; SSE-NEXT: addsd {{.*}}(%rip), %xmm0
	Show All 18 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd {{.*}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vaddsd {{.*}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double undef, <4 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v4f64(double undef, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: addsd {{.*}}(%rip), %xmm0			; SSE-NEXT: addsd {{.*}}(%rip), %xmm0
	Show All 39 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double undef, <8 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v8f64(double undef, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_undef:			; SSE-LABEL: test_v16f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: addsd {{.*}}(%rip), %xmm0			; SSE-NEXT: addsd {{.*}}(%rip), %xmm0
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double undef, <16 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v16f64(double undef, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v2f32(float, <2 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v8f32(float, <8 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.v2.fadd.f32.f32.v16f32(float, <16 x float>)

	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v2f64(double, <2 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v4f64(double, <4 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double, <8 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v8f64(double, <8 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double, <16 x double>)			declare double @llvm.experimental.vector.reduce.v2.fadd.f64.f64.v16f64(double, <16 x double>)

test/CodeGen/X86/vector-reduce-fmul-fast.ll

	Show All 29 Lines
	; AVX-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32:			; AVX512-LABEL: test_v2f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float %a0, <2 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v2f32(float %a0, <2 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(float %a0, <4 x float> %a1) {			define float @test_v4f32(float %a0, <4 x float> %a1) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	Show All 22 Lines
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float %a0, <4 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v4f32(float %a0, <4 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32(float %a0, <8 x float> %a1) {			define float @test_v8f32(float %a0, <8 x float> %a1) {
	; SSE2-LABEL: test_v8f32:			; SSE2-LABEL: test_v8f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm2, %xmm1			; SSE2-NEXT: mulps %xmm2, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	Show All 30 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(float %a0, <16 x float> %a1) {			define float @test_v16f32(float %a0, <16 x float> %a1) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm4, %xmm2			; SSE2-NEXT: mulps %xmm4, %xmm2
	; SSE2-NEXT: mulps %xmm3, %xmm1			; SSE2-NEXT: mulps %xmm3, %xmm1
	Show All 37 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (one)			; vXf32 (one)
	;			;

	define float @test_v2f32_zero(<2 x float> %a0) {			define float @test_v2f32_zero(<2 x float> %a0) {
	Show All 17 Lines
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_zero:			; AVX512-LABEL: test_v2f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float 1.0, <2 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v2f32(float 1.0, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_zero(<4 x float> %a0) {			define float @test_v4f32_zero(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_zero:			; SSE2-LABEL: test_v4f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	Show All 23 Lines
	;			;
	; AVX512-LABEL: test_v4f32_zero:			; AVX512-LABEL: test_v4f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float 1.0, <4 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v4f32(float 1.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_zero(<8 x float> %a0) {			define float @test_v8f32_zero(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_zero:			; SSE2-LABEL: test_v8f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	Show All 31 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float 1.0, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v8f32(float 1.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_zero(<16 x float> %a0) {			define float @test_v16f32_zero(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_zero:			; SSE2-LABEL: test_v16f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm3, %xmm1			; SSE2-NEXT: mulps %xmm3, %xmm1
	; SSE2-NEXT: mulps %xmm2, %xmm0			; SSE2-NEXT: mulps %xmm2, %xmm0
	Show All 38 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float 1.0, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v16f32(float 1.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (undef)			; vXf32 (undef)
	;			;

	define float @test_v2f32_undef(<2 x float> %a0) {			define float @test_v2f32_undef(<2 x float> %a0) {
	Show All 17 Lines
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_undef:			; AVX512-LABEL: test_v2f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float undef, <2 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v2f32(float 1.0, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_undef(<4 x float> %a0) {			define float @test_v4f32_undef(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_undef:			; SSE2-LABEL: test_v4f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	Show All 23 Lines
	;			;
	; AVX512-LABEL: test_v4f32_undef:			; AVX512-LABEL: test_v4f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float undef, <4 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v4f32(float 1.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_undef(<8 x float> %a0) {			define float @test_v8f32_undef(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_undef:			; SSE2-LABEL: test_v8f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	Show All 31 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float undef, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v8f32(float 1.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_undef(<16 x float> %a0) {			define float @test_v16f32_undef(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_undef:			; SSE2-LABEL: test_v16f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm3, %xmm1			; SSE2-NEXT: mulps %xmm3, %xmm1
	; SSE2-NEXT: mulps %xmm2, %xmm0			; SSE2-NEXT: mulps %xmm2, %xmm0
	Show All 38 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float undef, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v16f32(float 1.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	;			;

	define double @test_v2f64(double %a0, <2 x double> %a1) {			define double @test_v2f64(double %a0, <2 x double> %a1) {
	Show All 10 Lines
	; AVX-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double %a0, <2 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v2f64(double %a0, <2 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(double %a0, <4 x double> %a1) {			define double @test_v4f64(double %a0, <4 x double> %a1) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm2, %xmm1			; SSE-NEXT: mulpd %xmm2, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	Show All 13 Lines
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX512-NEXT: vmulpd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulpd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm4, %xmm2			; SSE-NEXT: mulpd %xmm4, %xmm2
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	Show All 18 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	; AVX512-NEXT: vmulpd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vmulpd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(double %a0, <16 x double> %a1) {			define double @test_v16f64(double %a0, <16 x double> %a1) {
	; SSE-LABEL: test_v16f64:			; SSE-LABEL: test_v16f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm6, %xmm2			; SSE-NEXT: mulpd %xmm6, %xmm2
	; SSE-NEXT: mulpd %xmm7, %xmm3			; SSE-NEXT: mulpd %xmm7, %xmm3
	Show All 25 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (one)			; vXf64 (one)
	;			;

	define double @test_v2f64_zero(<2 x double> %a0) {			define double @test_v2f64_zero(<2 x double> %a0) {
	Show All 11 Lines
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_zero:			; AVX512-LABEL: test_v2f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double 1.0, <2 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v2f64(double 1.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_zero(<4 x double> %a0) {			define double @test_v4f64_zero(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_zero:			; SSE-LABEL: test_v4f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	Show All 14 Lines
	; AVX512-LABEL: test_v4f64_zero:			; AVX512-LABEL: test_v4f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double 1.0, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v4f64(double 1.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_zero(<8 x double> %a0) {			define double @test_v8f64_zero(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_zero:			; SSE-LABEL: test_v8f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm2, %xmm0			; SSE-NEXT: mulpd %xmm2, %xmm0
	Show All 19 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double 1.0, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v8f64(double 1.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_zero(<16 x double> %a0) {			define double @test_v16f64_zero(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_zero:			; SSE-LABEL: test_v16f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm6, %xmm2			; SSE-NEXT: mulpd %xmm6, %xmm2
	; SSE-NEXT: mulpd %xmm4, %xmm0			; SSE-NEXT: mulpd %xmm4, %xmm0
	Show All 25 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double 1.0, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v16f64(double 1.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (undef)			; vXf64 (undef)
	;			;

	define double @test_v2f64_undef(<2 x double> %a0) {			define double @test_v2f64_undef(<2 x double> %a0) {
	Show All 11 Lines
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_undef:			; AVX512-LABEL: test_v2f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double undef, <2 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v2f64(double 1.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_undef(<4 x double> %a0) {			define double @test_v4f64_undef(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_undef:			; SSE-LABEL: test_v4f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	Show All 14 Lines
	; AVX512-LABEL: test_v4f64_undef:			; AVX512-LABEL: test_v4f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double undef, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v4f64(double 1.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm2, %xmm0			; SSE-NEXT: mulpd %xmm2, %xmm0
	Show All 19 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double undef, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v8f64(double 1.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_undef:			; SSE-LABEL: test_v16f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm6, %xmm2			; SSE-NEXT: mulpd %xmm6, %xmm2
	; SSE-NEXT: mulpd %xmm4, %xmm0			; SSE-NEXT: mulpd %xmm4, %xmm0
	Show All 25 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double undef, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v16f64(double 1.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v2f32(float, <2 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v8f32(float, <8 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v16f32(float, <16 x float>)

	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v2f64(double, <2 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v4f64(double, <4 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double, <8 x double>)			declare double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v8f64(double, <8 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double, <16 x double>)			declare double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v16f64(double, <16 x double>)

test/CodeGen/X86/vector-reduce-fmul.ll

	Show All 32 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32:			; AVX512-LABEL: test_v2f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float %a0, <2 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v2f32(float %a0, <2 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(float %a0, <4 x float> %a1) {			define float @test_v4f32(float %a0, <4 x float> %a1) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulss %xmm1, %xmm0			; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	Show All 34 Lines
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float %a0, <4 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v4f32(float %a0, <4 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32(float %a0, <8 x float> %a1) {			define float @test_v8f32(float %a0, <8 x float> %a1) {
	; SSE2-LABEL: test_v8f32:			; SSE2-LABEL: test_v8f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulss %xmm1, %xmm0			; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm1, %xmm3			; SSE2-NEXT: movaps %xmm1, %xmm3
	▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(float %a0, <16 x float> %a1) {			define float @test_v16f32(float %a0, <16 x float> %a1) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulss %xmm1, %xmm0			; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm1, %xmm5			; SSE2-NEXT: movaps %xmm1, %xmm5
	▲ Show 20 Lines • Show All 134 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (one)			; vXf32 (one)
	;			;

	define float @test_v2f32_one(<2 x float> %a0) {			define float @test_v2f32_one(<2 x float> %a0) {
	Show All 17 Lines
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_one:			; AVX512-LABEL: test_v2f32_one:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float 1.0, <2 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v2f32(float 1.0, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_one(<4 x float> %a0) {			define float @test_v4f32_one(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_one:			; SSE2-LABEL: test_v4f32_one:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
	Show All 30 Lines
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float 1.0, <4 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v4f32(float 1.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_one(<8 x float> %a0) {			define float @test_v8f32_one(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_one:			; SSE2-LABEL: test_v8f32_one:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm2			; SSE2-NEXT: movaps %xmm0, %xmm2
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[2,3]
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float 1.0, <8 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v8f32(float 1.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_one(<16 x float> %a0) {			define float @test_v16f32_one(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_one:			; SSE2-LABEL: test_v16f32_one:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm4			; SSE2-NEXT: movaps %xmm0, %xmm4
	; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm0[2,3]
	▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float 1.0, <16 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v16f32(float 1.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (undef)			; vXf32 (undef)
	;			;

	define float @test_v2f32_undef(<2 x float> %a0) {			define float @test_v2f32_undef(<2 x float> %a0) {
	Show All 15 Lines
	; AVX-NEXT: vmulss {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vmulss {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_undef:			; AVX512-LABEL: test_v2f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vmulss {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float undef, <2 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v2f32(float undef, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_undef(<4 x float> %a0) {			define float @test_v4f32_undef(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_undef:			; SSE2-LABEL: test_v4f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
	Show All 30 Lines
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss {{.*}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vmulss {{.*}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float undef, <4 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v4f32(float undef, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_undef(<8 x float> %a0) {			define float @test_v8f32_undef(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_undef:			; SSE2-LABEL: test_v8f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm2			; SSE2-NEXT: movaps %xmm0, %xmm2
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[2,3]
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float undef, <8 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v8f32(float undef, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_undef(<16 x float> %a0) {			define float @test_v16f32_undef(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_undef:			; SSE2-LABEL: test_v16f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm4			; SSE2-NEXT: movaps %xmm0, %xmm4
	; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm0[2,3]
	▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float undef, <16 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v16f32(float undef, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	;			;

	define double @test_v2f64(double %a0, <2 x double> %a1) {			define double @test_v2f64(double %a0, <2 x double> %a1) {
	Show All 12 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double %a0, <2 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v2f64(double %a0, <2 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(double %a0, <4 x double> %a1) {			define double @test_v4f64(double %a0, <4 x double> %a1) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	Show All 21 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(double %a0, <16 x double> %a1) {			define double @test_v16f64(double %a0, <16 x double> %a1) {
	; SSE-LABEL: test_v16f64:			; SSE-LABEL: test_v16f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd {{[0-9]+}}(%rsp), %xmm8			; SSE-NEXT: movapd {{[0-9]+}}(%rsp), %xmm8
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (one)			; vXf64 (one)
	;			;

	define double @test_v2f64_one(<2 x double> %a0) {			define double @test_v2f64_one(<2 x double> %a0) {
	Show All 11 Lines
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_one:			; AVX512-LABEL: test_v2f64_one:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double 1.0, <2 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v2f64(double 1.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_one(<4 x double> %a0) {			define double @test_v4f64_one(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_one:			; SSE-LABEL: test_v4f64_one:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm2			; SSE-NEXT: movapd %xmm0, %xmm2
	; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
	Show All 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double 1.0, <4 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v4f64(double 1.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_one(<8 x double> %a0) {			define double @test_v8f64_one(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_one:			; SSE-LABEL: test_v8f64_one:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm4			; SSE-NEXT: movapd %xmm0, %xmm4
	; SSE-NEXT: unpckhpd {{.*#+}} xmm4 = xmm4[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm4 = xmm4[1],xmm0[1]
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double 1.0, <8 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v8f64(double 1.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_one(<16 x double> %a0) {			define double @test_v16f64_one(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_one:			; SSE-LABEL: test_v16f64_one:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm8			; SSE-NEXT: movapd %xmm0, %xmm8
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	▲ Show 20 Lines • Show All 81 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double 1.0, <16 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v16f64(double 1.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (undef)			; vXf64 (undef)
	;			;

	define double @test_v2f64_undef(<2 x double> %a0) {			define double @test_v2f64_undef(<2 x double> %a0) {
	Show All 9 Lines
	; AVX-NEXT: vmulsd {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vmulsd {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_undef:			; AVX512-LABEL: test_v2f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vmulsd {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double undef, <2 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v2f64(double undef, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_undef(<4 x double> %a0) {			define double @test_v4f64_undef(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_undef:			; SSE-LABEL: test_v4f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: mulsd {{.*}}(%rip), %xmm0			; SSE-NEXT: mulsd {{.*}}(%rip), %xmm0
	Show All 18 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd {{.*}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vmulsd {{.*}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double undef, <4 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v4f64(double undef, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: mulsd {{.*}}(%rip), %xmm0			; SSE-NEXT: mulsd {{.*}}(%rip), %xmm0
	Show All 39 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double undef, <8 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v8f64(double undef, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_undef:			; SSE-LABEL: test_v16f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: mulsd {{.*}}(%rip), %xmm0			; SSE-NEXT: mulsd {{.*}}(%rip), %xmm0
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double undef, <16 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v16f64(double undef, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v2f32(float, <2 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v8f32(float, <8 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.v2.fmul.f32.f32.v16f32(float, <16 x float>)

	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v2f64(double, <2 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v4f64(double, <4 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double, <8 x double>)			declare double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v8f64(double, <8 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double, <16 x double>)			declare double @llvm.experimental.vector.reduce.v2.fmul.f64.f64.v16f64(double, <16 x double>)

This is an archive of the discontinued LLVM Phabricator instance.

Change semantics of fadd/fmul vector reductions.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 193692

docs/LangRef.rst

include/llvm/CodeGen/BasicTTIImpl.h

include/llvm/IR/Intrinsics.td

lib/CodeGen/ExpandReductions.cpp

lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp

lib/IR/AutoUpgrade.cpp

lib/IR/IRBuilder.cpp

lib/Transforms/Utils/LoopUtils.cpp

test/Assembler/invalid-vecreduce.ll

test/Bitcode/upgrade-vecreduce-intrinsics.ll

test/Bitcode/upgrade-vecreduce-intrinsics.ll.bc

test/CodeGen/AArch64/vecreduce-fadd-legalization.ll

test/CodeGen/AArch64/vecreduce-fadd.ll

test/CodeGen/Generic/expand-experimental-reductions.ll

test/CodeGen/X86/haddsub.ll

test/CodeGen/X86/vector-reduce-fadd-fast.ll

test/CodeGen/X86/vector-reduce-fadd.ll

test/CodeGen/X86/vector-reduce-fmul-fast.ll

test/CodeGen/X86/vector-reduce-fmul.ll

Change semantics of fadd/fmul vector reductions.
ClosedPublic