This is an archive of the discontinued LLVM Phabricator instance.

[Option B] Create explicit ordered/unordered reduction intrinsics for fadd/fmul.
AbandonedPublic

Authored by sdesmalen on Apr 4 2019, 5:49 AM.

Download Raw Diff

Details

Reviewers: None

Summary

NOTE: This is currently only a proposal as referenced in an RFC on llvm-dev mailing list.

This patch creates explicit ordered and unordered reduction intrinsics for
fadd and fmul and adds functionality to auto-upgrade existing LLVM IR
and bitcode to use the new intrinsics.

    
llvm.experimental.vector.reduce.fadd -> llvm.experimental.vector.reduce.ordered.fadd

fast llvm.experimental.vector.reduce.fadd -> llvm.experimental.vector.reduce.unordered.fadd

    
llvm.experimental.vector.reduce.fmul -> llvm.experimental.vector.reduce.ordered.fmul

fast llvm.experimental.vector.reduce.fmul -> llvm.experimental.vector.reduce.unordered.fmul

Diff Detail

Event Timeline

sdesmalen created this revision.Apr 4 2019, 5:49 AM

Herald added a subscriber: javed.absar. · View Herald TranscriptApr 4 2019, 5:49 AM

simoll added a subscriber: simoll.Apr 7 2019, 9:56 PM

dmgreen added a subscriber: dmgreen.Apr 12 2019, 11:10 AM

steleman added a subscriber: steleman.Apr 16 2019, 5:11 AM

Abandoning this revision to move ahead with D60261 instead.

Revision Contents

Path

Size

docs/

LangRef.rst

134 lines

include/

llvm/

CodeGen/

BasicTTIImpl.h

18 lines

IR/

IRBuilder.h

14 lines

Intrinsics.td

14 lines

lib/

CodeGen/

ExpandReductions.cpp

19 lines

SelectionDAG/

SelectionDAGBuilder.cpp

26 lines

IR/

AutoUpgrade.cpp

33 lines

IRBuilder.cpp

24 lines

Transforms/

Utils/

LoopUtils.cpp

5 lines

test/

Assembler/

invalid-vecreduce.ll

24 lines

Bitcode/

upgrade-vecreduce-intrinsics.ll

66 lines

upgrade-vecreduce-intrinsics.ll.bc

CodeGen/

AArch64/

vecreduce-fadd-legalization.ll

28 lines

vecreduce-fadd.ll

32 lines

Generic/

expand-experimental-reductions.ll

22 lines

X86/

haddsub.ll

8 lines

vector-reduce-fadd-fast.ll

64 lines

vector-reduce-fadd.ll

64 lines

vector-reduce-fmul-fast.ll

64 lines

vector-reduce-fmul.ll

64 lines

Diff 193693

docs/LangRef.rst

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 13,449 Lines • ▼ Show 20 Lines
	The '``llvm.experimental.vector.reduce.add.*``' intrinsics do an integer ``ADD``			The '``llvm.experimental.vector.reduce.add.*``' intrinsics do an integer ``ADD``
	reduction of a vector, returning the result as a scalar. The return type matches			reduction of a vector, returning the result as a scalar. The return type matches
	the element-type of the vector input.			the element-type of the vector input.

	Arguments:			Arguments:
	""""""""""			""""""""""
	The argument to this intrinsic must be a vector of integer values.			The argument to this intrinsic must be a vector of integer values.

	'``llvm.experimental.vector.reduce.fadd.*``' Intrinsic			'``llvm.experimental.vector.reduce.ordered.fadd.*``' Intrinsic
	^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^			^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

	Syntax:			Syntax:
	"""""""			"""""""

	::			::

	declare float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %acc, <4 x float> %a)			declare float @llvm.experimental.vector.reduce.ordered.fadd.f32.v4f32(float %start_value, <4 x float> %a)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v2f64(double %acc, <2 x double> %a)			declare double @llvm.experimental.vector.reduce.ordered.fadd.f64.v2f64(double %start_value, <2 x double> %a)

	Overview:			Overview:
	"""""""""			"""""""""

	The '``llvm.experimental.vector.reduce.fadd.*``' intrinsics do a floating-point			The '``llvm.experimental.vector.reduce.ordered.fadd.*``' intrinsics do an
	``ADD`` reduction of a vector, returning the result as a scalar. The return type			ordered floating-point ``ADD`` reduction of a vector starting from an
	matches the element-type of the vector input.			start value and return the result as a scalar. The return type matches
				the element-type of the vector input and the type of the start value.

	If the intrinsic call has fast-math flags, then the reduction will not preserve			The reduction will preserve the associativity of an equivalent scalarized
	the associativity of an equivalent scalarized counterpart. If it does not have			reduction regardless of any fast-math flags specified on the call instruction.
	fast-math flags, then the reduction will be ordered, implying that the
	operation respects the associativity of a scalarized reduction.


	Arguments:			Arguments:
	""""""""""			""""""""""
	The first argument to this intrinsic is a scalar accumulator value, which is			The first argument to this intrinsic is a scalar start value that acts
	only used when there are no fast-math flags attached. This argument may be undef			as the start value of the ordered reduction. The type of the start value
	when fast-math flags are used. The type of the accumulator matches the			matches the element-type of the vector input.
	element-type of the vector input.

	The second argument must be a vector of floating-point values.			The second argument must be a vector of floating-point values.

	Examples:			Examples:
	"""""""""			"""""""""

	.. code-block:: llvm			.. code-block:: llvm

	%fast = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %input) ; fast reduction			%red = call float @llvm.experimental.vector.reduce.ordered.fadd.f32.v4f32(float 0.0, <4 x float> %input) ; ordered reduction starting with value 0.0
	%ord = call float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %acc, <4 x float> %input) ; ordered reduction

				'``llvm.experimental.vector.reduce.unordered.fadd.*``' Intrinsic
				^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

				Syntax:
				"""""""

				::

				declare float @llvm.experimental.vector.reduce.unordered.fadd.v4f32(<4 x float> %a)
				declare double @llvm.experimental.vector.reduce.unordered.fadd.v2f64(<2 x double> %a)

				Overview:
				"""""""""

				The '``llvm.experimental.vector.reduce.unordered.fadd.*``' intrinsics do an
				unordered floating-point ``ADD`` reduction of a vector, returning the result
				as a scalar. The return type matches the element-type of the vector input.

				The reduction does not need to preserve the associativity of an equivalent
				scalarized reduction.


				Arguments:
				""""""""""
				The argument must be a vector of floating-point values.

				Examples:
				"""""""""

				.. code-block:: llvm

				%red = call float @llvm.experimental.vector.reduce.unordered.fadd.v4f32(<4 x float> %input)


	'``llvm.experimental.vector.reduce.mul.*``' Intrinsic			'``llvm.experimental.vector.reduce.mul.*``' Intrinsic
	^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^			^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

	Syntax:			Syntax:
	"""""""			"""""""

	::			::

	declare i32 @llvm.experimental.vector.reduce.mul.i32.v4i32(<4 x i32> %a)			declare i32 @llvm.experimental.vector.reduce.mul.i32.v4i32(<4 x i32> %a)
	declare i64 @llvm.experimental.vector.reduce.mul.i64.v2i64(<2 x i64> %a)			declare i64 @llvm.experimental.vector.reduce.mul.i64.v2i64(<2 x i64> %a)

	Overview:			Overview:
	"""""""""			"""""""""

	The '``llvm.experimental.vector.reduce.mul.*``' intrinsics do an integer ``MUL``			The '``llvm.experimental.vector.reduce.mul.*``' intrinsics do an integer ``MUL``
	reduction of a vector, returning the result as a scalar. The return type matches			reduction of a vector, returning the result as a scalar. The return type matches
	the element-type of the vector input.			the element-type of the vector input.

	Arguments:			Arguments:
	""""""""""			""""""""""
	The argument to this intrinsic must be a vector of integer values.			The argument to this intrinsic must be a vector of integer values.

	'``llvm.experimental.vector.reduce.fmul.*``' Intrinsic
	^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^			'``llvm.experimental.vector.reduce.ordered.fmul.*``' Intrinsic
				^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

	Syntax:			Syntax:
	"""""""			"""""""

	::			::

	declare float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %acc, <4 x float> %a)			declare float @llvm.experimental.vector.reduce.ordered.fmul.f32.v4f32(float %start_value, <4 x float> %a)
	declare double @llvm.experimental.vector.reduce.fmul.f64.v2f64(double %acc, <2 x double> %a)			declare double @llvm.experimental.vector.reduce.ordered.fmul.f64.v2f64(double %start_value, <2 x double> %a)

	Overview:			Overview:
	"""""""""			"""""""""

	The '``llvm.experimental.vector.reduce.fmul.*``' intrinsics do a floating-point			The '``llvm.experimental.vector.reduce.ordered.fmul.*``' intrinsics do an
	``MUL`` reduction of a vector, returning the result as a scalar. The return type			ordered floating-point ``MUL`` reduction of a vector starting from an
	matches the element-type of the vector input.			start value and return the result as a scalar. The return type matches
				the element-type of the vector input and the type of the start value.

	If the intrinsic call has fast-math flags, then the reduction will not preserve			The reduction will preserve the associativity of an equivalent scalarized
	the associativity of an equivalent scalarized counterpart. If it does not have			reduction regardless of any fast-math flags specified on the call instruction.
	fast-math flags, then the reduction will be ordered, implying that the
	operation respects the associativity of a scalarized reduction.


	Arguments:			Arguments:
	""""""""""			""""""""""
	The first argument to this intrinsic is a scalar accumulator value, which is			The first argument to this intrinsic is a scalar start value that acts
	only used when there are no fast-math flags attached. This argument may be undef			as the start value of the ordered reduction. The type of the start value
	when fast-math flags are used. The type of the accumulator matches the			matches the element-type of the vector input.
	element-type of the vector input.

	The second argument must be a vector of floating-point values.			The second argument must be a vector of floating-point values.

	Examples:			Examples:
	"""""""""			"""""""""

	.. code-block:: llvm			.. code-block:: llvm

	%fast = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %input) ; fast reduction			%red = call float @llvm.experimental.vector.reduce.ordered.fmul.f32.v4f32(float 1.0, <4 x float> %input) ; ordered reduction starting with value 1.0
	%ord = call float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %acc, <4 x float> %input) ; ordered reduction

				'``llvm.experimental.vector.reduce.unordered.fmul.*``' Intrinsic
				^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

				Syntax:
				"""""""

				::

				declare float @llvm.experimental.vector.reduce.unordered.fmul.v4f32(<4 x float> %a)
				declare double @llvm.experimental.vector.reduce.unordered.fmul.v2f64(<2 x double> %a)

				Overview:
				"""""""""

				The '``llvm.experimental.vector.reduce.unordered.fmul.*``' intrinsics do an
				unordered floating-point ``MUL`` reduction of a vector, returning the result
				as a scalar. The return type matches the element-type of the vector input.

				The reduction does not need to preserve the associativity of an equivalent
				scalarized reduction.


				Arguments:
				""""""""""
				The argument must be a vector of floating-point values.

				Examples:
				"""""""""

				.. code-block:: llvm

				%red = call float @llvm.experimental.vector.reduce.unordered.fmul.v4f32(<4 x float> %input)


	'``llvm.experimental.vector.reduce.and.*``' Intrinsic			'``llvm.experimental.vector.reduce.and.*``' Intrinsic
	^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^			^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

	Syntax:			Syntax:
	"""""""			"""""""

	::			::
	▲ Show 20 Lines • Show All 3,302 Lines • Show Last 20 Lines

include/llvm/CodeGen/BasicTTIImpl.h

Show First 20 Lines • Show All 1,051 Lines • ▼ Show 20 Lines	case Intrinsic::masked_gather: {
return ConcreteTTI->getGatherScatterOpCost(Instruction::Load, RetTy,		return ConcreteTTI->getGatherScatterOpCost(Instruction::Load, RetTy,
Args[0], VarMask, Alignment);		Args[0], VarMask, Alignment);
}		}
case Intrinsic::experimental_vector_reduce_add:		case Intrinsic::experimental_vector_reduce_add:
case Intrinsic::experimental_vector_reduce_mul:		case Intrinsic::experimental_vector_reduce_mul:
case Intrinsic::experimental_vector_reduce_and:		case Intrinsic::experimental_vector_reduce_and:
case Intrinsic::experimental_vector_reduce_or:		case Intrinsic::experimental_vector_reduce_or:
case Intrinsic::experimental_vector_reduce_xor:		case Intrinsic::experimental_vector_reduce_xor:
case Intrinsic::experimental_vector_reduce_fadd:
case Intrinsic::experimental_vector_reduce_fmul:
case Intrinsic::experimental_vector_reduce_smax:		case Intrinsic::experimental_vector_reduce_smax:
case Intrinsic::experimental_vector_reduce_smin:		case Intrinsic::experimental_vector_reduce_smin:
case Intrinsic::experimental_vector_reduce_fmax:		case Intrinsic::experimental_vector_reduce_fmax:
case Intrinsic::experimental_vector_reduce_fmin:		case Intrinsic::experimental_vector_reduce_fmin:
case Intrinsic::experimental_vector_reduce_umax:		case Intrinsic::experimental_vector_reduce_umax:
case Intrinsic::experimental_vector_reduce_umin:		case Intrinsic::experimental_vector_reduce_umin:
		case Intrinsic::experimental_vector_reduce_ordered_fadd:
		case Intrinsic::experimental_vector_reduce_unordered_fadd:
		case Intrinsic::experimental_vector_reduce_ordered_fmul:
		case Intrinsic::experimental_vector_reduce_unordered_fmul:
return getIntrinsicInstrCost(IID, RetTy, Args[0]->getType(), FMF);		return getIntrinsicInstrCost(IID, RetTy, Args[0]->getType(), FMF);
case Intrinsic::fshl:		case Intrinsic::fshl:
case Intrinsic::fshr: {		case Intrinsic::fshr: {
Value *X = Args[0];		Value *X = Args[0];
Value *Y = Args[1];		Value *Y = Args[1];
Value *Z = Args[2];		Value *Z = Args[2];
TTI::OperandValueProperties OpPropsX, OpPropsY, OpPropsZ, OpPropsBW;		TTI::OperandValueProperties OpPropsX, OpPropsY, OpPropsZ, OpPropsBW;
TTI::OperandValueKind OpKindX = TTI::getOperandInfo(X, OpPropsX);		TTI::OperandValueKind OpKindX = TTI::getOperandInfo(X, OpPropsX);
▲ Show 20 Lines • Show All 167 Lines • ▼ Show 20 Lines	case Intrinsic::experimental_vector_reduce_and:
return ConcreteTTI->getArithmeticReductionCost(Instruction::And, Tys[0],		return ConcreteTTI->getArithmeticReductionCost(Instruction::And, Tys[0],
/IsPairwiseForm=/false);		/IsPairwiseForm=/false);
case Intrinsic::experimental_vector_reduce_or:		case Intrinsic::experimental_vector_reduce_or:
return ConcreteTTI->getArithmeticReductionCost(Instruction::Or, Tys[0],		return ConcreteTTI->getArithmeticReductionCost(Instruction::Or, Tys[0],
/IsPairwiseForm=/false);		/IsPairwiseForm=/false);
case Intrinsic::experimental_vector_reduce_xor:		case Intrinsic::experimental_vector_reduce_xor:
return ConcreteTTI->getArithmeticReductionCost(Instruction::Xor, Tys[0],		return ConcreteTTI->getArithmeticReductionCost(Instruction::Xor, Tys[0],
/IsPairwiseForm=/false);		/IsPairwiseForm=/false);
case Intrinsic::experimental_vector_reduce_fadd:		case Intrinsic::experimental_vector_reduce_ordered_fadd:
return ConcreteTTI->getArithmeticReductionCost(Instruction::FAdd, Tys[0],		return ConcreteTTI->getArithmeticReductionCost(Instruction::FAdd, Tys[0],
/IsPairwiseForm=/false);		/IsPairwiseForm=/false);
case Intrinsic::experimental_vector_reduce_fmul:		case Intrinsic::experimental_vector_reduce_unordered_fadd:
		return ConcreteTTI->getArithmeticReductionCost(
		Instruction::FAdd, Tys[0]->getVectorElementType(),
		/IsPairwiseForm=/false); // FIXME: This should be set to 'true'
		case Intrinsic::experimental_vector_reduce_ordered_fmul:
return ConcreteTTI->getArithmeticReductionCost(Instruction::FMul, Tys[0],		return ConcreteTTI->getArithmeticReductionCost(Instruction::FMul, Tys[0],
/IsPairwiseForm=/false);		/IsPairwiseForm=/false);
		case Intrinsic::experimental_vector_reduce_unordered_fmul:
		return ConcreteTTI->getArithmeticReductionCost(
		Instruction::FMul, Tys[0],
		/IsPairwiseForm=/false); // FIXME: This should be set to 'true'
case Intrinsic::experimental_vector_reduce_smax:		case Intrinsic::experimental_vector_reduce_smax:
case Intrinsic::experimental_vector_reduce_smin:		case Intrinsic::experimental_vector_reduce_smin:
case Intrinsic::experimental_vector_reduce_fmax:		case Intrinsic::experimental_vector_reduce_fmax:
case Intrinsic::experimental_vector_reduce_fmin:		case Intrinsic::experimental_vector_reduce_fmin:
return ConcreteTTI->getMinMaxReductionCost(		return ConcreteTTI->getMinMaxReductionCost(
Tys[0], CmpInst::makeCmpResultType(Tys[0]), /IsPairwiseForm=/false,		Tys[0], CmpInst::makeCmpResultType(Tys[0]), /IsPairwiseForm=/false,
/IsSigned=/true);		/IsSigned=/true);
case Intrinsic::experimental_vector_reduce_umax:		case Intrinsic::experimental_vector_reduce_umax:
▲ Show 20 Lines • Show All 424 Lines • Show Last 20 Lines

include/llvm/IR/IRBuilder.h

Show First 20 Lines • Show All 522 Lines • ▼ Show 20 Lines	public:
}		}

CallInst *CreateElementUnorderedAtomicMemMove(		CallInst *CreateElementUnorderedAtomicMemMove(
Value Dst, unsigned DstAlign, Value Src, unsigned SrcAlign, Value *Size,		Value Dst, unsigned DstAlign, Value Src, unsigned SrcAlign, Value *Size,
uint32_t ElementSize, MDNode *TBAATag = nullptr,		uint32_t ElementSize, MDNode *TBAATag = nullptr,
MDNode TBAAStructTag = nullptr, MDNode ScopeTag = nullptr,		MDNode TBAAStructTag = nullptr, MDNode ScopeTag = nullptr,
MDNode *NoAliasTag = nullptr);		MDNode *NoAliasTag = nullptr);

/// Create a vector fadd reduction intrinsic of the source vector.		/// Create an ordered vector fadd reduction intrinsic of the source vector.
/// The first parameter is a scalar accumulator value for ordered reductions.		/// The first parameter is a scalar accumulator value for ordered reductions.
CallInst CreateFAddReduce(Value Acc, Value *Src);		CallInst CreateOrderedFAddReduce(Value Acc, Value *Src);

/// Create a vector fmul reduction intrinsic of the source vector.		/// Create an unordered vector fadd reduction intrinsic of the source vector.
		CallInst CreateUnorderedFAddReduce(Value Src);

		/// Create an ordered vector fmul reduction intrinsic of the source vector.
/// The first parameter is a scalar accumulator value for ordered reductions.		/// The first parameter is a scalar accumulator value for ordered reductions.
CallInst CreateFMulReduce(Value Acc, Value *Src);		CallInst CreateOrderedFMulReduce(Value Acc, Value *Src);

		/// Create an unordered vector fmul reduction intrinsic of the source vector.
		CallInst CreateUnorderedFMulReduce(Value Src);

/// Create a vector int add reduction intrinsic of the source vector.		/// Create a vector int add reduction intrinsic of the source vector.
CallInst CreateAddReduce(Value Src);		CallInst CreateAddReduce(Value Src);

/// Create a vector int mul reduction intrinsic of the source vector.		/// Create a vector int mul reduction intrinsic of the source vector.
CallInst CreateMulReduce(Value Src);		CallInst CreateMulReduce(Value Src);

/// Create a vector int AND reduction intrinsic of the source vector.		/// Create a vector int AND reduction intrinsic of the source vector.
▲ Show 20 Lines • Show All 1,820 Lines • Show Last 20 Lines

include/llvm/IR/Intrinsics.td

	Show First 20 Lines • Show All 1,116 Lines • ▼ Show 20 Lines

	// @llvm.memset.element.unordered.atomic.*(dest, value, length, elementsize)			// @llvm.memset.element.unordered.atomic.*(dest, value, length, elementsize)
	def int_memset_element_unordered_atomic			def int_memset_element_unordered_atomic
	: Intrinsic<[], [ llvm_anyptr_ty, llvm_i8_ty, llvm_anyint_ty, llvm_i32_ty ],			: Intrinsic<[], [ llvm_anyptr_ty, llvm_i8_ty, llvm_anyint_ty, llvm_i32_ty ],
	[ IntrArgMemOnly, NoCapture<0>, WriteOnly<0>, ImmArg<3> ]>;			[ IntrArgMemOnly, NoCapture<0>, WriteOnly<0>, ImmArg<3> ]>;

	//===------------------------ Reduction Intrinsics ------------------------===//			//===------------------------ Reduction Intrinsics ------------------------===//
	//			//
	def int_experimental_vector_reduce_fadd : Intrinsic<[llvm_anyfloat_ty],			def int_experimental_vector_reduce_ordered_fadd : Intrinsic<
				[llvm_anyfloat_ty],
	[LLVMMatchType<0>,			[LLVMMatchType<0>,
	llvm_anyvector_ty],			llvm_anyvector_ty],
	[IntrNoMem]>;			[IntrNoMem]>;
	def int_experimental_vector_reduce_fmul : Intrinsic<[llvm_anyfloat_ty],			def int_experimental_vector_reduce_unordered_fadd
				: Intrinsic<[llvm_anyfloat_ty],
				[llvm_anyvector_ty],
				[IntrNoMem]>;
				def int_experimental_vector_reduce_ordered_fmul : Intrinsic<
				[llvm_anyfloat_ty],
	[LLVMMatchType<0>,			[LLVMMatchType<0>,
	llvm_anyvector_ty],			llvm_anyvector_ty],
	[IntrNoMem]>;			[IntrNoMem]>;
				def int_experimental_vector_reduce_unordered_fmul
				: Intrinsic<[llvm_anyfloat_ty],
				[llvm_anyvector_ty],
				[IntrNoMem]>;
	def int_experimental_vector_reduce_add : Intrinsic<[llvm_anyint_ty],			def int_experimental_vector_reduce_add : Intrinsic<[llvm_anyint_ty],
	[llvm_anyvector_ty],			[llvm_anyvector_ty],
	[IntrNoMem]>;			[IntrNoMem]>;
	def int_experimental_vector_reduce_mul : Intrinsic<[llvm_anyint_ty],			def int_experimental_vector_reduce_mul : Intrinsic<[llvm_anyint_ty],
	[llvm_anyvector_ty],			[llvm_anyvector_ty],
	[IntrNoMem]>;			[IntrNoMem]>;
	def int_experimental_vector_reduce_and : Intrinsic<[llvm_anyint_ty],			def int_experimental_vector_reduce_and : Intrinsic<[llvm_anyint_ty],
	[llvm_anyvector_ty],			[llvm_anyvector_ty],
	▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

lib/CodeGen/ExpandReductions.cpp

Show All 23 Lines
#include "llvm/Transforms/Utils/LoopUtils.h"		#include "llvm/Transforms/Utils/LoopUtils.h"

using namespace llvm;		using namespace llvm;

namespace {		namespace {

unsigned getOpcode(Intrinsic::ID ID) {		unsigned getOpcode(Intrinsic::ID ID) {
switch (ID) {		switch (ID) {
case Intrinsic::experimental_vector_reduce_fadd:		case Intrinsic::experimental_vector_reduce_ordered_fadd:
		case Intrinsic::experimental_vector_reduce_unordered_fadd:
return Instruction::FAdd;		return Instruction::FAdd;
case Intrinsic::experimental_vector_reduce_fmul:		case Intrinsic::experimental_vector_reduce_ordered_fmul:
		case Intrinsic::experimental_vector_reduce_unordered_fmul:
return Instruction::FMul;		return Instruction::FMul;
case Intrinsic::experimental_vector_reduce_add:		case Intrinsic::experimental_vector_reduce_add:
return Instruction::Add;		return Instruction::Add;
case Intrinsic::experimental_vector_reduce_mul:		case Intrinsic::experimental_vector_reduce_mul:
return Instruction::Mul;		return Instruction::Mul;
case Intrinsic::experimental_vector_reduce_and:		case Intrinsic::experimental_vector_reduce_and:
return Instruction::And;		return Instruction::And;
case Intrinsic::experimental_vector_reduce_or:		case Intrinsic::experimental_vector_reduce_or:
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines	bool expandReductions(Function &F, const TargetTransformInfo *TTI) {
for (auto *II : Worklist) {		for (auto *II : Worklist) {
IRBuilder<> Builder(II);		IRBuilder<> Builder(II);
bool IsOrdered = false;		bool IsOrdered = false;
Value *Acc = nullptr;		Value *Acc = nullptr;
Value *Vec = nullptr;		Value *Vec = nullptr;
auto ID = II->getIntrinsicID();		auto ID = II->getIntrinsicID();
auto MRK = RecurrenceDescriptor::MRK_Invalid;		auto MRK = RecurrenceDescriptor::MRK_Invalid;
switch (ID) {		switch (ID) {
case Intrinsic::experimental_vector_reduce_fadd:		case Intrinsic::experimental_vector_reduce_ordered_fadd:
case Intrinsic::experimental_vector_reduce_fmul:		case Intrinsic::experimental_vector_reduce_ordered_fmul:
// FMFs must be attached to the call, otherwise it's an ordered reduction
// and it can't be handled by generating a shuffle sequence.
if (!II->getFastMathFlags().isFast())
IsOrdered = true;		IsOrdered = true;
Acc = II->getArgOperand(0);		Acc = II->getArgOperand(0);
Vec = II->getArgOperand(1);		Vec = II->getArgOperand(1);
break;		break;
		case Intrinsic::experimental_vector_reduce_unordered_fadd:
		case Intrinsic::experimental_vector_reduce_unordered_fmul:
		Vec = II->getArgOperand(0);
		break;
case Intrinsic::experimental_vector_reduce_add:		case Intrinsic::experimental_vector_reduce_add:
case Intrinsic::experimental_vector_reduce_mul:		case Intrinsic::experimental_vector_reduce_mul:
case Intrinsic::experimental_vector_reduce_and:		case Intrinsic::experimental_vector_reduce_and:
case Intrinsic::experimental_vector_reduce_or:		case Intrinsic::experimental_vector_reduce_or:
case Intrinsic::experimental_vector_reduce_xor:		case Intrinsic::experimental_vector_reduce_xor:
case Intrinsic::experimental_vector_reduce_smax:		case Intrinsic::experimental_vector_reduce_smax:
case Intrinsic::experimental_vector_reduce_smin:		case Intrinsic::experimental_vector_reduce_smin:
case Intrinsic::experimental_vector_reduce_umax:		case Intrinsic::experimental_vector_reduce_umax:
▲ Show 20 Lines • Show All 62 Lines • Show Last 20 Lines

lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 6,640 Lines • ▼ Show 20 Lines	case Intrinsic::xray_typedevent: {
DAG.setRoot(patchableNode);		DAG.setRoot(patchableNode);
setValue(&I, patchableNode);		setValue(&I, patchableNode);
return nullptr;		return nullptr;
}		}
case Intrinsic::experimental_deoptimize:		case Intrinsic::experimental_deoptimize:
LowerDeoptimizeCall(&I);		LowerDeoptimizeCall(&I);
return nullptr;		return nullptr;

case Intrinsic::experimental_vector_reduce_fadd:		case Intrinsic::experimental_vector_reduce_ordered_fadd:
case Intrinsic::experimental_vector_reduce_fmul:		case Intrinsic::experimental_vector_reduce_unordered_fadd:
		case Intrinsic::experimental_vector_reduce_ordered_fmul:
		case Intrinsic::experimental_vector_reduce_unordered_fmul:
case Intrinsic::experimental_vector_reduce_add:		case Intrinsic::experimental_vector_reduce_add:
case Intrinsic::experimental_vector_reduce_mul:		case Intrinsic::experimental_vector_reduce_mul:
case Intrinsic::experimental_vector_reduce_and:		case Intrinsic::experimental_vector_reduce_and:
case Intrinsic::experimental_vector_reduce_or:		case Intrinsic::experimental_vector_reduce_or:
case Intrinsic::experimental_vector_reduce_xor:		case Intrinsic::experimental_vector_reduce_xor:
case Intrinsic::experimental_vector_reduce_smax:		case Intrinsic::experimental_vector_reduce_smax:
case Intrinsic::experimental_vector_reduce_smin:		case Intrinsic::experimental_vector_reduce_smin:
case Intrinsic::experimental_vector_reduce_umax:		case Intrinsic::experimental_vector_reduce_umax:
▲ Show 20 Lines • Show All 2,024 Lines • ▼ Show 20 Lines	void SelectionDAGBuilder::visitVectorReduce(const CallInst &I,
SDLoc dl = getCurSDLoc();		SDLoc dl = getCurSDLoc();
EVT VT = TLI.getValueType(DAG.getDataLayout(), I.getType());		EVT VT = TLI.getValueType(DAG.getDataLayout(), I.getType());
SDValue Res;		SDValue Res;
FastMathFlags FMF;		FastMathFlags FMF;
if (isa<FPMathOperator>(I))		if (isa<FPMathOperator>(I))
FMF = I.getFastMathFlags();		FMF = I.getFastMathFlags();

switch (Intrinsic) {		switch (Intrinsic) {
case Intrinsic::experimental_vector_reduce_fadd:		case Intrinsic::experimental_vector_reduce_ordered_fadd:
if (FMF.isFast())
Res = DAG.getNode(ISD::VECREDUCE_FADD, dl, VT, Op2);
else
Res = DAG.getNode(ISD::VECREDUCE_STRICT_FADD, dl, VT, Op1, Op2);		Res = DAG.getNode(ISD::VECREDUCE_STRICT_FADD, dl, VT, Op1, Op2);
break;		break;
case Intrinsic::experimental_vector_reduce_fmul:		case Intrinsic::experimental_vector_reduce_unordered_fadd:
if (FMF.isFast())		Res = DAG.getNode(ISD::VECREDUCE_FADD, dl, VT, Op1);
Res = DAG.getNode(ISD::VECREDUCE_FMUL, dl, VT, Op2);		break;
else		case Intrinsic::experimental_vector_reduce_ordered_fmul:
Res = DAG.getNode(ISD::VECREDUCE_STRICT_FMUL, dl, VT, Op1, Op2);		Res = DAG.getNode(ISD::VECREDUCE_STRICT_FMUL, dl, VT, Op1, Op2);
break;		break;
		case Intrinsic::experimental_vector_reduce_unordered_fmul:
		Res = DAG.getNode(ISD::VECREDUCE_FMUL, dl, VT, Op1);
		break;
case Intrinsic::experimental_vector_reduce_add:		case Intrinsic::experimental_vector_reduce_add:
Res = DAG.getNode(ISD::VECREDUCE_ADD, dl, VT, Op1);		Res = DAG.getNode(ISD::VECREDUCE_ADD, dl, VT, Op1);
break;		break;
case Intrinsic::experimental_vector_reduce_mul:		case Intrinsic::experimental_vector_reduce_mul:
Res = DAG.getNode(ISD::VECREDUCE_MUL, dl, VT, Op1);		Res = DAG.getNode(ISD::VECREDUCE_MUL, dl, VT, Op1);
break;		break;
case Intrinsic::experimental_vector_reduce_and:		case Intrinsic::experimental_vector_reduce_and:
Res = DAG.getNode(ISD::VECREDUCE_AND, dl, VT, Op1);		Res = DAG.getNode(ISD::VECREDUCE_AND, dl, VT, Op1);
▲ Show 20 Lines • Show All 2,041 Lines • Show Last 20 Lines

lib/IR/AutoUpgrade.cpp

Show First 20 Lines • Show All 599 Lines • ▼ Show 20 Lines	static bool UpgradeIntrinsicFunction1(Function F, Function &NewFn) {
case 'd': {		case 'd': {
if (Name == "dbg.value" && F->arg_size() == 4) {		if (Name == "dbg.value" && F->arg_size() == 4) {
rename(F);		rename(F);
NewFn = Intrinsic::getDeclaration(F->getParent(), Intrinsic::dbg_value);		NewFn = Intrinsic::getDeclaration(F->getParent(), Intrinsic::dbg_value);
return true;		return true;
}		}
break;		break;
}		}
		case 'e': {
		if (Name.startswith("experimental.vector.reduce.")) {
		Name = Name.substr(27);
		if (Name.startswith("fadd") \|\| Name.startswith("fmul")) {
		NewFn = nullptr;
		return true;
		}
		}
		break;
		}
case 'i':		case 'i':
case 'l': {		case 'l': {
bool IsLifetimeStart = Name.startswith("lifetime.start");		bool IsLifetimeStart = Name.startswith("lifetime.start");
if (IsLifetimeStart \|\| Name.startswith("invariant.start")) {		if (IsLifetimeStart \|\| Name.startswith("invariant.start")) {
Intrinsic::ID ID = IsLifetimeStart ?		Intrinsic::ID ID = IsLifetimeStart ?
Intrinsic::lifetime_start : Intrinsic::invariant_start;		Intrinsic::lifetime_start : Intrinsic::invariant_start;
auto Args = F->getFunctionType()->params();		auto Args = F->getFunctionType()->params();
Type* ObjectPtr[1] = {Args[1]};		Type* ObjectPtr[1] = {Args[1]};
▲ Show 20 Lines • Show All 985 Lines • ▼ Show 20 Lines	if (!NewFn) {

bool IsX86 = Name.startswith("x86.");		bool IsX86 = Name.startswith("x86.");
if (IsX86)		if (IsX86)
Name = Name.substr(4);		Name = Name.substr(4);
bool IsNVVM = Name.startswith("nvvm.");		bool IsNVVM = Name.startswith("nvvm.");
if (IsNVVM)		if (IsNVVM)
Name = Name.substr(5);		Name = Name.substr(5);

		bool IsExperimentalVecReduce = Name.startswith("experimental.vector.reduce.");
		if (IsExperimentalVecReduce)
		Name = Name.substr(27);

if (IsX86 && Name.startswith("sse4a.movnt.")) {		if (IsX86 && Name.startswith("sse4a.movnt.")) {
Module *M = F->getParent();		Module *M = F->getParent();
SmallVector<Metadata *, 1> Elts;		SmallVector<Metadata *, 1> Elts;
Elts.push_back(		Elts.push_back(
ConstantAsMetadata::get(ConstantInt::get(Type::getInt32Ty(C), 1)));		ConstantAsMetadata::get(ConstantInt::get(Type::getInt32Ty(C), 1)));
MDNode *Node = MDNode::get(C, Elts);		MDNode *Node = MDNode::get(C, Elts);

Value *Arg0 = CI->getArgOperand(0);		Value *Arg0 = CI->getArgOperand(0);
▲ Show 20 Lines • Show All 1,803 Lines • ▼ Show 20 Lines
{Arg->getType()}),		{Arg->getType()}),
Arg, "ctpop");		Arg, "ctpop");
Rep = Builder.CreateTrunc(Popc, Builder.getInt32Ty(), "ctpop.trunc");		Rep = Builder.CreateTrunc(Popc, Builder.getInt32Ty(), "ctpop.trunc");
} else if (IsNVVM && Name == "h2f") {		} else if (IsNVVM && Name == "h2f") {
Rep = Builder.CreateCall(Intrinsic::getDeclaration(		Rep = Builder.CreateCall(Intrinsic::getDeclaration(
F->getParent(), Intrinsic::convert_from_fp16,		F->getParent(), Intrinsic::convert_from_fp16,
{Builder.getFloatTy()}),		{Builder.getFloatTy()}),
CI->getArgOperand(0), "h2f");		CI->getArgOperand(0), "h2f");
		} else if (IsExperimentalVecReduce) {
		Intrinsic::ID ID = Intrinsic::not_intrinsic;
		if (Name.startswith("fadd"))
		ID = CI->hasAllowReassoc()
		? Intrinsic::experimental_vector_reduce_unordered_fadd
		: Intrinsic::experimental_vector_reduce_ordered_fadd;
		else if(Name.startswith("fmul"))
		ID = CI->hasAllowReassoc()
		? Intrinsic::experimental_vector_reduce_unordered_fmul
		: Intrinsic::experimental_vector_reduce_ordered_fmul;

		if (ID != Intrinsic::not_intrinsic) {
		Value Op0 = CI->getOperand(0), Op1 = CI->getOperand(1);
		NewFn = Intrinsic::getDeclaration(F->getParent(), ID,
		{CI->getType(), Op1->getType()});
		Rep = CI->isFast() ? Builder.CreateCall(NewFn, {Op1})
		: Builder.CreateCall(NewFn, {Op0, Op1});
		cast<Instruction>(Rep)->copyFastMathFlags(CI);
		}
} else {		} else {
llvm_unreachable("Unknown function for CallInst upgrade.");		llvm_unreachable("Unknown function for CallInst upgrade.");
}		}

if (Rep)		if (Rep)
CI->replaceAllUsesWith(Rep);		CI->replaceAllUsesWith(Rep);
CI->eraseFromParent();		CI->eraseFromParent();
return;		return;
▲ Show 20 Lines • Show All 511 Lines • Show Last 20 Lines

lib/IR/IRBuilder.cpp

Show First 20 Lines • Show All 312 Lines • ▼ Show 20 Lines	static CallInst getReductionIntrinsic(IRBuilderBase Builder, Intrinsic::ID ID,
Value *Src) {		Value *Src) {
Module *M = Builder->GetInsertBlock()->getParent()->getParent();		Module *M = Builder->GetInsertBlock()->getParent()->getParent();
Value *Ops[] = {Src};		Value *Ops[] = {Src};
Type *Tys[] = { Src->getType()->getVectorElementType(), Src->getType() };		Type *Tys[] = { Src->getType()->getVectorElementType(), Src->getType() };
auto Decl = Intrinsic::getDeclaration(M, ID, Tys);		auto Decl = Intrinsic::getDeclaration(M, ID, Tys);
return createCallHelper(Decl, Ops, Builder);		return createCallHelper(Decl, Ops, Builder);
}		}

CallInst IRBuilderBase::CreateFAddReduce(Value Acc, Value *Src) {		CallInst IRBuilderBase::CreateOrderedFAddReduce(Value Acc, Value *Src) {
Module *M = GetInsertBlock()->getParent()->getParent();		Module *M = GetInsertBlock()->getParent()->getParent();
Value *Ops[] = {Acc, Src};		Value *Ops[] = {Acc, Src};
Type *Tys[] = {Acc->getType(), Src->getType()};		Type *Tys[] = {Acc->getType(), Src->getType()};
auto Decl = Intrinsic::getDeclaration(		auto Decl = Intrinsic::getDeclaration(
M, Intrinsic::experimental_vector_reduce_fadd, Tys);		M, Intrinsic::experimental_vector_reduce_ordered_fadd, Tys);
return createCallHelper(Decl, Ops, this);		return createCallHelper(Decl, Ops, this);
}		}

CallInst IRBuilderBase::CreateFMulReduce(Value Acc, Value *Src) {		CallInst IRBuilderBase::CreateUnorderedFAddReduce(Value Src) {
		Module *M = GetInsertBlock()->getParent()->getParent();
		Type *Tys[] = {Src->getType()->getVectorElementType(), Src->getType()};
		auto Decl = Intrinsic::getDeclaration(
		M, Intrinsic::experimental_vector_reduce_unordered_fadd, Tys);
		return createCallHelper(Decl, {Src}, this);
		}

		CallInst IRBuilderBase::CreateOrderedFMulReduce(Value Acc, Value *Src) {
Module *M = GetInsertBlock()->getParent()->getParent();		Module *M = GetInsertBlock()->getParent()->getParent();
Value *Ops[] = {Acc, Src};		Value *Ops[] = {Acc, Src};
Type *Tys[] = {Acc->getType(), Src->getType()};		Type *Tys[] = {Acc->getType(), Src->getType()};
auto Decl = Intrinsic::getDeclaration(		auto Decl = Intrinsic::getDeclaration(
M, Intrinsic::experimental_vector_reduce_fmul, Tys);		M, Intrinsic::experimental_vector_reduce_ordered_fmul, Tys);
return createCallHelper(Decl, Ops, this);		return createCallHelper(Decl, Ops, this);
}		}

		CallInst IRBuilderBase::CreateUnorderedFMulReduce(Value Src) {
		Module *M = GetInsertBlock()->getParent()->getParent();
		Type *Tys[] = {Src->getType()->getVectorElementType(), Src->getType()};
		auto Decl = Intrinsic::getDeclaration(
		M, Intrinsic::experimental_vector_reduce_unordered_fmul, Tys);
		return createCallHelper(Decl, {Src}, this);
		}

CallInst IRBuilderBase::CreateAddReduce(Value Src) {		CallInst IRBuilderBase::CreateAddReduce(Value Src) {
return getReductionIntrinsic(this, Intrinsic::experimental_vector_reduce_add,		return getReductionIntrinsic(this, Intrinsic::experimental_vector_reduce_add,
Src);		Src);
}		}

CallInst IRBuilderBase::CreateMulReduce(Value Src) {		CallInst IRBuilderBase::CreateMulReduce(Value Src) {
return getReductionIntrinsic(this, Intrinsic::experimental_vector_reduce_mul,		return getReductionIntrinsic(this, Intrinsic::experimental_vector_reduce_mul,
Src);		Src);
▲ Show 20 Lines • Show All 410 Lines • Show Last 20 Lines

lib/Transforms/Utils/LoopUtils.cpp

Show First 20 Lines • Show All 798 Lines • ▼ Show 20 Lines
/// Create a simple vector reduction specified by an opcode and some		/// Create a simple vector reduction specified by an opcode and some
/// flags (if generating min/max reductions).		/// flags (if generating min/max reductions).
Value *llvm::createSimpleTargetReduction(		Value *llvm::createSimpleTargetReduction(
IRBuilder<> &Builder, const TargetTransformInfo *TTI, unsigned Opcode,		IRBuilder<> &Builder, const TargetTransformInfo *TTI, unsigned Opcode,
Value *Src, TargetTransformInfo::ReductionFlags Flags, FastMathFlags FMF,		Value *Src, TargetTransformInfo::ReductionFlags Flags, FastMathFlags FMF,
ArrayRef<Value *> RedOps) {		ArrayRef<Value *> RedOps) {
assert(isa<VectorType>(Src->getType()) && "Type must be a vector");		assert(isa<VectorType>(Src->getType()) && "Type must be a vector");

Value *ScalarUdf = UndefValue::get(Src->getType()->getVectorElementType());
std::function<Value *()> BuildFunc;		std::function<Value *()> BuildFunc;
using RD = RecurrenceDescriptor;		using RD = RecurrenceDescriptor;
RD::MinMaxRecurrenceKind MinMaxKind = RD::MRK_Invalid;		RD::MinMaxRecurrenceKind MinMaxKind = RD::MRK_Invalid;
// TODO: Support creating ordered reductions.		// TODO: Support creating ordered reductions.
FastMathFlags FMFFast;		FastMathFlags FMFFast;
FMFFast.setFast();		FMFFast.setFast();

switch (Opcode) {		switch (Opcode) {
Show All 9 Lines	Value *llvm::createSimpleTargetReduction(
case Instruction::Or:		case Instruction::Or:
BuildFunc = [&]() { return Builder.CreateOrReduce(Src); };		BuildFunc = [&]() { return Builder.CreateOrReduce(Src); };
break;		break;
case Instruction::Xor:		case Instruction::Xor:
BuildFunc = [&]() { return Builder.CreateXorReduce(Src); };		BuildFunc = [&]() { return Builder.CreateXorReduce(Src); };
break;		break;
case Instruction::FAdd:		case Instruction::FAdd:
BuildFunc = [&]() {		BuildFunc = [&]() {
auto Rdx = Builder.CreateFAddReduce(ScalarUdf, Src);		auto Rdx = Builder.CreateUnorderedFAddReduce(Src);
cast<CallInst>(Rdx)->setFastMathFlags(FMFFast);		cast<CallInst>(Rdx)->setFastMathFlags(FMFFast);
return Rdx;		return Rdx;
};		};
break;		break;
case Instruction::FMul:		case Instruction::FMul:
BuildFunc = [&]() {		BuildFunc = [&]() {
auto Rdx = Builder.CreateFMulReduce(ScalarUdf, Src);		auto Rdx = Builder.CreateUnorderedFMulReduce(Src);
cast<CallInst>(Rdx)->setFastMathFlags(FMFFast);		cast<CallInst>(Rdx)->setFastMathFlags(FMFFast);
return Rdx;		return Rdx;
};		};
break;		break;
case Instruction::ICmp:		case Instruction::ICmp:
if (Flags.IsMaxOp) {		if (Flags.IsMaxOp) {
MinMaxKind = Flags.IsSigned ? RD::MRK_SIntMax : RD::MRK_UIntMax;		MinMaxKind = Flags.IsSigned ? RD::MRK_SIntMax : RD::MRK_UIntMax;
BuildFunc = [&]() {		BuildFunc = [&]() {
▲ Show 20 Lines • Show All 130 Lines • Show Last 20 Lines

test/Assembler/invalid-vecreduce.ll

	; RUN: not opt -S < %s 2>&1 \| FileCheck %s			; RUN: not opt -S < %s 2>&1 \| FileCheck %s

	; CHECK: Intrinsic has incorrect argument type!			; CHECK: Intrinsic has incorrect argument type!
	; CHECK-NEXT: float (double, <2 x double>)* @llvm.experimental.vector.reduce.fadd.f32.f64.v2f64			; CHECK-NEXT: float (double, <2 x double>)* @llvm.experimental.vector.reduce.ordered.fadd.f32.f64.v2f64
	define float @fadd_invalid_scalar_res(double %acc, <2 x double> %in) {			define float @fadd_invalid_scalar_res(double %acc, <2 x double> %in) {
	%res = call float @llvm.experimental.vector.reduce.fadd.f32.f64.v2f64(double %acc, <2 x double> %in)			%res = call float @llvm.experimental.vector.reduce.ordered.fadd.f32.f64.v2f64(double %acc, <2 x double> %in)
	ret float %res			ret float %res
	}			}

	; CHECK: Intrinsic has incorrect argument type!			; CHECK: Intrinsic has incorrect argument type!
	; CHECK-NEXT: double (float, <2 x double>)* @llvm.experimental.vector.reduce.fadd.f64.f32.v2f64			; CHECK-NEXT: double (float, <2 x double>)* @llvm.experimental.vector.reduce.ordered.fadd.f64.f32.v2f64
	define double @fadd_invalid_scalar_start(float %acc, <2 x double> %in) {			define double @fadd_invalid_scalar_start(float %acc, <2 x double> %in) {
	%res = call double @llvm.experimental.vector.reduce.fadd.f64.f32.v2f64(float %acc, <2 x double> %in)			%res = call double @llvm.experimental.vector.reduce.ordered.fadd.f64.f32.v2f64(float %acc, <2 x double> %in)
	ret double %res			ret double %res
	}			}

	; CHECK: Intrinsic has incorrect argument type!			; CHECK: Intrinsic has incorrect argument type!
	; CHECK-NEXT: <2 x double> (double, <2 x double>)* @llvm.experimental.vector.reduce.fadd.v2f64.f64.v2f64			; CHECK-NEXT: <2 x double> (double, <2 x double>)* @llvm.experimental.vector.reduce.ordered.fadd.v2f64.f64.v2f64
	define <2 x double> @fadd_invalid_vector_res(double %acc, <2 x double> %in) {			define <2 x double> @fadd_invalid_vector_res(double %acc, <2 x double> %in) {
	%res = call <2 x double> @llvm.experimental.vector.reduce.fadd.v2f64.f64.v2f64(double %acc, <2 x double> %in)			%res = call <2 x double> @llvm.experimental.vector.reduce.ordered.fadd.v2f64.f64.v2f64(double %acc, <2 x double> %in)
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	; CHECK: Intrinsic has incorrect argument type!			; CHECK: Intrinsic has incorrect argument type!
	; CHECK-NEXT: double (<2 x double>, <2 x double>)* @llvm.experimental.vector.reduce.fadd.f64.v2f64.v2f64			; CHECK-NEXT: double (<2 x double>, <2 x double>)* @llvm.experimental.vector.reduce.ordered.fadd.f64.v2f64.v2f64
	define double @fadd_invalid_vector_start(<2 x double> %in, <2 x double> %acc) {			define double @fadd_invalid_vector_start(<2 x double> %in, <2 x double> %acc) {
	%res = call double @llvm.experimental.vector.reduce.fadd.f64.v2f64.v2f64(<2 x double> %acc, <2 x double> %in)			%res = call double @llvm.experimental.vector.reduce.ordered.fadd.f64.v2f64.v2f64(<2 x double> %acc, <2 x double> %in)
	ret double %res			ret double %res
	}			}

	declare float @llvm.experimental.vector.reduce.fadd.f32.f64.v2f64(double %acc, <2 x double> %in)			declare float @llvm.experimental.vector.reduce.ordered.fadd.f32.f64.v2f64(double %acc, <2 x double> %in)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f32.v2f64(float %acc, <2 x double> %in)			declare double @llvm.experimental.vector.reduce.ordered.fadd.f64.f32.v2f64(float %acc, <2 x double> %in)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v2f64.v2f64(<2 x double> %acc, <2 x double> %in)			declare double @llvm.experimental.vector.reduce.ordered.fadd.f64.v2f64.v2f64(<2 x double> %acc, <2 x double> %in)
	declare <2 x double> @llvm.experimental.vector.reduce.fadd.v2f64.f64.v2f64(double %acc, <2 x double> %in)			declare <2 x double> @llvm.experimental.vector.reduce.ordered.fadd.v2f64.f64.v2f64(double %acc, <2 x double> %in)

test/Bitcode/upgrade-vecreduce-intrinsics.ll

This file was added.

				; RUN: opt -S < %s \| FileCheck %s
				; RUN: llvm-dis < %s.bc \| FileCheck %s

				define float @fadd_acc(<4 x float> %in, float %acc) {
				; CHECK-LABEL: @fadd_acc
				; CHECK: call float @llvm.experimental.vector.reduce.ordered.fadd.f32.v4f32(float %acc, <4 x float> %in)
				%res = call float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %acc, <4 x float> %in)
				ret float %res
				}

				define float @fadd_undef(<4 x float> %in) {
				; CHECK-LABEL: @fadd_undef
				; CHECK: call float @llvm.experimental.vector.reduce.ordered.fadd.f32.v4f32(float undef, <4 x float> %in)
				%res = call float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %in)
				ret float %res
				}

				define float @fadd_fast_acc(<4 x float> %in, float %acc) {
				; CHECK-LABEL: @fadd_fast_acc
				; CHECK: call fast float @llvm.experimental.vector.reduce.unordered.fadd.f32.v4f32(<4 x float> %in)
				%res = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %acc, <4 x float> %in)
				ret float %res
				}

				define float @fadd_fast_undef(<4 x float> %in) {
				; CHECK-LABEL: @fadd_fast_undef
				; CHECK: call fast float @llvm.experimental.vector.reduce.unordered.fadd.f32.v4f32(<4 x float> %in)
				%res = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %in)
				ret float %res
				}

				define float @fmul_acc(<4 x float> %in, float %acc) {
				; CHECK-LABEL: @fmul_acc
				; CHECK: call float @llvm.experimental.vector.reduce.ordered.fmul.f32.v4f32(float %acc, <4 x float> %in)
				%res = call float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %acc, <4 x float> %in)
				ret float %res
				}

				define float @fmul_undef(<4 x float> %in) {
				; CHECK-LABEL: @fmul_undef
				; CHECK: call float @llvm.experimental.vector.reduce.ordered.fmul.f32.v4f32(float undef, <4 x float> %in)
				%res = call float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %in)
				ret float %res
				}

				define float @fmul_fast_acc(<4 x float> %in, float %acc) {
				; CHECK-LABEL: @fmul_fast_acc
				; CHECK: call fast float @llvm.experimental.vector.reduce.unordered.fmul.f32.v4f32(<4 x float> %in)
				%res = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %acc, <4 x float> %in)
				ret float %res
				}

				define float @fmul_fast_undef(<4 x float> %in) {
				; CHECK-LABEL: @fmul_fast_undef
				; CHECK: call fast float @llvm.experimental.vector.reduce.unordered.fmul.f32.v4f32(<4 x float> %in)
				%res = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %in)
				ret float %res
				}

				declare float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float, <4 x float>)
				; CHECK-DAG: declare float @llvm.experimental.vector.reduce.unordered.fadd.f32.v4f32(<4 x float>)
				; CHECK-DAG: declare float @llvm.experimental.vector.reduce.ordered.fadd.f32.v4f32(float, <4 x float>)

				declare float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float, <4 x float>)
				; CHECK-DAG: declare float @llvm.experimental.vector.reduce.unordered.fmul.f32.v4f32(<4 x float>)
				; CHECK-DAG: declare float @llvm.experimental.vector.reduce.ordered.fmul.f32.v4f32(float, <4 x float>)

test/Bitcode/upgrade-vecreduce-intrinsics.ll.bc

This binary file was added.

test/CodeGen/AArch64/vecreduce-fadd-legalization.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=aarch64-none-linux-gnu -mattr=+neon \| FileCheck %s --check-prefix=CHECK			; RUN: llc < %s -mtriple=aarch64-none-linux-gnu -mattr=+neon \| FileCheck %s --check-prefix=CHECK

	declare half @llvm.experimental.vector.reduce.fadd.f16.v1f16(half, <1 x half>)			declare half @llvm.experimental.vector.reduce.unordered.fadd.f16.v1f16(<1 x half>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v1f32(float, <1 x float>)			declare float @llvm.experimental.vector.reduce.unordered.fadd.f32.v1f32(<1 x float>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v1f64(double, <1 x double>)			declare double @llvm.experimental.vector.reduce.unordered.fadd.f64.v1f64(<1 x double>)
	declare fp128 @llvm.experimental.vector.reduce.fadd.f128.v1f128(fp128, <1 x fp128>)			declare fp128 @llvm.experimental.vector.reduce.unordered.fadd.f128.v1f128(<1 x fp128>)

	declare float @llvm.experimental.vector.reduce.fadd.f32.v3f32(float, <3 x float>)			declare float @llvm.experimental.vector.reduce.unordered.fadd.f32.v3f32(<3 x float>)
	declare fp128 @llvm.experimental.vector.reduce.fadd.f128.v2f128(fp128, <2 x fp128>)			declare fp128 @llvm.experimental.vector.reduce.unordered.fadd.f128.v2f128(<2 x fp128>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.unordered.fadd.f32.v16f32(<16 x float>)

	define half @test_v1f16(<1 x half> %a) nounwind {			define half @test_v1f16(<1 x half> %a) nounwind {
	; CHECK-LABEL: test_v1f16:			; CHECK-LABEL: test_v1f16:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan half @llvm.experimental.vector.reduce.fadd.f16.v1f16(half 0.0, <1 x half> %a)			%b = call fast nnan half @llvm.experimental.vector.reduce.unordered.fadd.f16.v1f16(<1 x half> %a)
	ret half %b			ret half %b
	}			}

	define float @test_v1f32(<1 x float> %a) nounwind {			define float @test_v1f32(<1 x float> %a) nounwind {
	; CHECK-LABEL: test_v1f32:			; CHECK-LABEL: test_v1f32:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: // kill: def $d0 killed $d0 def $q0			; CHECK-NEXT: // kill: def $d0 killed $d0 def $q0
	; CHECK-NEXT: // kill: def $s0 killed $s0 killed $q0			; CHECK-NEXT: // kill: def $s0 killed $s0 killed $q0
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan float @llvm.experimental.vector.reduce.fadd.f32.v1f32(float 0.0, <1 x float> %a)			%b = call fast nnan float @llvm.experimental.vector.reduce.unordered.fadd.f32.v1f32(<1 x float> %a)
	ret float %b			ret float %b
	}			}

	define double @test_v1f64(<1 x double> %a) nounwind {			define double @test_v1f64(<1 x double> %a) nounwind {
	; CHECK-LABEL: test_v1f64:			; CHECK-LABEL: test_v1f64:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan double @llvm.experimental.vector.reduce.fadd.f64.v1f64(double 0.0, <1 x double> %a)			%b = call fast nnan double @llvm.experimental.vector.reduce.unordered.fadd.f64.v1f64(<1 x double> %a)
	ret double %b			ret double %b
	}			}

	define fp128 @test_v1f128(<1 x fp128> %a) nounwind {			define fp128 @test_v1f128(<1 x fp128> %a) nounwind {
	; CHECK-LABEL: test_v1f128:			; CHECK-LABEL: test_v1f128:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan fp128 @llvm.experimental.vector.reduce.fadd.f128.v1f128(fp128 zeroinitializer, <1 x fp128> %a)			%b = call fast nnan fp128 @llvm.experimental.vector.reduce.unordered.fadd.f128.v1f128(<1 x fp128> %a)
	ret fp128 %b			ret fp128 %b
	}			}

	define float @test_v3f32(<3 x float> %a) nounwind {			define float @test_v3f32(<3 x float> %a) nounwind {
	; CHECK-LABEL: test_v3f32:			; CHECK-LABEL: test_v3f32:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: fmov s1, wzr			; CHECK-NEXT: fmov s1, wzr
	; CHECK-NEXT: mov v0.s[3], v1.s[0]			; CHECK-NEXT: mov v0.s[3], v1.s[0]
	; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8			; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8
	; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s			; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s
	; CHECK-NEXT: faddp s0, v0.2s			; CHECK-NEXT: faddp s0, v0.2s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan float @llvm.experimental.vector.reduce.fadd.f32.v3f32(float 0.0, <3 x float> %a)			%b = call fast nnan float @llvm.experimental.vector.reduce.unordered.fadd.f32.v3f32(<3 x float> %a)
	ret float %b			ret float %b
	}			}

	define fp128 @test_v2f128(<2 x fp128> %a) nounwind {			define fp128 @test_v2f128(<2 x fp128> %a) nounwind {
	; CHECK-LABEL: test_v2f128:			; CHECK-LABEL: test_v2f128:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: str x30, [sp, #-16]! // 8-byte Folded Spill			; CHECK-NEXT: str x30, [sp, #-16]! // 8-byte Folded Spill
	; CHECK-NEXT: bl __addtf3			; CHECK-NEXT: bl __addtf3
	; CHECK-NEXT: ldr x30, [sp], #16 // 8-byte Folded Reload			; CHECK-NEXT: ldr x30, [sp], #16 // 8-byte Folded Reload
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan fp128 @llvm.experimental.vector.reduce.fadd.f128.v2f128(fp128 zeroinitializer, <2 x fp128> %a)			%b = call fast nnan fp128 @llvm.experimental.vector.reduce.unordered.fadd.f128.v2f128(<2 x fp128> %a)
	ret fp128 %b			ret fp128 %b
	}			}

	define float @test_v16f32(<16 x float> %a) nounwind {			define float @test_v16f32(<16 x float> %a) nounwind {
	; CHECK-LABEL: test_v16f32:			; CHECK-LABEL: test_v16f32:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: fadd v1.4s, v1.4s, v3.4s			; CHECK-NEXT: fadd v1.4s, v1.4s, v3.4s
	; CHECK-NEXT: fadd v0.4s, v0.4s, v2.4s			; CHECK-NEXT: fadd v0.4s, v0.4s, v2.4s
	; CHECK-NEXT: fadd v0.4s, v0.4s, v1.4s			; CHECK-NEXT: fadd v0.4s, v0.4s, v1.4s
	; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8			; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8
	; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s			; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s
	; CHECK-NEXT: faddp s0, v0.2s			; CHECK-NEXT: faddp s0, v0.2s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call fast nnan float @llvm.experimental.vector.reduce.fadd.f32.v16f32(float 0.0, <16 x float> %a)			%b = call fast nnan float @llvm.experimental.vector.reduce.unordered.fadd.f32.v16f32(<16 x float> %a)
	ret float %b			ret float %b
	}			}

test/CodeGen/AArch64/vecreduce-fadd.ll

	; RUN: llc < %s -mtriple=aarch64-eabi -aarch64-neon-syntax=generic -asm-verbose=0 -mattr=+fullfp16 \| FileCheck %s			; RUN: llc < %s -mtriple=aarch64-eabi -aarch64-neon-syntax=generic -asm-verbose=0 -mattr=+fullfp16 \| FileCheck %s
	; RUN: llc < %s -mtriple=aarch64-eabi -aarch64-neon-syntax=generic -asm-verbose=0 \| FileCheck %s --check-prefix=CHECKNOFP16			; RUN: llc < %s -mtriple=aarch64-eabi -aarch64-neon-syntax=generic -asm-verbose=0 \| FileCheck %s --check-prefix=CHECKNOFP16

	define float @add_HalfS(<2 x float> %bin.rdx) {			define float @add_HalfS(<2 x float> %bin.rdx) {
	; CHECK-LABEL: add_HalfS:			; CHECK-LABEL: add_HalfS:
	; CHECK: faddp s0, v0.2s			; CHECK: faddp s0, v0.2s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.v2f32(float undef, <2 x float> %bin.rdx)			%r = call fast float @llvm.experimental.vector.reduce.unordered.fadd.f32.v2f32(<2 x float> %bin.rdx)
	ret float %r			ret float %r
	}			}

	define half @add_HalfH(<4 x half> %bin.rdx) {			define half @add_HalfH(<4 x half> %bin.rdx) {
	; CHECK-LABEL: add_HalfH:			; CHECK-LABEL: add_HalfH:
	; CHECK: mov h3, v0.h[1]			; CHECK: mov h3, v0.h[1]
	; CHECK-NEXT: mov h1, v0.h[3]			; CHECK-NEXT: mov h1, v0.h[3]
	; CHECK-NEXT: mov h2, v0.h[2]			; CHECK-NEXT: mov h2, v0.h[2]
	; CHECK-NEXT: fadd h0, h0, h3			; CHECK-NEXT: fadd h0, h0, h3
	; CHECK-NEXT: fadd h0, h0, h2			; CHECK-NEXT: fadd h0, h0, h2
	; CHECK-NEXT: fadd h0, h0, h1			; CHECK-NEXT: fadd h0, h0, h1
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	; CHECKNOFP16-LABEL: add_HalfH:			; CHECKNOFP16-LABEL: add_HalfH:
	; CHECKNOFP16-NOT: faddp			; CHECKNOFP16-NOT: faddp
	; CHECKNOFP16-NOT: fadd h{{[0-9]+}}			; CHECKNOFP16-NOT: fadd h{{[0-9]+}}
	; CHECKNOFP16-NOT: fadd v{{[0-9]+}}.{{[0-9]}}h			; CHECKNOFP16-NOT: fadd v{{[0-9]+}}.{{[0-9]}}h
	; CHECKNOFP16: ret			; CHECKNOFP16: ret
	%r = call fast half @llvm.experimental.vector.reduce.fadd.f16.v4f16(half undef, <4 x half> %bin.rdx)			%r = call fast half @llvm.experimental.vector.reduce.unordered.fadd.f16.v4f16(<4 x half> %bin.rdx)
	ret half %r			ret half %r
	}			}


	define half @add_H(<8 x half> %bin.rdx) {			define half @add_H(<8 x half> %bin.rdx) {
	; CHECK-LABEL: add_H:			; CHECK-LABEL: add_H:
	; CHECK: ext v1.16b, v0.16b, v0.16b, #8			; CHECK: ext v1.16b, v0.16b, v0.16b, #8
	; CHECK-NEXT: fadd v0.4h, v0.4h, v1.4h			; CHECK-NEXT: fadd v0.4h, v0.4h, v1.4h
	; CHECK-NEXT: mov h1, v0.h[1]			; CHECK-NEXT: mov h1, v0.h[1]
	; CHECK-NEXT: mov h2, v0.h[2]			; CHECK-NEXT: mov h2, v0.h[2]
	; CHECK-NEXT: fadd h1, h0, h1			; CHECK-NEXT: fadd h1, h0, h1
	; CHECK-NEXT: fadd h1, h1, h2			; CHECK-NEXT: fadd h1, h1, h2
	; CHECK-NEXT: mov h0, v0.h[3]			; CHECK-NEXT: mov h0, v0.h[3]
	; CHECK-NEXT: fadd h0, h1, h0			; CHECK-NEXT: fadd h0, h1, h0
	; CHECK-NEXT: ret			; CHECK-NEXT: ret

	; CHECKNOFP16-LABEL: add_H:			; CHECKNOFP16-LABEL: add_H:
	; CHECKNOFP16-NOT: faddp			; CHECKNOFP16-NOT: faddp
	; CHECKNOFP16-NOT: fadd h{{[0-9]+}}			; CHECKNOFP16-NOT: fadd h{{[0-9]+}}
	; CHECKNOFP16-NOT: fadd v{{[0-9]+}}.{{[0-9]}}h			; CHECKNOFP16-NOT: fadd v{{[0-9]+}}.{{[0-9]}}h
	; CHECKNOFP16: ret			; CHECKNOFP16: ret
	%r = call fast half @llvm.experimental.vector.reduce.fadd.f16.v8f16(half undef, <8 x half> %bin.rdx)			%r = call fast half @llvm.experimental.vector.reduce.unordered.fadd.f16.v8f16(<8 x half> %bin.rdx)
	ret half %r			ret half %r
	}			}

	define float @add_S(<4 x float> %bin.rdx) {			define float @add_S(<4 x float> %bin.rdx) {
	; CHECK-LABEL: add_S:			; CHECK-LABEL: add_S:
	; CHECK: ext v1.16b, v0.16b, v0.16b, #8			; CHECK: ext v1.16b, v0.16b, v0.16b, #8
	; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s			; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s
	; CHECK-NEXT: faddp s0, v0.2s			; CHECK-NEXT: faddp s0, v0.2s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %bin.rdx)			%r = call fast float @llvm.experimental.vector.reduce.unordered.fadd.f32.v4f32(<4 x float> %bin.rdx)
	ret float %r			ret float %r
	}			}

	define double @add_D(<2 x double> %bin.rdx) {			define double @add_D(<2 x double> %bin.rdx) {
	; CHECK-LABEL: add_D:			; CHECK-LABEL: add_D:
	; CHECK: faddp d0, v0.2d			; CHECK: faddp d0, v0.2d
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call fast double @llvm.experimental.vector.reduce.fadd.f64.v2f64(double undef, <2 x double> %bin.rdx)			%r = call fast double @llvm.experimental.vector.reduce.unordered.fadd.f64.v2f64(<2 x double> %bin.rdx)
	ret double %r			ret double %r
	}			}

	define half @add_2H(<16 x half> %bin.rdx) {			define half @add_2H(<16 x half> %bin.rdx) {
	; CHECK-LABEL: add_2H:			; CHECK-LABEL: add_2H:
	; CHECK: fadd v0.8h, v0.8h, v1.8h			; CHECK: fadd v0.8h, v0.8h, v1.8h
	; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8			; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8
	; CHECK-NEXT: fadd v0.4h, v0.4h, v1.4h			; CHECK-NEXT: fadd v0.4h, v0.4h, v1.4h
	; CHECK-NEXT: mov h1, v0.h[1]			; CHECK-NEXT: mov h1, v0.h[1]
	; CHECK-NEXT: mov h2, v0.h[2]			; CHECK-NEXT: mov h2, v0.h[2]
	; CHECK-NEXT: fadd h1, h0, h1			; CHECK-NEXT: fadd h1, h0, h1
	; CHECK-NEXT: fadd h1, h1, h2			; CHECK-NEXT: fadd h1, h1, h2
	; CHECK-NEXT: mov h0, v0.h[3]			; CHECK-NEXT: mov h0, v0.h[3]
	; CHECK-NEXT: fadd h0, h1, h0			; CHECK-NEXT: fadd h0, h1, h0
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	; CHECKNOFP16-LABEL: add_2H:			; CHECKNOFP16-LABEL: add_2H:
	; CHECKNOFP16-NOT: faddp			; CHECKNOFP16-NOT: faddp
	; CHECKNOFP16-NOT: fadd h{{[0-9]+}}			; CHECKNOFP16-NOT: fadd h{{[0-9]+}}
	; CHECKNOFP16-NOT: fadd v{{[0-9]+}}.{{[0-9]}}h			; CHECKNOFP16-NOT: fadd v{{[0-9]+}}.{{[0-9]}}h
	; CHECKNOFP16: ret			; CHECKNOFP16: ret
	%r = call fast half @llvm.experimental.vector.reduce.fadd.f16.v16f16(half undef, <16 x half> %bin.rdx)			%r = call fast half @llvm.experimental.vector.reduce.unordered.fadd.f16.v16f16(<16 x half> %bin.rdx)
	ret half %r			ret half %r
	}			}

	define float @add_2S(<8 x float> %bin.rdx) {			define float @add_2S(<8 x float> %bin.rdx) {
	; CHECK-LABEL: add_2S:			; CHECK-LABEL: add_2S:
	; CHECK: fadd v0.4s, v0.4s, v1.4s			; CHECK: fadd v0.4s, v0.4s, v1.4s
	; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8			; CHECK-NEXT: ext v1.16b, v0.16b, v0.16b, #8
	; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s			; CHECK-NEXT: fadd v0.2s, v0.2s, v1.2s
	; CHECK-NEXT: faddp s0, v0.2s			; CHECK-NEXT: faddp s0, v0.2s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.v8f32(float undef, <8 x float> %bin.rdx)			%r = call fast float @llvm.experimental.vector.reduce.unordered.fadd.f32.v8f32(<8 x float> %bin.rdx)
	ret float %r			ret float %r
	}			}

	define double @add_2D(<4 x double> %bin.rdx) {			define double @add_2D(<4 x double> %bin.rdx) {
	; CHECK-LABEL: add_2D:			; CHECK-LABEL: add_2D:
	; CHECK: fadd v0.2d, v0.2d, v1.2d			; CHECK: fadd v0.2d, v0.2d, v1.2d
	; CHECK-NEXT: faddp d0, v0.2d			; CHECK-NEXT: faddp d0, v0.2d
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%r = call fast double @llvm.experimental.vector.reduce.fadd.f64.v4f64(double undef, <4 x double> %bin.rdx)			%r = call fast double @llvm.experimental.vector.reduce.unordered.fadd.f64.v4f64(<4 x double> %bin.rdx)
	ret double %r			ret double %r
	}			}

	; Function Attrs: nounwind readnone			; Function Attrs: nounwind readnone
	declare half @llvm.experimental.vector.reduce.fadd.f16.v4f16(half, <4 x half>)			declare half @llvm.experimental.vector.reduce.unordered.fadd.f16.v4f16(<4 x half>)
	declare half @llvm.experimental.vector.reduce.fadd.f16.v8f16(half, <8 x half>)			declare half @llvm.experimental.vector.reduce.unordered.fadd.f16.v8f16(<8 x half>)
	declare half @llvm.experimental.vector.reduce.fadd.f16.v16f16(half, <16 x half>)			declare half @llvm.experimental.vector.reduce.unordered.fadd.f16.v16f16(<16 x half>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.unordered.fadd.f32.v2f32(<2 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.unordered.fadd.f32.v4f32(<4 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.unordered.fadd.f32.v8f32(<8 x float>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.unordered.fadd.f64.v2f64(<2 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.unordered.fadd.f64.v4f64(<4 x double>)

test/CodeGen/Generic/expand-experimental-reductions.ll

	; NOTE: Assertions have been autogenerated by utils/update_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
	; RUN: opt < %s -expand-reductions -S \| FileCheck %s			; RUN: opt < %s -expand-reductions -S \| FileCheck %s
	; Tests without a target which should expand all reductions			; Tests without a target which should expand all reductions
	declare i64 @llvm.experimental.vector.reduce.add.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.add.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.mul.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.mul.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.and.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.and.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.or.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.or.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.xor.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.xor.i64.v2i64(<2 x i64>)

	declare float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.ordered.fadd.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.ordered.fmul.f32.v4f32(float, <4 x float>)
				declare float @llvm.experimental.vector.reduce.unordered.fadd.f32.v4f32(<4 x float>)
				declare float @llvm.experimental.vector.reduce.unordered.fmul.f32.v4f32(<4 x float>)

	declare i64 @llvm.experimental.vector.reduce.smax.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.smax.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.smin.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.smin.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.umax.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.umax.i64.v2i64(<2 x i64>)
	declare i64 @llvm.experimental.vector.reduce.umin.i64.v2i64(<2 x i64>)			declare i64 @llvm.experimental.vector.reduce.umin.i64.v2i64(<2 x i64>)

	declare double @llvm.experimental.vector.reduce.fmax.f64.v2f64(<2 x double>)			declare double @llvm.experimental.vector.reduce.fmax.f64.v2f64(<2 x double>)
	declare double @llvm.experimental.vector.reduce.fmin.f64.v2f64(<2 x double>)			declare double @llvm.experimental.vector.reduce.fmin.f64.v2f64(<2 x double>)
	▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd fast <4 x float> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd fast <4 x float> [[VEC]], [[RDX_SHUF]]
	; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0
	; CHECK-NEXT: ret float [[TMP0]]			; CHECK-NEXT: ret float [[TMP0]]
	;			;
	entry:			entry:
	%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %vec)			%r = call fast float @llvm.experimental.vector.reduce.unordered.fadd.f32.v4f32(<4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fadd_f32_accum(float %accum, <4 x float> %vec) {			define float @fadd_f32_accum(float %accum, <4 x float> %vec) {
	; CHECK-LABEL: @fadd_f32_accum(			; CHECK-LABEL: @fadd_f32_accum(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd fast <4 x float> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd fast <4 x float> [[VEC]], [[RDX_SHUF]]
	; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0
	; CHECK-NEXT: ret float [[TMP0]]			; CHECK-NEXT: ret float [[TMP0]]
	;			;
	entry:			entry:
	%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %accum, <4 x float> %vec)			%r = call fast float @llvm.experimental.vector.reduce.unordered.fadd.f32.v4f32(<4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fadd_f32_strict(<4 x float> %vec) {			define float @fadd_f32_strict(<4 x float> %vec) {
	; CHECK-LABEL: @fadd_f32_strict(			; CHECK-LABEL: @fadd_f32_strict(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0			; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd float undef, [[TMP0]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd float undef, [[TMP0]]
	; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1			; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1
	; CHECK-NEXT: [[BIN_RDX1:%.*]] = fadd float [[BIN_RDX]], [[TMP1]]			; CHECK-NEXT: [[BIN_RDX1:%.*]] = fadd float [[BIN_RDX]], [[TMP1]]
	; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2			; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd float [[BIN_RDX1]], [[TMP2]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd float [[BIN_RDX1]], [[TMP2]]
	; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3			; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3
	; CHECK-NEXT: [[BIN_RDX3:%.*]] = fadd float [[BIN_RDX2]], [[TMP3]]			; CHECK-NEXT: [[BIN_RDX3:%.*]] = fadd float [[BIN_RDX2]], [[TMP3]]
	; CHECK-NEXT: ret float [[BIN_RDX3]]			; CHECK-NEXT: ret float [[BIN_RDX3]]
	;			;
	entry:			entry:
	%r = call float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float undef, <4 x float> %vec)			%r = call float @llvm.experimental.vector.reduce.ordered.fadd.f32.v4f32(float undef, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fadd_f32_strict_accum(float %accum, <4 x float> %vec) {			define float @fadd_f32_strict_accum(float %accum, <4 x float> %vec) {
	; CHECK-LABEL: @fadd_f32_strict_accum(			; CHECK-LABEL: @fadd_f32_strict_accum(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0			; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0
	; CHECK-NEXT: [[BIN_RDX:%.]] = fadd float [[ACCUM:%.]], [[TMP0]]			; CHECK-NEXT: [[BIN_RDX:%.]] = fadd float [[ACCUM:%.]], [[TMP0]]
	; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1			; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1
	; CHECK-NEXT: [[BIN_RDX1:%.*]] = fadd float [[BIN_RDX]], [[TMP1]]			; CHECK-NEXT: [[BIN_RDX1:%.*]] = fadd float [[BIN_RDX]], [[TMP1]]
	; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2			; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd float [[BIN_RDX1]], [[TMP2]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd float [[BIN_RDX1]], [[TMP2]]
	; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3			; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3
	; CHECK-NEXT: [[BIN_RDX3:%.*]] = fadd float [[BIN_RDX2]], [[TMP3]]			; CHECK-NEXT: [[BIN_RDX3:%.*]] = fadd float [[BIN_RDX2]], [[TMP3]]
	; CHECK-NEXT: ret float [[BIN_RDX3]]			; CHECK-NEXT: ret float [[BIN_RDX3]]
	;			;
	entry:			entry:
	%r = call float @llvm.experimental.vector.reduce.fadd.f32.v4f32(float %accum, <4 x float> %vec)			%r = call float @llvm.experimental.vector.reduce.ordered.fadd.f32.v4f32(float %accum, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fmul_f32(<4 x float> %vec) {			define float @fmul_f32(<4 x float> %vec) {
	; CHECK-LABEL: @fmul_f32(			; CHECK-LABEL: @fmul_f32(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul fast <4 x float> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul fast <4 x float> [[VEC]], [[RDX_SHUF]]
	; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0
	; CHECK-NEXT: ret float [[TMP0]]			; CHECK-NEXT: ret float [[TMP0]]
	;			;
	entry:			entry:
	%r = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %vec)			%r = call fast float @llvm.experimental.vector.reduce.unordered.fmul.f32.v4f32(<4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fmul_f32_accum(float %accum, <4 x float> %vec) {			define float @fmul_f32_accum(float %accum, <4 x float> %vec) {
	; CHECK-LABEL: @fmul_f32_accum(			; CHECK-LABEL: @fmul_f32_accum(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul fast <4 x float> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul fast <4 x float> [[VEC]], [[RDX_SHUF]]
	; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0
	; CHECK-NEXT: ret float [[TMP0]]			; CHECK-NEXT: ret float [[TMP0]]
	;			;
	entry:			entry:
	%r = call fast float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %accum, <4 x float> %vec)			%r = call fast float @llvm.experimental.vector.reduce.unordered.fmul.f32.v4f32(<4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fmul_f32_strict(<4 x float> %vec) {			define float @fmul_f32_strict(<4 x float> %vec) {
	; CHECK-LABEL: @fmul_f32_strict(			; CHECK-LABEL: @fmul_f32_strict(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0			; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul float undef, [[TMP0]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul float undef, [[TMP0]]
	; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1			; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1
	; CHECK-NEXT: [[BIN_RDX1:%.*]] = fmul float [[BIN_RDX]], [[TMP1]]			; CHECK-NEXT: [[BIN_RDX1:%.*]] = fmul float [[BIN_RDX]], [[TMP1]]
	; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2			; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul float [[BIN_RDX1]], [[TMP2]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul float [[BIN_RDX1]], [[TMP2]]
	; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3			; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3
	; CHECK-NEXT: [[BIN_RDX3:%.*]] = fmul float [[BIN_RDX2]], [[TMP3]]			; CHECK-NEXT: [[BIN_RDX3:%.*]] = fmul float [[BIN_RDX2]], [[TMP3]]
	; CHECK-NEXT: ret float [[BIN_RDX3]]			; CHECK-NEXT: ret float [[BIN_RDX3]]
	;			;
	entry:			entry:
	%r = call float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float undef, <4 x float> %vec)			%r = call float @llvm.experimental.vector.reduce.ordered.fmul.f32.v4f32(float undef, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fmul_f32_strict_accum(float %accum, <4 x float> %vec) {			define float @fmul_f32_strict_accum(float %accum, <4 x float> %vec) {
	; CHECK-LABEL: @fmul_f32_strict_accum(			; CHECK-LABEL: @fmul_f32_strict_accum(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0			; CHECK-NEXT: [[TMP0:%.]] = extractelement <4 x float> [[VEC:%.]], i32 0
	; CHECK-NEXT: [[BIN_RDX:%.]] = fmul float [[ACCUM:%.]], [[TMP0]]			; CHECK-NEXT: [[BIN_RDX:%.]] = fmul float [[ACCUM:%.]], [[TMP0]]
	; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1			; CHECK-NEXT: [[TMP1:%.*]] = extractelement <4 x float> [[VEC]], i32 1
	; CHECK-NEXT: [[BIN_RDX1:%.*]] = fmul float [[BIN_RDX]], [[TMP1]]			; CHECK-NEXT: [[BIN_RDX1:%.*]] = fmul float [[BIN_RDX]], [[TMP1]]
	; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2			; CHECK-NEXT: [[TMP2:%.*]] = extractelement <4 x float> [[VEC]], i32 2
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul float [[BIN_RDX1]], [[TMP2]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul float [[BIN_RDX1]], [[TMP2]]
	; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3			; CHECK-NEXT: [[TMP3:%.*]] = extractelement <4 x float> [[VEC]], i32 3
	; CHECK-NEXT: [[BIN_RDX3:%.*]] = fmul float [[BIN_RDX2]], [[TMP3]]			; CHECK-NEXT: [[BIN_RDX3:%.*]] = fmul float [[BIN_RDX2]], [[TMP3]]
	; CHECK-NEXT: ret float [[BIN_RDX3]]			; CHECK-NEXT: ret float [[BIN_RDX3]]
	;			;
	entry:			entry:
	%r = call float @llvm.experimental.vector.reduce.fmul.f32.v4f32(float %accum, <4 x float> %vec)			%r = call float @llvm.experimental.vector.reduce.ordered.fmul.f32.v4f32(float %accum, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define i64 @smax_i64(<2 x i64> %vec) {			define i64 @smax_i64(<2 x i64> %vec) {
	; CHECK-LABEL: @smax_i64(			; CHECK-LABEL: @smax_i64(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <2 x i64> [[VEC:%.]], <2 x i64> undef, <2 x i32> <i32 1, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <2 x i64> [[VEC:%.]], <2 x i64> undef, <2 x i32> <i32 1, i32 undef>
	; CHECK-NEXT: [[RDX_MINMAX_CMP:%.*]] = icmp sgt <2 x i64> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[RDX_MINMAX_CMP:%.*]] = icmp sgt <2 x i64> [[VEC]], [[RDX_SHUF]]
	▲ Show 20 Lines • Show All 78 Lines • Show Last 20 Lines

test/CodeGen/X86/haddsub.ll

Show First 20 Lines • Show All 1,349 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
store float %x1, float* %p2		store float %x1, float* %p2
%x01 = fadd float %x0, %x1		%x01 = fadd float %x0, %x1
ret float %x01		ret float %x01
}		}

; Repeat tests from general reductions to verify output for hoppy targets:		; Repeat tests from general reductions to verify output for hoppy targets:
; PR38971: https://bugs.llvm.org/show_bug.cgi?id=38971		; PR38971: https://bugs.llvm.org/show_bug.cgi?id=38971

declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float, <8 x float>)		declare float @llvm.experimental.vector.reduce.unordered.fadd.f32.v8f32(<8 x float>)
declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double, <4 x double>)		declare double @llvm.experimental.vector.reduce.unordered.fadd.f64.v4f64(<4 x double>)

define float @fadd_reduce_v8f32(float %a0, <8 x float> %a1) {		define float @fadd_reduce_v8f32(float %a0, <8 x float> %a1) {
; SSE3-SLOW-LABEL: fadd_reduce_v8f32:		; SSE3-SLOW-LABEL: fadd_reduce_v8f32:
; SSE3-SLOW: # %bb.0:		; SSE3-SLOW: # %bb.0:
; SSE3-SLOW-NEXT: addps %xmm2, %xmm1		; SSE3-SLOW-NEXT: addps %xmm2, %xmm1
; SSE3-SLOW-NEXT: movaps %xmm1, %xmm2		; SSE3-SLOW-NEXT: movaps %xmm1, %xmm2
; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]		; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
; SSE3-SLOW-NEXT: addps %xmm1, %xmm2		; SSE3-SLOW-NEXT: addps %xmm1, %xmm2
Show All 25 Lines
; AVX-FAST: # %bb.0:		; AVX-FAST: # %bb.0:
; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm0		; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm0
; AVX-FAST-NEXT: vaddps %xmm0, %xmm1, %xmm0		; AVX-FAST-NEXT: vaddps %xmm0, %xmm1, %xmm0
; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0		; AVX-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0		; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
; AVX-FAST-NEXT: vzeroupper		; AVX-FAST-NEXT: vzeroupper
; AVX-FAST-NEXT: retq		; AVX-FAST-NEXT: retq
%r = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)		%r = call fast float @llvm.experimental.vector.reduce.unordered.fadd.f32.v8f32(<8 x float> %a1)
ret float %r		ret float %r
}		}

define double @fadd_reduce_v4f64(double %a0, <4 x double> %a1) {		define double @fadd_reduce_v4f64(double %a0, <4 x double> %a1) {
; SSE3-SLOW-LABEL: fadd_reduce_v4f64:		; SSE3-SLOW-LABEL: fadd_reduce_v4f64:
; SSE3-SLOW: # %bb.0:		; SSE3-SLOW: # %bb.0:
; SSE3-SLOW-NEXT: addpd %xmm2, %xmm1		; SSE3-SLOW-NEXT: addpd %xmm2, %xmm1
; SSE3-SLOW-NEXT: movapd %xmm1, %xmm0		; SSE3-SLOW-NEXT: movapd %xmm1, %xmm0
Show All 19 Lines
;		;
; AVX-FAST-LABEL: fadd_reduce_v4f64:		; AVX-FAST-LABEL: fadd_reduce_v4f64:
; AVX-FAST: # %bb.0:		; AVX-FAST: # %bb.0:
; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm0		; AVX-FAST-NEXT: vextractf128 $1, %ymm1, %xmm0
; AVX-FAST-NEXT: vaddpd %xmm0, %xmm1, %xmm0		; AVX-FAST-NEXT: vaddpd %xmm0, %xmm1, %xmm0
; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0		; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
; AVX-FAST-NEXT: vzeroupper		; AVX-FAST-NEXT: vzeroupper
; AVX-FAST-NEXT: retq		; AVX-FAST-NEXT: retq
%r = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)		%r = call fast double @llvm.experimental.vector.reduce.unordered.fadd.f64.v4f64(<4 x double> %a1)
ret double %r		ret double %r
}		}

test/CodeGen/X86/vector-reduce-fadd-fast.ll

	Show All 29 Lines
	; AVX-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32:			; AVX512-LABEL: test_v2f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float %a0, <2 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fadd.f32.v2f32(<2 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(float %a0, <4 x float> %a1) {			define float @test_v4f32(float %a0, <4 x float> %a1) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	Show All 22 Lines
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX512-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddps %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float %a0, <4 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fadd.f32.v4f32(<4 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32(float %a0, <8 x float> %a1) {			define float @test_v8f32(float %a0, <8 x float> %a1) {
	; SSE2-LABEL: test_v8f32:			; SSE2-LABEL: test_v8f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm2, %xmm1			; SSE2-NEXT: addps %xmm2, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	Show All 30 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX512-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddps %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fadd.f32.v8f32(<8 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(float %a0, <16 x float> %a1) {			define float @test_v16f32(float %a0, <16 x float> %a1) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm4, %xmm2			; SSE2-NEXT: addps %xmm4, %xmm2
	; SSE2-NEXT: addps %xmm3, %xmm1			; SSE2-NEXT: addps %xmm3, %xmm1
	Show All 37 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fadd.f32.v16f32(<16 x float> %a1)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (zero)			; vXf32 (zero)
	;			;

	define float @test_v2f32_zero(<2 x float> %a0) {			define float @test_v2f32_zero(<2 x float> %a0) {
	Show All 17 Lines
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_zero:			; AVX512-LABEL: test_v2f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float 0.0, <2 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fadd.f32.v2f32(<2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_zero(<4 x float> %a0) {			define float @test_v4f32_zero(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_zero:			; SSE2-LABEL: test_v4f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	Show All 23 Lines
	;			;
	; AVX512-LABEL: test_v4f32_zero:			; AVX512-LABEL: test_v4f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float 0.0, <4 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fadd.f32.v4f32(<4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_zero(<8 x float> %a0) {			define float @test_v8f32_zero(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_zero:			; SSE2-LABEL: test_v8f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	Show All 31 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float 0.0, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fadd.f32.v8f32(<8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_zero(<16 x float> %a0) {			define float @test_v16f32_zero(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_zero:			; SSE2-LABEL: test_v16f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm3, %xmm1			; SSE2-NEXT: addps %xmm3, %xmm1
	; SSE2-NEXT: addps %xmm2, %xmm0			; SSE2-NEXT: addps %xmm2, %xmm0
	Show All 38 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float 0.0, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fadd.f32.v16f32(<16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (undef)			; vXf32 (undef)
	;			;

	define float @test_v2f32_undef(<2 x float> %a0) {			define float @test_v2f32_undef(<2 x float> %a0) {
	Show All 17 Lines
	; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_undef:			; AVX512-LABEL: test_v2f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float undef, <2 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fadd.f32.v2f32(<2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_undef(<4 x float> %a0) {			define float @test_v4f32_undef(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_undef:			; SSE2-LABEL: test_v4f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	Show All 23 Lines
	;			;
	; AVX512-LABEL: test_v4f32_undef:			; AVX512-LABEL: test_v4f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float undef, <4 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fadd.f32.v4f32(<4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_undef(<8 x float> %a0) {			define float @test_v8f32_undef(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_undef:			; SSE2-LABEL: test_v8f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm1, %xmm0			; SSE2-NEXT: addps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	Show All 31 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float undef, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fadd.f32.v8f32(<8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_undef(<16 x float> %a0) {			define float @test_v16f32_undef(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_undef:			; SSE2-LABEL: test_v16f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addps %xmm3, %xmm1			; SSE2-NEXT: addps %xmm3, %xmm1
	; SSE2-NEXT: addps %xmm2, %xmm0			; SSE2-NEXT: addps %xmm2, %xmm0
	Show All 38 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float undef, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fadd.f32.v16f32(<16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	;			;

	define double @test_v2f64(double %a0, <2 x double> %a1) {			define double @test_v2f64(double %a0, <2 x double> %a1) {
	Show All 10 Lines
	; AVX-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double %a0, <2 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fadd.f64.v2f64(<2 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(double %a0, <4 x double> %a1) {			define double @test_v4f64(double %a0, <4 x double> %a1) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm2, %xmm1			; SSE-NEXT: addpd %xmm2, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	Show All 13 Lines
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX512-NEXT: vaddpd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddpd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fadd.f64.v4f64(<4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm4, %xmm2			; SSE-NEXT: addpd %xmm4, %xmm2
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	Show All 18 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	; AVX512-NEXT: vaddpd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vaddpd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fadd.f64.v8f64(<8 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(double %a0, <16 x double> %a1) {			define double @test_v16f64(double %a0, <16 x double> %a1) {
	; SSE-LABEL: test_v16f64:			; SSE-LABEL: test_v16f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm6, %xmm2			; SSE-NEXT: addpd %xmm6, %xmm2
	; SSE-NEXT: addpd %xmm7, %xmm3			; SSE-NEXT: addpd %xmm7, %xmm3
	Show All 25 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fadd.f64.v16f64(<16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (zero)			; vXf64 (zero)
	;			;

	define double @test_v2f64_zero(<2 x double> %a0) {			define double @test_v2f64_zero(<2 x double> %a0) {
	Show All 11 Lines
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_zero:			; AVX512-LABEL: test_v2f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double 0.0, <2 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fadd.f64.v2f64(<2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_zero(<4 x double> %a0) {			define double @test_v4f64_zero(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_zero:			; SSE-LABEL: test_v4f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	Show All 14 Lines
	; AVX512-LABEL: test_v4f64_zero:			; AVX512-LABEL: test_v4f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double 0.0, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fadd.f64.v4f64(<4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_zero(<8 x double> %a0) {			define double @test_v8f64_zero(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_zero:			; SSE-LABEL: test_v8f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd %xmm2, %xmm0			; SSE-NEXT: addpd %xmm2, %xmm0
	Show All 19 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double 0.0, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fadd.f64.v8f64(<8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_zero(<16 x double> %a0) {			define double @test_v16f64_zero(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_zero:			; SSE-LABEL: test_v16f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm6, %xmm2			; SSE-NEXT: addpd %xmm6, %xmm2
	; SSE-NEXT: addpd %xmm4, %xmm0			; SSE-NEXT: addpd %xmm4, %xmm0
	Show All 25 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double 0.0, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fadd.f64.v16f64(<16 x double> %a0)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (undef)			; vXf64 (undef)
	;			;

	define double @test_v2f64_undef(<2 x double> %a0) {			define double @test_v2f64_undef(<2 x double> %a0) {
	Show All 11 Lines
	; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_undef:			; AVX512-LABEL: test_v2f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double undef, <2 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fadd.f64.v2f64(<2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_undef(<4 x double> %a0) {			define double @test_v4f64_undef(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_undef:			; SSE-LABEL: test_v4f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	Show All 14 Lines
	; AVX512-LABEL: test_v4f64_undef:			; AVX512-LABEL: test_v4f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double undef, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fadd.f64.v4f64(<4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd %xmm2, %xmm0			; SSE-NEXT: addpd %xmm2, %xmm0
	Show All 19 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double undef, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fadd.f64.v8f64(<8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_undef:			; SSE-LABEL: test_v16f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm6, %xmm2			; SSE-NEXT: addpd %xmm6, %xmm2
	; SSE-NEXT: addpd %xmm4, %xmm0			; SSE-NEXT: addpd %xmm4, %xmm0
	Show All 25 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double undef, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fadd.f64.v16f64(<16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.unordered.fadd.f32.v2f32(<2 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.unordered.fadd.f32.v4f32(<4 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.unordered.fadd.f32.v8f32(<8 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.unordered.fadd.f32.v16f32(<16 x float>)

	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.unordered.fadd.f64.v2f64(<2 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.unordered.fadd.f64.v4f64(<4 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double, <8 x double>)			declare double @llvm.experimental.vector.reduce.unordered.fadd.f64.v8f64(<8 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double, <16 x double>)			declare double @llvm.experimental.vector.reduce.unordered.fadd.f64.v16f64(<16 x double>)

test/CodeGen/X86/vector-reduce-fadd.ll

	Show All 32 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32:			; AVX512-LABEL: test_v2f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float %a0, <2 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.ordered.fadd.f32.f32.v2f32(float %a0, <2 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(float %a0, <4 x float> %a1) {			define float @test_v4f32(float %a0, <4 x float> %a1) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	Show All 34 Lines
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float %a0, <4 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.ordered.fadd.f32.f32.v4f32(float %a0, <4 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32(float %a0, <8 x float> %a1) {			define float @test_v8f32(float %a0, <8 x float> %a1) {
	; SSE2-LABEL: test_v8f32:			; SSE2-LABEL: test_v8f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm1, %xmm3			; SSE2-NEXT: movaps %xmm1, %xmm3
	▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.ordered.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(float %a0, <16 x float> %a1) {			define float @test_v16f32(float %a0, <16 x float> %a1) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm1, %xmm5			; SSE2-NEXT: movaps %xmm1, %xmm5
	▲ Show 20 Lines • Show All 134 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.ordered.fadd.f32.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (zero)			; vXf32 (zero)
	;			;

	define float @test_v2f32_zero(<2 x float> %a0) {			define float @test_v2f32_zero(<2 x float> %a0) {
	Show All 23 Lines
	;			;
	; AVX512-LABEL: test_v2f32_zero:			; AVX512-LABEL: test_v2f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vxorps %xmm1, %xmm1, %xmm1			; AVX512-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float 0.0, <2 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.ordered.fadd.f32.f32.v2f32(float 0.0, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_zero(<4 x float> %a0) {			define float @test_v4f32_zero(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_zero:			; SSE2-LABEL: test_v4f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: xorps %xmm1, %xmm1			; SSE2-NEXT: xorps %xmm1, %xmm1
	; SSE2-NEXT: addss %xmm0, %xmm1			; SSE2-NEXT: addss %xmm0, %xmm1
	Show All 38 Lines
	; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float 0.0, <4 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.ordered.fadd.f32.f32.v4f32(float 0.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_zero(<8 x float> %a0) {			define float @test_v8f32_zero(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_zero:			; SSE2-LABEL: test_v8f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: xorps %xmm2, %xmm2			; SSE2-NEXT: xorps %xmm2, %xmm2
	; SSE2-NEXT: addss %xmm0, %xmm2			; SSE2-NEXT: addss %xmm0, %xmm2
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float 0.0, <8 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.ordered.fadd.f32.f32.v8f32(float 0.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_zero(<16 x float> %a0) {			define float @test_v16f32_zero(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_zero:			; SSE2-LABEL: test_v16f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: xorps %xmm4, %xmm4			; SSE2-NEXT: xorps %xmm4, %xmm4
	; SSE2-NEXT: addss %xmm0, %xmm4			; SSE2-NEXT: addss %xmm0, %xmm4
	▲ Show 20 Lines • Show All 138 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float 0.0, <16 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.ordered.fadd.f32.f32.v16f32(float 0.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (undef)			; vXf32 (undef)
	;			;

	define float @test_v2f32_undef(<2 x float> %a0) {			define float @test_v2f32_undef(<2 x float> %a0) {
	Show All 15 Lines
	; AVX-NEXT: vaddss {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vaddss {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_undef:			; AVX512-LABEL: test_v2f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vaddss {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float undef, <2 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.ordered.fadd.f32.f32.v2f32(float undef, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_undef(<4 x float> %a0) {			define float @test_v4f32_undef(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_undef:			; SSE2-LABEL: test_v4f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
	Show All 30 Lines
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss {{.*}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vaddss {{.*}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float undef, <4 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.ordered.fadd.f32.f32.v4f32(float undef, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_undef(<8 x float> %a0) {			define float @test_v8f32_undef(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_undef:			; SSE2-LABEL: test_v8f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm2			; SSE2-NEXT: movaps %xmm0, %xmm2
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[2,3]
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float undef, <8 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.ordered.fadd.f32.f32.v8f32(float undef, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_undef(<16 x float> %a0) {			define float @test_v16f32_undef(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_undef:			; SSE2-LABEL: test_v16f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm4			; SSE2-NEXT: movaps %xmm0, %xmm4
	; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm0[2,3]
	▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float undef, <16 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.ordered.fadd.f32.f32.v16f32(float undef, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	;			;

	define double @test_v2f64(double %a0, <2 x double> %a1) {			define double @test_v2f64(double %a0, <2 x double> %a1) {
	Show All 12 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double %a0, <2 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.ordered.fadd.f64.f64.v2f64(double %a0, <2 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(double %a0, <4 x double> %a1) {			define double @test_v4f64(double %a0, <4 x double> %a1) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	Show All 21 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.ordered.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.ordered.fadd.f64.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(double %a0, <16 x double> %a1) {			define double @test_v16f64(double %a0, <16 x double> %a1) {
	; SSE-LABEL: test_v16f64:			; SSE-LABEL: test_v16f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd {{[0-9]+}}(%rsp), %xmm8			; SSE-NEXT: movapd {{[0-9]+}}(%rsp), %xmm8
	; SSE-NEXT: addsd %xmm1, %xmm0			; SSE-NEXT: addsd %xmm1, %xmm0
	▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.ordered.fadd.f64.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (zero)			; vXf64 (zero)
	;			;

	define double @test_v2f64_zero(<2 x double> %a0) {			define double @test_v2f64_zero(<2 x double> %a0) {
	Show All 15 Lines
	;			;
	; AVX512-LABEL: test_v2f64_zero:			; AVX512-LABEL: test_v2f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vxorpd %xmm1, %xmm1, %xmm1			; AVX512-NEXT: vxorpd %xmm1, %xmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double 0.0, <2 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.ordered.fadd.f64.f64.v2f64(double 0.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_zero(<4 x double> %a0) {			define double @test_v4f64_zero(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_zero:			; SSE-LABEL: test_v4f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: xorpd %xmm2, %xmm2			; SSE-NEXT: xorpd %xmm2, %xmm2
	; SSE-NEXT: addsd %xmm0, %xmm2			; SSE-NEXT: addsd %xmm0, %xmm2
	Show All 24 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double 0.0, <4 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.ordered.fadd.f64.f64.v4f64(double 0.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_zero(<8 x double> %a0) {			define double @test_v8f64_zero(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_zero:			; SSE-LABEL: test_v8f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: xorpd %xmm4, %xmm4			; SSE-NEXT: xorpd %xmm4, %xmm4
	; SSE-NEXT: addsd %xmm0, %xmm4			; SSE-NEXT: addsd %xmm0, %xmm4
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double 0.0, <8 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.ordered.fadd.f64.f64.v8f64(double 0.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_zero(<16 x double> %a0) {			define double @test_v16f64_zero(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_zero:			; SSE-LABEL: test_v16f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: xorpd %xmm8, %xmm8			; SSE-NEXT: xorpd %xmm8, %xmm8
	; SSE-NEXT: addsd %xmm0, %xmm8			; SSE-NEXT: addsd %xmm0, %xmm8
	▲ Show 20 Lines • Show All 86 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double 0.0, <16 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.ordered.fadd.f64.f64.v16f64(double 0.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (undef)			; vXf64 (undef)
	;			;

	define double @test_v2f64_undef(<2 x double> %a0) {			define double @test_v2f64_undef(<2 x double> %a0) {
	Show All 9 Lines
	; AVX-NEXT: vaddsd {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vaddsd {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_undef:			; AVX512-LABEL: test_v2f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vaddsd {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double undef, <2 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.ordered.fadd.f64.f64.v2f64(double undef, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_undef(<4 x double> %a0) {			define double @test_v4f64_undef(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_undef:			; SSE-LABEL: test_v4f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: addsd {{.*}}(%rip), %xmm0			; SSE-NEXT: addsd {{.*}}(%rip), %xmm0
	Show All 18 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddsd {{.*}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vaddsd {{.*}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double undef, <4 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.ordered.fadd.f64.f64.v4f64(double undef, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: addsd {{.*}}(%rip), %xmm0			; SSE-NEXT: addsd {{.*}}(%rip), %xmm0
	Show All 39 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vaddsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double undef, <8 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.ordered.fadd.f64.f64.v8f64(double undef, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_undef:			; SSE-LABEL: test_v16f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: addsd {{.*}}(%rip), %xmm0			; SSE-NEXT: addsd {{.*}}(%rip), %xmm0
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double undef, <16 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.ordered.fadd.f64.f64.v16f64(double undef, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.ordered.fadd.f32.f32.v2f32(float, <2 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.ordered.fadd.f32.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.ordered.fadd.f32.f32.v8f32(float, <8 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.ordered.fadd.f32.f32.v16f32(float, <16 x float>)

	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.ordered.fadd.f64.f64.v2f64(double, <2 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.ordered.fadd.f64.f64.v4f64(double, <4 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double, <8 x double>)			declare double @llvm.experimental.vector.reduce.ordered.fadd.f64.f64.v8f64(double, <8 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double, <16 x double>)			declare double @llvm.experimental.vector.reduce.ordered.fadd.f64.f64.v16f64(double, <16 x double>)

test/CodeGen/X86/vector-reduce-fmul-fast.ll

	Show All 29 Lines
	; AVX-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32:			; AVX512-LABEL: test_v2f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float %a0, <2 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fmul.f32.v2f32(<2 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(float %a0, <4 x float> %a1) {			define float @test_v4f32(float %a0, <4 x float> %a1) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
	Show All 22 Lines
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float %a0, <4 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fmul.f32.v4f32(<4 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32(float %a0, <8 x float> %a1) {			define float @test_v8f32(float %a0, <8 x float> %a1) {
	; SSE2-LABEL: test_v8f32:			; SSE2-LABEL: test_v8f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm2, %xmm1			; SSE2-NEXT: mulps %xmm2, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	Show All 30 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fmul.f32.v8f32(<8 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(float %a0, <16 x float> %a1) {			define float @test_v16f32(float %a0, <16 x float> %a1) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm4, %xmm2			; SSE2-NEXT: mulps %xmm4, %xmm2
	; SSE2-NEXT: mulps %xmm3, %xmm1			; SSE2-NEXT: mulps %xmm3, %xmm1
	Show All 37 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fmul.f32.v16f32(<16 x float> %a1)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (one)			; vXf32 (one)
	;			;

	define float @test_v2f32_zero(<2 x float> %a0) {			define float @test_v2f32_zero(<2 x float> %a0) {
	Show All 17 Lines
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_zero:			; AVX512-LABEL: test_v2f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float 1.0, <2 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fmul.f32.v2f32(<2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_zero(<4 x float> %a0) {			define float @test_v4f32_zero(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_zero:			; SSE2-LABEL: test_v4f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	Show All 23 Lines
	;			;
	; AVX512-LABEL: test_v4f32_zero:			; AVX512-LABEL: test_v4f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float 1.0, <4 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fmul.f32.v4f32(<4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_zero(<8 x float> %a0) {			define float @test_v8f32_zero(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_zero:			; SSE2-LABEL: test_v8f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	Show All 31 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float 1.0, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fmul.f32.v8f32(<8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_zero(<16 x float> %a0) {			define float @test_v16f32_zero(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_zero:			; SSE2-LABEL: test_v16f32_zero:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm3, %xmm1			; SSE2-NEXT: mulps %xmm3, %xmm1
	; SSE2-NEXT: mulps %xmm2, %xmm0			; SSE2-NEXT: mulps %xmm2, %xmm0
	Show All 38 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float 1.0, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fmul.f32.v16f32(<16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (undef)			; vXf32 (undef)
	;			;

	define float @test_v2f32_undef(<2 x float> %a0) {			define float @test_v2f32_undef(<2 x float> %a0) {
	Show All 17 Lines
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_undef:			; AVX512-LABEL: test_v2f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float undef, <2 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fmul.f32.v2f32(<2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_undef(<4 x float> %a0) {			define float @test_v4f32_undef(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_undef:			; SSE2-LABEL: test_v4f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	Show All 23 Lines
	;			;
	; AVX512-LABEL: test_v4f32_undef:			; AVX512-LABEL: test_v4f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float undef, <4 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fmul.f32.v4f32(<4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_undef(<8 x float> %a0) {			define float @test_v8f32_undef(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_undef:			; SSE2-LABEL: test_v8f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm1, %xmm0			; SSE2-NEXT: mulps %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	Show All 31 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float undef, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fmul.f32.v8f32(<8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_undef(<16 x float> %a0) {			define float @test_v16f32_undef(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_undef:			; SSE2-LABEL: test_v16f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulps %xmm3, %xmm1			; SSE2-NEXT: mulps %xmm3, %xmm1
	; SSE2-NEXT: mulps %xmm2, %xmm0			; SSE2-NEXT: mulps %xmm2, %xmm0
	Show All 38 Lines
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float undef, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.unordered.fmul.f32.v16f32(<16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	;			;

	define double @test_v2f64(double %a0, <2 x double> %a1) {			define double @test_v2f64(double %a0, <2 x double> %a1) {
	Show All 10 Lines
	; AVX-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double %a0, <2 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fmul.f64.v2f64(<2 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(double %a0, <4 x double> %a1) {			define double @test_v4f64(double %a0, <4 x double> %a1) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm2, %xmm1			; SSE-NEXT: mulpd %xmm2, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	Show All 13 Lines
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX512-NEXT: vmulpd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulpd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fmul.f64.v4f64(<4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm4, %xmm2			; SSE-NEXT: mulpd %xmm4, %xmm2
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	Show All 18 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	; AVX512-NEXT: vmulpd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vmulpd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fmul.f64.v8f64(<8 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(double %a0, <16 x double> %a1) {			define double @test_v16f64(double %a0, <16 x double> %a1) {
	; SSE-LABEL: test_v16f64:			; SSE-LABEL: test_v16f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm6, %xmm2			; SSE-NEXT: mulpd %xmm6, %xmm2
	; SSE-NEXT: mulpd %xmm7, %xmm3			; SSE-NEXT: mulpd %xmm7, %xmm3
	Show All 25 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fmul.f64.v16f64(<16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (one)			; vXf64 (one)
	;			;

	define double @test_v2f64_zero(<2 x double> %a0) {			define double @test_v2f64_zero(<2 x double> %a0) {
	Show All 11 Lines
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_zero:			; AVX512-LABEL: test_v2f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double 1.0, <2 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fmul.f64.v2f64(<2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_zero(<4 x double> %a0) {			define double @test_v4f64_zero(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_zero:			; SSE-LABEL: test_v4f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	Show All 14 Lines
	; AVX512-LABEL: test_v4f64_zero:			; AVX512-LABEL: test_v4f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double 1.0, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fmul.f64.v4f64(<4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_zero(<8 x double> %a0) {			define double @test_v8f64_zero(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_zero:			; SSE-LABEL: test_v8f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm2, %xmm0			; SSE-NEXT: mulpd %xmm2, %xmm0
	Show All 19 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double 1.0, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fmul.f64.v8f64(<8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_zero(<16 x double> %a0) {			define double @test_v16f64_zero(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_zero:			; SSE-LABEL: test_v16f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm6, %xmm2			; SSE-NEXT: mulpd %xmm6, %xmm2
	; SSE-NEXT: mulpd %xmm4, %xmm0			; SSE-NEXT: mulpd %xmm4, %xmm0
	Show All 25 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double 1.0, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fmul.f64.v16f64(<16 x double> %a0)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (undef)			; vXf64 (undef)
	;			;

	define double @test_v2f64_undef(<2 x double> %a0) {			define double @test_v2f64_undef(<2 x double> %a0) {
	Show All 11 Lines
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_undef:			; AVX512-LABEL: test_v2f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double undef, <2 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fmul.f64.v2f64(<2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_undef(<4 x double> %a0) {			define double @test_v4f64_undef(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_undef:			; SSE-LABEL: test_v4f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	Show All 14 Lines
	; AVX512-LABEL: test_v4f64_undef:			; AVX512-LABEL: test_v4f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double undef, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fmul.f64.v4f64(<4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm2, %xmm0			; SSE-NEXT: mulpd %xmm2, %xmm0
	Show All 19 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double undef, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fmul.f64.v8f64(<8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_undef:			; SSE-LABEL: test_v16f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm6, %xmm2			; SSE-NEXT: mulpd %xmm6, %xmm2
	; SSE-NEXT: mulpd %xmm4, %xmm0			; SSE-NEXT: mulpd %xmm4, %xmm0
	Show All 25 Lines
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double undef, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.unordered.fmul.f64.v16f64(<16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.unordered.fmul.f32.v2f32(<2 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.unordered.fmul.f32.v4f32(<4 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.unordered.fmul.f32.v8f32(<8 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.unordered.fmul.f32.v16f32(<16 x float>)

	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.unordered.fmul.f64.v2f64(<2 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.unordered.fmul.f64.v4f64(<4 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double, <8 x double>)			declare double @llvm.experimental.vector.reduce.unordered.fmul.f64.v8f64(<8 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double, <16 x double>)			declare double @llvm.experimental.vector.reduce.unordered.fmul.f64.v16f64(<16 x double>)

test/CodeGen/X86/vector-reduce-fmul.ll

	Show All 32 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32:			; AVX512-LABEL: test_v2f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float %a0, <2 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.ordered.fmul.f32.f32.v2f32(float %a0, <2 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(float %a0, <4 x float> %a1) {			define float @test_v4f32(float %a0, <4 x float> %a1) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulss %xmm1, %xmm0			; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm1, %xmm2			; SSE2-NEXT: movaps %xmm1, %xmm2
	Show All 34 Lines
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float %a0, <4 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.ordered.fmul.f32.f32.v4f32(float %a0, <4 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32(float %a0, <8 x float> %a1) {			define float @test_v8f32(float %a0, <8 x float> %a1) {
	; SSE2-LABEL: test_v8f32:			; SSE2-LABEL: test_v8f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulss %xmm1, %xmm0			; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm1, %xmm3			; SSE2-NEXT: movaps %xmm1, %xmm3
	▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.ordered.fmul.f32.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(float %a0, <16 x float> %a1) {			define float @test_v16f32(float %a0, <16 x float> %a1) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: mulss %xmm1, %xmm0			; SSE2-NEXT: mulss %xmm1, %xmm0
	; SSE2-NEXT: movaps %xmm1, %xmm5			; SSE2-NEXT: movaps %xmm1, %xmm5
	▲ Show 20 Lines • Show All 134 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call float @llvm.experimental.vector.reduce.ordered.fmul.f32.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (one)			; vXf32 (one)
	;			;

	define float @test_v2f32_one(<2 x float> %a0) {			define float @test_v2f32_one(<2 x float> %a0) {
	Show All 17 Lines
	; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_one:			; AVX512-LABEL: test_v2f32_one:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float 1.0, <2 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.ordered.fmul.f32.f32.v2f32(float 1.0, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_one(<4 x float> %a0) {			define float @test_v4f32_one(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_one:			; SSE2-LABEL: test_v4f32_one:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
	Show All 30 Lines
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vmulss %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float 1.0, <4 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.ordered.fmul.f32.f32.v4f32(float 1.0, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_one(<8 x float> %a0) {			define float @test_v8f32_one(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_one:			; SSE2-LABEL: test_v8f32_one:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm2			; SSE2-NEXT: movaps %xmm0, %xmm2
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[2,3]
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float 1.0, <8 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.ordered.fmul.f32.f32.v8f32(float 1.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_one(<16 x float> %a0) {			define float @test_v16f32_one(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_one:			; SSE2-LABEL: test_v16f32_one:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm4			; SSE2-NEXT: movaps %xmm0, %xmm4
	; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm0[2,3]
	▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float 1.0, <16 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.ordered.fmul.f32.f32.v16f32(float 1.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (undef)			; vXf32 (undef)
	;			;

	define float @test_v2f32_undef(<2 x float> %a0) {			define float @test_v2f32_undef(<2 x float> %a0) {
	Show All 15 Lines
	; AVX-NEXT: vmulss {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vmulss {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32_undef:			; AVX512-LABEL: test_v2f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vmulss {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float undef, <2 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.ordered.fmul.f32.f32.v2f32(float undef, <2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32_undef(<4 x float> %a0) {			define float @test_v4f32_undef(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32_undef:			; SSE2-LABEL: test_v4f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
	Show All 30 Lines
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss {{.*}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vmulss {{.*}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float undef, <4 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.ordered.fmul.f32.f32.v4f32(float undef, <4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32_undef(<8 x float> %a0) {			define float @test_v8f32_undef(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32_undef:			; SSE2-LABEL: test_v8f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm2			; SSE2-NEXT: movaps %xmm0, %xmm2
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[2,3]
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float undef, <8 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.ordered.fmul.f32.f32.v8f32(float undef, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_undef(<16 x float> %a0) {			define float @test_v16f32_undef(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_undef:			; SSE2-LABEL: test_v16f32_undef:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm4			; SSE2-NEXT: movaps %xmm0, %xmm4
	; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm0[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm4 = xmm4[1,1],xmm0[2,3]
	▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulss %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float undef, <16 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.ordered.fmul.f32.f32.v16f32(float undef, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	;			;

	define double @test_v2f64(double %a0, <2 x double> %a1) {			define double @test_v2f64(double %a0, <2 x double> %a1) {
	Show All 12 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double %a0, <2 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.ordered.fmul.f64.f64.v2f64(double %a0, <2 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(double %a0, <4 x double> %a1) {			define double @test_v4f64(double %a0, <4 x double> %a1) {
	; SSE-LABEL: test_v4f64:			; SSE-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	Show All 21 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.ordered.fmul.f64.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.ordered.fmul.f64.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(double %a0, <16 x double> %a1) {			define double @test_v16f64(double %a0, <16 x double> %a1) {
	; SSE-LABEL: test_v16f64:			; SSE-LABEL: test_v16f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd {{[0-9]+}}(%rsp), %xmm8			; SSE-NEXT: movapd {{[0-9]+}}(%rsp), %xmm8
	; SSE-NEXT: mulsd %xmm1, %xmm0			; SSE-NEXT: mulsd %xmm1, %xmm0
	▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call double @llvm.experimental.vector.reduce.ordered.fmul.f64.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (one)			; vXf64 (one)
	;			;

	define double @test_v2f64_one(<2 x double> %a0) {			define double @test_v2f64_one(<2 x double> %a0) {
	Show All 11 Lines
	; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_one:			; AVX512-LABEL: test_v2f64_one:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double 1.0, <2 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.ordered.fmul.f64.f64.v2f64(double 1.0, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_one(<4 x double> %a0) {			define double @test_v4f64_one(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_one:			; SSE-LABEL: test_v4f64_one:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm2			; SSE-NEXT: movapd %xmm0, %xmm2
	; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
	Show All 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm1			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double 1.0, <4 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.ordered.fmul.f64.f64.v4f64(double 1.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_one(<8 x double> %a0) {			define double @test_v8f64_one(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_one:			; SSE-LABEL: test_v8f64_one:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm4			; SSE-NEXT: movapd %xmm0, %xmm4
	; SSE-NEXT: unpckhpd {{.*#+}} xmm4 = xmm4[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm4 = xmm4[1],xmm0[1]
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double 1.0, <8 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.ordered.fmul.f64.f64.v8f64(double 1.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_one(<16 x double> %a0) {			define double @test_v16f64_one(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_one:			; SSE-LABEL: test_v16f64_one:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movapd %xmm0, %xmm8			; SSE-NEXT: movapd %xmm0, %xmm8
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	▲ Show 20 Lines • Show All 81 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double 1.0, <16 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.ordered.fmul.f64.f64.v16f64(double 1.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (undef)			; vXf64 (undef)
	;			;

	define double @test_v2f64_undef(<2 x double> %a0) {			define double @test_v2f64_undef(<2 x double> %a0) {
	Show All 9 Lines
	; AVX-NEXT: vmulsd {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vmulsd {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64_undef:			; AVX512-LABEL: test_v2f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vmulsd {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double undef, <2 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.ordered.fmul.f64.f64.v2f64(double undef, <2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64_undef(<4 x double> %a0) {			define double @test_v4f64_undef(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64_undef:			; SSE-LABEL: test_v4f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: mulsd {{.*}}(%rip), %xmm0			; SSE-NEXT: mulsd {{.*}}(%rip), %xmm0
	Show All 18 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulsd {{.*}}(%rip), %xmm1, %xmm1			; AVX512-NEXT: vmulsd {{.*}}(%rip), %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double undef, <4 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.ordered.fmul.f64.f64.v4f64(double undef, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: mulsd {{.*}}(%rip), %xmm0			; SSE-NEXT: mulsd {{.*}}(%rip), %xmm0
	Show All 39 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0			; AVX512-NEXT: vmulsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double undef, <8 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.ordered.fmul.f64.f64.v8f64(double undef, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_undef:			; SSE-LABEL: test_v16f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: mulsd {{.*}}(%rip), %xmm0			; SSE-NEXT: mulsd {{.*}}(%rip), %xmm0
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
	; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1			; AVX512-NEXT: vextractf32x4 $3, %zmm1, %xmm1
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulsd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double undef, <16 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.ordered.fmul.f64.f64.v16f64(double undef, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.ordered.fmul.f32.f32.v2f32(float, <2 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.ordered.fmul.f32.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.ordered.fmul.f32.f32.v8f32(float, <8 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.ordered.fmul.f32.f32.v16f32(float, <16 x float>)

	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.ordered.fmul.f64.f64.v2f64(double, <2 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.ordered.fmul.f64.f64.v4f64(double, <4 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double, <8 x double>)			declare double @llvm.experimental.vector.reduce.ordered.fmul.f64.f64.v8f64(double, <8 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double, <16 x double>)			declare double @llvm.experimental.vector.reduce.ordered.fmul.f64.f64.v16f64(double, <16 x double>)

This is an archive of the discontinued LLVM Phabricator instance.

[Option B] Create explicit ordered/unordered reduction intrinsics for fadd/fmul.AbandonedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 193693

docs/LangRef.rst

include/llvm/CodeGen/BasicTTIImpl.h

include/llvm/IR/IRBuilder.h

include/llvm/IR/Intrinsics.td

lib/CodeGen/ExpandReductions.cpp

lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp

lib/IR/AutoUpgrade.cpp

lib/IR/IRBuilder.cpp

lib/Transforms/Utils/LoopUtils.cpp

test/Assembler/invalid-vecreduce.ll

test/Bitcode/upgrade-vecreduce-intrinsics.ll

test/Bitcode/upgrade-vecreduce-intrinsics.ll.bc

test/CodeGen/AArch64/vecreduce-fadd-legalization.ll

test/CodeGen/AArch64/vecreduce-fadd.ll

test/CodeGen/Generic/expand-experimental-reductions.ll

test/CodeGen/X86/haddsub.ll

test/CodeGen/X86/vector-reduce-fadd-fast.ll

test/CodeGen/X86/vector-reduce-fadd.ll

test/CodeGen/X86/vector-reduce-fmul-fast.ll

test/CodeGen/X86/vector-reduce-fmul.ll

[Option B] Create explicit ordered/unordered reduction intrinsics for fadd/fmul.
AbandonedPublic